A Survey Of Methods For Explaining Black Box Models メモ (2)

機械学習の解釈可能性についてのサーベイ

  • Guidotti+ (2018) "A Survey Of Methods For Explaining Black Box Models"

のメモ

4 Open The Black Box Problems

4.1 Problem Formulation

  • 問題の定式化を行う
  • 予測器とは特徴空間からターゲット空間への写像である
  • 学習器関数とは、(特徴空間 x ターゲット空間) -> (特徴空間 -> ターゲット空間) の写像である
  • 教師あり学習ではデータセットは訓練とテストに分けられる
  • 解釈不能なモデル b
    • b がブラックボックスとは、関数の背後にある推論が人間には理解できず、返された結果はその選択の手がかりを与えないことである。
  • 理解可能なモデル c
    • c はグローバルまたはローカルな説明が可能
  • 予測器の性能評価は、精度と忠実度で行われる
    • これらは同じ方法で計算できる

Black Box Model Explanation

Black Box Outcome Explanation

Black Box Inspection Problem

Transparent Box Design Problem

  • 透過ボックスの設計問題とは、局所的または大域的に解釈可能なモデルを与えることである
  • 例えば決定木のような解釈可能なモデルを設計する

  • このサーベイで「ブラックボックスを開く」というとき、上記の4つのどれかを指している

5 Problem And Explanator Based Classification

  • このセクションでは、既存研究を分類するための特徴を説明する
  • 主な特徴は次の4つ
    • 問題のタイプ (セクション4で述べた)
    • 説明のタイプ
    • ブラックボックスモデルのタイプ
    • データのタイプ
  • セクション6以降の構成
  • さらにそれぞれのセクションは説明のタイプによってサブセクションに分かれる
    • Decision Tree (DT)
    • Decison Rules (DR)
    • Feature Importance (FI)
    • Salient Mask (SM): 画像やテキストデータに対して、特定の出力を引き起こす原因となる部分を視覚的に強調する
    • Sensitivity Analysis (SA): 入力の不確定性のさまざまな原因に関するブラックボックスの出力の不確定性を評価する (?)
    • Partial Dependence Plot (PDP)
    • Prototype Selection (PS): 出力と一緒に、分類されたレコードに非常によく似た例を返して、予測がどの基準で返されたかを明確にする
    • Neurons Activation (NA): 特定の入力レコードに関して活性化されるニューロンの観察
  • 開かれるブラックボックスモデルのタイプ
    • Neural Network (NN)
    • Tree Ensemble (TE)
    • Support Vector Machine (SVM)
    • Deep Neural Network (DNN)
    • AGN (Agnostic Explanator): 特定のタイプのブラックボックス、説明、データタイプに関連付けられていない、理解可能な予測器
  • データのタイプ
    • Tabular (TAB): 表形式のデータ
    • Image (IMG): 画像
    • Text (TXT): テキスト
  • p20 表1 は既存研究を網羅的に示し、それぞれの特徴を記したもの

Reverse Engineering: A Common Approach For Understanding The Black Box

  • ブラックボックスの「モデル」「出力」「検査」問題を解く一般的なアプローチはリバースエンジニアリングである
    • 特定のデータに対するブラックボックスの出力をオラクルとし、理解可能な予測器を訓練する
  • オラクルを生成するための入力データを作成する方法は2つある
    • 制御された方法で入力を生成
    • 入力のランダム摂動 (random perturbations) を使う
  • リバースエンジニアリングは一般化可能かどうかで分類できる
    • 一般化可能とは、オラクルを得るためにブラックボックスへ渡すのは入力データのみである場合
    • 一般化可能なアプローチは任意のモデルに適用可能 (agnostic)
    • 一般化可能でないとは、入力データの他に特定のブラックボックスモデルの特性を渡す場合
    • 例えば、ランダムフォレストを開く場合に、ツリー間の距離を使用するなど
  • p20の表1 では、General 欄で一般化可能かどうか、Rondom 欄でランダム摂動を使うかどうかを示す

A Survey Of Methods For Explaining Black Box Models メモ (1)

機械学習の解釈可能性についてのサーベイ

  • Guidotti+ (2018) "A Survey Of Methods For Explaining Black Box Models"

のメモ

1 Introduction

  • 現在、センシティブな個人情報を予測する機械学習モデルはブラックボックスである
    • クレジットスコア、保険リスク、健康状態など
    • データにバイアスや偏見が入っている場合、学習モデルはそれを継承する危険性がある
  • 一般データ保護規則 (GDPR) が欧州で施行される
    • 自動化された意思決定が行われたとき、個人が論理的で意味のある説明を受ける権利が含まれる
  • 理解できない意思決定システムは倫理、安全性、生産責任の上で問題がある
    • データにはバイアスが紛れる可能性がある
    • 学習モデルは間違った意思決定を下す可能性がある
    • ガートナー「2018年までにビジネス倫理違反の半分がビッグデータ分析の不適切な使用により発生する」
    • 学習モデルには「説明」が必要である
  • 解釈可能な機械学習は長く研究されてきたが結果をまとめたものはない
    • 多少はあるが問題点がいくつかある
    • (なのでこの論文でまとめる)

2 Needs for Interpretable Models

  • このセクションではブラックボックスの危険性について述べる
  • 人間の判断に基づくデータを使って学習すると、意図せずに偏見を持つ分類器になることがある
  • 古くは1980年代にセントジョージ病院医学部の入学試験の一次審査を行うプログラムで、女性と少数民族を差別していた
  • 最近では propublica.org のジャーナリストは「犯罪再犯の危険性」(Northpointe 銀行の企業秘密)の予測モデルである COMPAS スコアが強い民族的偏見を持っていることを示した
  • Princeton の研究は、黒人の名前は白人の名前に比べて不愉快な言葉に関連していることを示した
  • Amazon.com は2016年に無料の即日配達を提供する米国の地域を決定するために使用されたプログラムが、無意識的に少数民族の地域を排除した
  • 3つの主要米国銀行(Experian、TransUnion、Equifax)の間でクレジットスコアが大幅に異なることが示された
    • 大きなばらつきがあるということは3つの採点システムが大きく異なっており隠れたバイアスを持っているか、非常に恣意的であることを意味している
  • バイアスの例として、1つ目は軍の作成した敵タンクと味方タンクを画像識別する分類器が、テストスコアは良好だったのに実戦ではまるで役に立たなかった
    • のちに判明した原因は、味方タンクの画像は曇りの日に撮られ、敵タンクは晴れの日に撮られたことだった
  • バイアスの例の2つ目は、オオカミとハスキー犬を区別する分類器が、背景に雪のある場合のみをオオカミと判別していた
  • ディープニューラルネットワーク(DNN)は画像判別やテキスト分類に関して精度が良い。
    • しかし人間にはわからないノイズを加えることで誤判別する
    • このようなシステムを信頼するのは難しい

3 Interpretable, Explainable and Comprehensible Models

  • このセクションでは解釈可能性、説明力(explainability)、理解可能性(comprehensibility)とは何かについて述べる
  • 解釈可能性は、人間に理解可能な用語で意味を説明または提供する能力と定義される
  • 予測結果に対して意思決定を下さないなら解釈可能でなくて良い

3.1 Dimensions of Interpretability

  • 解釈可能性にはいくつかの次元がある
  • Global <-> Local
    • モデルのすべてのロジックが理解できる <-> 予測結果に対してなぜそうなったかが分かる
  • 解釈に要する時間が短い <-> 長い
    • 災害時の判断は迅速に行う必要があるが、ローンの解約手続きにはより詳しい説明が好まれる
  • 解釈者の専門性が高い <-> 低い
    • 解釈者の知識はバラバラであり、専門性が高い解釈者にはより詳細な説明が必要
  • 既存の文献では Global <-> Local の次元しか考えられていない

3.2 Desiderata of an Interpretable Model

  • 解釈可能なモデルを実現するには次のことを考慮する必要がある
    • 解釈可能性: モデルの複雑さ。モデルサイズで測る
    • 精度: 予測の正確さ。F1-score などで測る
    • 忠実度:予測器を正確に再現できるか。F1-score などで測るが、精度と異なり結果の再現度を測る
  • モデルにさらに必要なもの
    • 公平性、プライバシー
    • 単調性(ある数値特徴量が増えるとクラス割り当て確率が増えるなど)があると解釈しやすい
    • ユーザビリティ:人々はタスクを達成するのに役立つ情報を提供するモデルを信頼する
    • 信頼性、堅牢性、因果関係、スケーラビリティ、一般性

3.3 Recognized Interpretable Models

  • 現在、解釈可能とされるモデルは、決定木、決定則、線形モデルの3つ
  • 決定木は if-then 形式の決定則に変換することが可能
    • if-then ルール: if 条件 then 結果
  • 決定則は if-then ルールの他に次のルールを含む
    • m-of-n ルール: n個の条件のうち m個が真ならば真
    • list of rules: given an ordered set of rules is considered true the consequent of the first rule which is verified
    • falling rule lists: consists of a list of if-then rules ordered with respect to the probability of a specific outcome and the order identifies the example to be classified by that rule
    • decision sets: an unordered set of classification rules is provided such that the rules are not connected by else statements, but each rule is an independent classifier that can assign its label without regard for any other rules
  • 決定木と決定則の解釈可能性の違い(ここらへん何いってるかわからなかった)
  • 線形モデルは特徴量に対する係数の符号と大きさで結果への寄与がわかる
  • 予測が間違うようなインスタンスの分析は重要である(ここらへんもようわからん)

3.4 Explanations and Interpretable Models Complexity

  • モデルの複雑さを評価するのは難しいのでモデルサイズにより粗い近似が使われる
  • 線形モデルの複雑さ: ゼロでない係数の数
  • 決定則の複雑さ: 条件の長さ
  • (ここら辺わからん)
  • 決定木と決定則の違いについて(わからん)

3.5 Interpretable Data for Interpretable Models

  • データのタイプによっても解釈可能性は異なる
  • 人間にとって最も理解しやすい形式はテーブル(表)
  • 画像とテキストは人間に理解されやすい
    • アルゴリズムに直接入れることはできない
    • ベクトルへの変換が必要 → ベクトルは人間には理解不可能
    • SVMニューラルネット、DNN などは解釈困難
    • 通常はこれらが使われるため画像とテキストに解釈可能なモデルを直接適用できない
  • 他にもシーケンスデータ、時空間データ、複雑なネットワークデータなど
    • これらに取り組んだ既存研究はない

A Survey Of Methods For Explaining Black Box Models メモ (2) - ほくそぽえむ

参考

【記事更新】私のブックマーク「機械学習における解釈性(Interpretability in Machine Learning)」 – 人工知能学会 (The Japanese Society for Artificial Intelligence)

Laplace accuracy

Classification based on predictive association rules (CPAR) is a more advanced AR based classifier based on information metric [34]. In CPAR, Laplace accuracy is used to measure the accuracy of rules. Given a rule r, it is defined as follows:

 \displaystyle \ \ Laplace \ accuracy\ (r) = \frac{(N_c + 1)}{(N_{total} + m)}

where  m is the number of classes,  N_{total} is the total number of examples that satisfy the rule's body, among which  N_c examples belong to the predicted class,  c of the rule. For classification, the best  k rules of each class are selected from the rule sets of each class. By comparing the averaged Laplace accuracy of the best  k rules of each class, the class with the best accuracy is chosen as the predicted class.

Rule Extraction from Support Vector Machines (Studies in Computational Intelligence)

Rule Extraction from Support Vector Machines (Studies in Computational Intelligence)

Stochastic Online Anomaly Analysis for Streaming Time Series 読んだ

Stochastic Online Anomaly Analysis for Streaming Time Series (IJCAI 2017) https://doi.org/10.24963/ijcai.2017/445

Student-t process を使ったストリーミング時系列に対する新しい異常検知手法を提案する。 時系列関数が Student-t process に従うと仮定し予測分布を推定する。 得られた予測分布に対して実際の観測値が確率 p の予測区間から外れた場合を異常とみなす。 モデルの学習はフルベイズで行われ、カーネル関数の持つハイパーパラメータについても学習する。 (カーネル関数の選択はある程度重要になってくると思われるが論文中では選択法については触れていない) 通常はバッチ学習だがストリーミングデータに対応するために SGD を用いたオンライン学習手法に改変する。 実験では、既存手法より提案手法の方が、異常検知精度と予測精度の両方において良いという結果が得られた。 [Smith+ 2012] ではガウス過程を使った同様の手法が提案されているが、学習データに外れ値が含まれている場合に予測精度が落ちる。 これに対し、Student-t process では外れ値に対してロバストであることを実験により示した。

言葉

ノートを取るくらい素直だったら、って思うことがあるよ。仕事を始めてすぐに大事なことをいっぱい見聞きするんだ。それをメモしておけば、もっと早くコツをつかめたかもしれないのに。手間を惜しんだってより、勘違いしてたんだな。技術は身につけるものだから、身体で覚えるだろうと思って

羊と鋼の森 (文春文庫)

羊と鋼の森 (文春文庫)

Anomaly Detection in Streams with Extreme Value Theory 読んだ

Anomaly Detection in Streams with Extreme Value Theory (KDD 2017) http://www.kdd.org/kdd2017/papers/view/anomaly-detection-in-streams-with-extreme-value-theory

ほとんどの異常検知手法は異常スコアを算出するが、異常かどうかを判断するためのしきい値を設定するのは難しい課題である。 本論文ではより直感的なパラメータとして偽陽性率を設定するだけでしきい値が自動決定される新しい異常検知手法を提案する。 さらに本手法は他の手法で見られるようなデータがなんらかの確率分布に従うという仮定を置かずに利用できる。 これには極値理論を利用する。極値理論は確率分布の最大値(最小値)のふるまいに関する理論である。 中心極限定理と同様に、極値理論では任意の分布の最大値がある分布に分布収束することが知られている。 ただし、一般の分布に対してこのパラメータを推定するのは難しいため Peaks-Over-Threshold (POT) アプローチを用いる。 POT アプローチはあるしきい値を超える値が一般化パレート分布に従うというもので、パラメータ推定はある方程式の根を求めることに帰着する。 複数の根を求める必要があるが、これを最小化問題に帰着し、L-BFGS-B などの一般的で高速な最適化手法で解く。 POT をストリーミングデータに適用するためのアルゴリズム SPOT と基準値が変化(drift)する場合に拡張したアルゴリズム DSPOT を提案する。 これらの手法をいくつかのデータに適用し有用性を示した。 特に汎用PCで1秒間に1000サンプル以上をさばくことができるため、高頻度なストリーミングデータに適用可能である。

参考

www.yasuhisay.info

Sparse Gaussian Markov Random Field Mixtures for Anomaly Detection 読んだ

Sparse Gaussian Markov Random Field Mixtures for Anomaly Detection (ICDM 2016) http://ide-research.net/papers/2016_ICDM_Ide.pdf

複数の動作モードに対応可能かつ変数ごとの異常スコアを算出できる新しい異常検知手法を提案する。 通常、異常検知を行いたいシステムは複数の動作モードを持つことが多いが従来の手法ではこれに対応できない。 また、ホテリング T2 などの古典的な手法では多変量であっても異常スコアは観測ごとにしか算出されない。 変数ごとに異常スコアが算出できればシステムのどこに異常が生じたかを突き止めやすくなる。 これらの問題に対応するため、ガウスマルコフ確率場の混合モデルを考え、その変分ベイズ推定アルゴリズムを導出する。 ガウスマルコフ確率場により、ある変数の異常スコアを同じ観測の他の変数の値から求めることができる。 また、混合モデルにより複数の動作モードを表現できる。 動作モードの数(混合数)は不明なため、大きめの数を設定しておけば重みをスパースに推定し、混合数を自動決定する仕組みを取り入れる。 実験として、合成データに対して混合数、混合比率、動作モードについてうまく推定できることを示した。 また、オイル生産コンプレッサーの実データを用いて、他の手法と比較して異常検知性能が良いことを示した。

参考

www.yasuhisay.info