Stochastic Online Anomaly Analysis for Streaming Time Series 読んだ

Stochastic Online Anomaly Analysis for Streaming Time Series (IJCAI 2017) https://doi.org/10.24963/ijcai.2017/445

Student-t process を使ったストリーミング時系列に対する新しい異常検知手法を提案する。 時系列関数が Student-t process に従うと仮定し予測分布を推定する。 得られた予測分布に対して実際の観測値が確率 p の予測区間から外れた場合を異常とみなす。 モデルの学習はフルベイズで行われ、カーネル関数の持つハイパーパラメータについても学習する。 (カーネル関数の選択はある程度重要になってくると思われるが論文中では選択法については触れていない) 通常はバッチ学習だがストリーミングデータに対応するために SGD を用いたオンライン学習手法に改変する。 実験では、既存手法より提案手法の方が、異常検知精度と予測精度の両方において良いという結果が得られた。 [Smith+ 2012] ではガウス過程を使った同様の手法が提案されているが、学習データに外れ値が含まれている場合に予測精度が落ちる。 これに対し、Student-t process では外れ値に対してロバストであることを実験により示した。

言葉

ノートを取るくらい素直だったら、って思うことがあるよ。仕事を始めてすぐに大事なことをいっぱい見聞きするんだ。それをメモしておけば、もっと早くコツをつかめたかもしれないのに。手間を惜しんだってより、勘違いしてたんだな。技術は身につけるものだから、身体で覚えるだろうと思って

羊と鋼の森 (文春文庫)

羊と鋼の森 (文春文庫)

Anomaly Detection in Streams with Extreme Value Theory 読んだ

Anomaly Detection in Streams with Extreme Value Theory (KDD 2017) http://www.kdd.org/kdd2017/papers/view/anomaly-detection-in-streams-with-extreme-value-theory

ほとんどの異常検知手法は異常スコアを算出するが、異常かどうかを判断するためのしきい値を設定するのは難しい課題である。 本論文ではより直感的なパラメータとして偽陽性率を設定するだけでしきい値が自動決定される新しい異常検知手法を提案する。 さらに本手法は他の手法で見られるようなデータがなんらかの確率分布に従うという仮定を置かずに利用できる。 これには極値理論を利用する。極値理論は確率分布の最大値(最小値)のふるまいに関する理論である。 中心極限定理と同様に、極値理論では任意の分布の最大値がある分布に分布収束することが知られている。 ただし、一般の分布に対してこのパラメータを推定するのは難しいため Peaks-Over-Threshold (POT) アプローチを用いる。 POT アプローチはあるしきい値を超える値が一般化パレート分布に従うというもので、パラメータ推定はある方程式の根を求めることに帰着する。 複数の根を求める必要があるが、これを最小化問題に帰着し、L-BFGS-B などの一般的で高速な最適化手法で解く。 POT をストリーミングデータに適用するためのアルゴリズム SPOT と基準値が変化(drift)する場合に拡張したアルゴリズム DSPOT を提案する。 これらの手法をいくつかのデータに適用し有用性を示した。 特に汎用PCで1秒間に1000サンプル以上をさばくことができるため、高頻度なストリーミングデータに適用可能である。

参考

www.yasuhisay.info

Sparse Gaussian Markov Random Field Mixtures for Anomaly Detection 読んだ

Sparse Gaussian Markov Random Field Mixtures for Anomaly Detection (ICDM 2016) http://ide-research.net/papers/2016_ICDM_Ide.pdf

複数の動作モードに対応可能かつ変数ごとの異常スコアを算出できる新しい異常検知手法を提案する。 通常、異常検知を行いたいシステムは複数の動作モードを持つことが多いが従来の手法ではこれに対応できない。 また、ホテリング T2 などの古典的な手法では多変量であっても異常スコアは観測ごとにしか算出されない。 変数ごとに異常スコアが算出できればシステムのどこに異常が生じたかを突き止めやすくなる。 これらの問題に対応するため、ガウスマルコフ確率場の混合モデルを考え、その変分ベイズ推定アルゴリズムを導出する。 ガウスマルコフ確率場により、ある変数の異常スコアを同じ観測の他の変数の値から求めることができる。 また、混合モデルにより複数の動作モードを表現できる。 動作モードの数(混合数)は不明なため、大きめの数を設定しておけば重みをスパースに推定し、混合数を自動決定する仕組みを取り入れる。 実験として、合成データに対して混合数、混合比率、動作モードについてうまく推定できることを示した。 また、オイル生産コンプレッサーの実データを用いて、他の手法と比較して異常検知性能が良いことを示した。

参考

www.yasuhisay.info

言葉

言葉

「いいかい、君たち。分からなければ聞けばいい。持っていないなら借りればいい。逆に聞かれたら教えるべきだし、持っているものは与えるべきだ。人間、一人でできることなど高が知れている。技術の世界はみんなで共に創る『共創』が肝心だ」

newswitch.jp

Twitterで検索にユーザ名が引っかからないようにする方法

すぐ忘れるのでメモっておく。ちなみに OR は大文字じゃないとダメ。