ほくそ笑む

R言語と統計解析について

Anomaly Detection in Streams with Extreme Value Theory 読んだ

Anomaly Detection in Streams with Extreme Value Theory (KDD 2017) http://www.kdd.org/kdd2017/papers/view/anomaly-detection-in-streams-with-extreme-value-theory

ほとんどの異常検知手法は異常スコアを算出するが、異常かどうかを判断するためのしきい値を設定するのは難しい課題である。 本論文ではより直感的なパラメータとして偽陽性率を設定するだけでしきい値が自動決定される新しい異常検知手法を提案する。 さらに本手法は他の手法で見られるようなデータがなんらかの確率分布に従うという仮定を置かずに利用できる。 これには極値理論を利用する。極値理論は確率分布の最大値(最小値)のふるまいに関する理論である。 中心極限定理と同様に、極値理論では任意の分布の最大値がある分布に分布収束することが知られている。 ただし、一般の分布に対してこのパラメータを推定するのは難しいため Peaks-Over-Threshold (POT) アプローチを用いる。 POT アプローチはあるしきい値を超える値が一般化パレート分布に従うというもので、パラメータ推定はある方程式の根を求めることに帰着する。 複数の根を求める必要があるが、これを最小化問題に帰着し、L-BFGS-B などの一般的で高速な最適化手法で解く。 POT をストリーミングデータに適用するためのアルゴリズム SPOT と基準値が変化(drift)する場合に拡張したアルゴリズム DSPOT を提案する。 これらの手法をいくつかのデータに適用し有用性を示した。 特に汎用PCで1秒間に1000サンプル以上をさばくことができるため、高頻度なストリーミングデータに適用可能である。

参考

www.yasuhisay.info