【異常値検出】One Class SVM(OC-SVM)とアイソレーションフォレストによる外れ値検知【Python】

2021年5月1日 2021年5月1日

DSE総研オンライン編集部

サポートベクターマシン（SVM）とランダムフォレストの異常値検出版といえるのがOne Class SVM(OC-SVM)とアイソレーションフォレストです。SVMとランダムフォレストの基礎から学びたい人は以下の記事を参照してください。

【Python】ワインで学ぶSVM(サポートベクターマシン),SVR(サポートベクターレグレッション)

2021.4.1

サポートベクターマシンとは？サポートベクターマシンはSVM(Support Vector Machine)とも呼ばれる機械学習のアルゴリズムです。特に2000年~2010年頃までは非常に注目されており、ディープラーニングが登場する前はとても人気のあるアルゴリズムでした。分類だけでなく、サポートベ...

機械学習初心者はまず決定木とランダムフォレストを学ぼう！

2021.3.26

決定木とランダムフォレストを学ぶと、機械学習への理解が一気に進む。機械学習初心者は決定木とランダムフォレストを理解すると上級者への未知が開けてくる。...

この記事では、OC-SVMとアイソレーションフォレストの概要、Pythonによる簡単な実装例を紹介します。Pythonのscikit-learnというライブラリを活用すると簡単に実装できます。

1 異常値検出はどんなビジネスに活用できるのか？
2 One Class SVM(OC-SVM)とアイソレーションフォレストは教師なし学習
3 SVMを異常値検出に応用したOC-SVM
4 PythonとOC-SVMによる簡単な外れ値検知の実装
5 アイソレーションフォレストの概要
6 Pythonとアイソレーションフォレストによる異常値検出の簡単な実装
7 まとめ

異常値検出はどんなビジネスに活用できるのか？

クレジットカードの不正取引を検出したり、工場で熱やサイズの異常を検知したりすることができます。他にも故障を発見したり、音の異常を見抜いたりなど、活用シーンが非常に多いです。

One Class SVM(OC-SVM)とアイソレーションフォレストは教師なし学習

SVMとランダムフォレストが教師あり学習だったのに対して、OC-SVMとアイソレーションフォレストは教師なし学習です。そのため、「正常」「異常」などの正解ラベルがなくても異常値検出を行うことができます。ラベルの設定の手間が不要である点は非常に魅力的です。

SVMを異常値検出に応用したOC-SVM

本記事執筆者による話題の新刊！発売即重版！

一般に、多数の正常値データが得られる一方、異常値データは多く手に入りません。そのため、正常値データのみを学習することでその正常値データの特徴をつかみ、その特徴とは異なる異常値データを判別します。それを実現するのがOC-SVMなのです。

ここからはOC-SVMの説明をしますが、図を見るとイメージをつかめると思いますので、下図を見ながら読み進めてください。OC-SVMは、正常値データをグループ1、原点のみをグループ2とし、SVMと同様にカーネル法で高次元の空間に変換します。このとき、カーネル法により都合の良い空間に変換されており、グループ１は原点（グループ2）から離れたところに位置しています。そして、SVMのマージン最大化と同様に、原点からの距離が最大となる境界を求めます。そうすると都合が良いことに、異常値データを入力すると、そのデータは変換された空間内で原点に近いところに集まります。これにより原点に近い（境界の原点側にある）データを異常値データとみなすことができます。

PythonとOC-SVMによる簡単な外れ値検知の実装

OC-SVMの重要なハイパーパラメータはnuです。トレーニングを行うデータは常にきれいなデータとは限らないため、トレーニングデータの中にある異常値の割合を設定する必要があり、これがnuです。今回は0~1の値の乱数を99個作成し、そこに異常値を1個加えた100個のデータでトレーニングを行います。トレーニングデータ100個のうち1個が異常値なので、nu=0.01とします。また、予測の実行結果は、1が正常値、-1が異常値となります。

#必要なモジュールをインポート
import numpy as np
from numpy.random import rand
from sklearn.svm import OneClassSVM

#0~1の値を取る乱数を99個作成
random_train = rand(99)
#トレーニングデータに潜ませる異常値データ
ab_train= 1.5
#上記のデータを結合し、100行1列のデータに整形
X_train = np.append(random_train,ab_train).reshape(-1,1)

#テストデータ。5個のデータがあり、最後のデータ「2」が異常値
X_test =np.array([0.5,0.7,0.3,0.2,2]).reshape(-1,1)

#OC-SVMをインスタンス化。トレーニングデータには1個異常値が含ませているので、nu=0.01とする
clf = OneClassSVM(nu = 0.01,gamma='auto')
#トレーニングの実行
clf.fit(X_train)

#予測の実行
pred = clf.predict(X_test)
#-1(異常値)となったデータのインデックスを表示
np.where(pred < 0)
#インデックス4（最後）のデータとなり、確かに異常値を判定できている。

アイソレーションフォレストの概要

詳細を厳密に語るのではなく、ざっくりとイメージを理解できるよう説明します。
ランダムフォレストも異常値検出に用いることができ、それをアイソレーションフォレストと呼びます。これらはともに決定木をベースとしたアルゴリズムです。決定木を異常値検出にどう用いるかというと、「異常値データはすぐに決定木のリーフノード（これ以上分割できないノード）になる」ことを利用しています。
ランダムフォレストのように多数の決定木を発生させますが、その際にランダムに特徴量を選択し、ランダムに特徴量の分岐ポイントを選択します。この「ランダムに分岐ポイントを選択する」という点が重要です。ランダムに分岐ポイントを選んだとき、異常値データは正常値データより早くリーフノード（これ以上分割できないノード）となる確率が高いからです。多数の決定木を作成し、各データがリーフノードとなるまで木を成長させます（途中で打ち切る場合もあります）。そして、それぞれのデータの木の深さの平均値を算出し、平均値が小さいデータほど異常を示していると判断します。

Pythonとアイソレーションフォレストによる異常値検出の簡単な実装

アイソレーションフォレストはOC-SVMとほぼ同じコードで実装できます。OC-SVMのnuに対応したハイパーパラメータとして、アイソレーションフォレストではcontaminationというものがあります。予測の実行結果が、正常値が1、異常値が-1となる点も同じです。

#必要なモジュールをインポート
import numpy as np
from numpy.random import rand
from sklearn.ensemble import IsolationForest

#0~1の値を取る乱数を99個作成
random_train = rand(99)
#トレーニングデータに潜ませる異常値データ
ab_train= 1.5
#上記のデータを結合し、100行1列のデータに整形
X_train = np.append(random_train,ab_train).reshape(-1,1)

#テストデータ。5個のデータがあり、最後のデータ「2」が異常値
X_test =np.array([0.5,0.7,0.3,0.2,2]).reshape(-1,1)

#アイソレーションフォレストをインスタンス化。OC-SVMのnuに対応するのがcontamination。何も設定しない場合は"auto"となる。
clf = IsolationForest(contamination=0.01)
#トレーニングの実行
clf.fit(X_train)

#予測の実行
pred = clf.predict(X_test)
#-1(異常値)となったデータのインデックスを表示
np.where(pred < 0)
#インデックス4（最後）のデータとなり、確かに異常値を判定できている。

まとめ

架空のデータですが、OC-SVMとアイソレーションフォレストともに簡単に実装できました。scikit-learnは非常に便利なライブラリですね。異常値検出は非常に応用範囲が広く、実際のビジネスでも多く導入されています。

ここまで長文を読んでいただきありがとうございました。

スポンサードリンク

この記事を書いた人

DSE総研オンライン編集部

執筆責任者：中村一也（なかむらかずや）。DSE総研代表理事兼特別主席研究員。専門はデータドリブンによる生産性向上。AI・機械学習・DXなど先端テクノロジー領域に加えて、生産性を向上させる個人・組織の行動を研究する組織行動学(経営学の一分野)にも精通。データと論文知識をベースとした科学的観点から組織の生産性向上をサポートしている。京都大学経済学部にて金融工学を専攻し、日本生命保険相互会社に入社。主としてデータ分析業務に従事（日本生命で「業績管理」と呼ばれる業務）後、退職。著書・メディア掲載多数。さまざまな企業・自治体・大学・各種団体にて講師として登壇。著書：『７つのゼロ思考』（ぱる出版）、『だから論理少女は嘘をつく』（自由国民社）、『僕が無料の英語マンガで楽にTOEIC900点を取って、映画の英語を字幕なしでリスニングできるワケ』（扶桑社）。