• その他記事
    当研究所ホームページについて
    2018年4月5日
  • AI・機械学習
    人工知能・機械学習アルゴリズムの簡単な使い分け方【後編】
    2018年4月25日
  • AI・機械学習
    人工知能・機械学習アルゴリズムの簡単な使い分け方【前編】
    2018年4月25日
  • AI・機械学習
    Python言語オンラインークラウド上で実行可能ー
    2018年4月5日
  • AI・機械学習
    AIは未来のEXCEL―あなたが人工知能を習得するべき理由―
    2018年4月24日
  • その他記事
    PDF/X規格(CMYK)に安価で変換できるソフト
    2018年4月9日
  • AI・機械学習
    R言語でクロス集計ができるパッケージ―エクセルとの比較―
    2018年4月9日
  • AI・機械学習
    人工知能・機械学習は、そもそも何を学習しているのか?
    2018年4月29日
  • AI・機械学習
    R言語オンラインークラウド上で実行可能ー
    2018年4月5日
  • その他記事
    【実は可能】郵便物の時間指定配達を受取人が変更できる条件
    2018年4月24日
  • AI・機械学習
    それでもノンプログラマーにPythonではなくR言語をすすめる理由
    2018年4月30日
人工知能・機械学習アルゴリズムの簡単な使い分け方【後編】

前回の記事→機械学習アルゴリズムの簡単な使い分け方【前編】

【前回記事のまとめ】
・機械学習初心者にはランダムフォレストを推奨する
・機械学習アルゴリズムをバイアス・バリアンスという誤差で整理する
・ランダムフォレストのベースになっている決定木(非線形モデル)は低バイアス・高バリアンスモデル
・ランダムフォレストに代表されるアンサンブル学習の目的は、決定木の欠点だったバリアンスを低下させること
・ランダムフォレストは、低バイアス・低バリアンスモデル

 後編では、機械学習初心者にランダムフォレストを推奨する理由を、
②前処理の煩雑さ
③ハイパーパラメータの数
④特徴量重要度の確認

の観点から説明する。

②前処理の煩雑さ


 「Garbage In Garbage Out」(ゴミデータからはゴミのような結果しか得られない)という機械学習の重要な鉄則がある。多くの場合、たとえ大量のデータを保有していたとしても、データの前処理をせずに学習すると芳しい結果を得られないことがある。実は、どの機械学習アルゴリズムを選択するかよりも、データの質や特徴量選択の方が結果に影響を与える場合が多い。データサイエンティストの腕の見せどころは、この前処理である。

 最近、「前処理の自動化に成功した」という発表がよく行われているが、「完全自動化」はなかなか難しいのではないかと私は思っている。なぜなら、機械学習とは「データから一般法則を導くこと(帰納)」だからだ。膨大なデータ量があれば問題ないが、「少ないデータから法則を導く」必要に迫られることも多い。その場合、「データだけでは足りない」のだ。そして、少ないデータ量を補うために、「人間のドメイン知識(その分野に関する専門家のアドバイスなど)」を利用する。

 たとえば、前処理の一つに「標準化」(特徴量の平均をゼロ、分散を1にする処理)という工程がある。多くの機械学習アルゴリズムがこの標準化という過程を必要としている。ある特徴量の分散が極端に大きい場合、その特徴量が予測結果に多大な影響を与えてしまうからだ。

 なんとありがたいことにランダムフォレストは、ベースとなる決定木が特徴量のスケールに影響されないアルゴリズムのため、標準化を必要としない。前処理に対する理解の浅い機械学習初心者にとっては、必要なステップが減るため利用しやすいのだ。

③ハイパーパラメータの数


 ハイパーパラメータというと、仰々しい名称だが、要するに「人間が値を設定する必要がある」パラメータのことだ。どんな機械学習アルゴリズムも、複数のハイパーパラメータに値を設定しなければならない。ディープラーニングに代表される高度なアルゴリズムには、多数のハイパーパラメータが存在する。このハイパーパラメータの設定は、ある意味職人芸なのだ。ところが、ランダムフォレストの基本的なハイパーパラメータはたった2つしかない。

①作成する決定木の本数
②個々の決定木に使用する特徴量の数

 この2つだけなら、機械学習初心者でも扱いやすいはずだ。

④特徴量重要度の確認


 上の図のように、決定木は学習の結果を図解できる説明力の高いモデルだ。ニューラルネットのような機械学習アルゴリズムの多くは、「なぜその予測結果となったか?」を理解することができないブラックボックスモデルだ。上司や顧客から「なぜその予測結果になったのか?」と質問された場合、「そうなったからです」としか答えることができない

 ところがその質問に、決定木なら答えることができる。したがって、決定木はホワイトボックスモデルなどと表現されることがある。そして決定木をベースとするランダムフォレストは、上の図のような図示はできないものの、特徴量の重要度を算出することができる。つまり、「なるほど、この予測結果になったのはこの特徴量が効いているんだな」のような理解が可能となるのだ。

 ここまで2回に渡り、機械学習初心者になぜランダムフォレストを推奨するのかを説明してきた。そのために以下4つの観点から考察した。

①バイアスとバリアンス
②前処理の煩雑さ
③ハイパーパラメータの数
④特徴量重要度の確認

 これら4つは、どの機械学習アルゴリズムに関しても有効な視点となる。もちろん計算速度などの視点も考慮する必要はあるが、紙面の都合上本記事ではここまでとする。大事なことは、「他の人が使っているから」や「なんとなく」という理由ではなく、明確な根拠を持ってアルゴリズムを選択することだ。

人工知能・機械学習アルゴリズムの簡単な使い分け方【前編】
2018.5.2
いきなり結論だ。機械学習初心者にはランダムフォレストを推奨する。この記事では、なぜランダムフォレストなのかを、数式を使わず直感的に解説する。 ランダムフォレストとは何か? ランダムフォレストとは、決定木(データ構造を木のように表現したアルゴリズム)のパワーアップ版だ。厳密にいうと、決定木を弱学習器と...
関連キーワード
AI・機械学習の関連記事
  • それでもノンプログラマーにPythonではなくR言語をすすめる理由
  • 人工知能・機械学習は、そもそも何を学習しているのか?
  • 人工知能・機械学習アルゴリズムの簡単な使い分け方【後編】
  • 人工知能・機械学習アルゴリズムの簡単な使い分け方【前編】
  • AIは未来のEXCEL―あなたが人工知能を習得するべき理由―
  • R言語でクロス集計ができるパッケージ―エクセルとの比較―
おすすめの記事