機械学習を3種類に大別!代表的用途や手法の選定ポイントも解説
機械学習はどのような種類に分類できる?
機械学習の種類ごとに手法を整理したい
機械学習の手法を選ぶ際にはどのようなポイントに気をつければよい?
機械学習は、機械にデータを学習させて法則・パターンも見出す分析手法です。種類ごとにさまざまな分析手法が存在します。これらの種類や手法を知っておくことで、用途に応じて最適な機械学習手法を選択できるのです。
この記事では、機械学習の代表的な種類や手法、用途、選定ポイントを紹介します。
機械学習の種類を理解するための基礎知識
機械学習は、データに基づき機械による学習を実行し、データの裏にある法則・パターンを見つけ出す分析手法です。ここでは、機械学習の類語を紹介します。
- AI
- ディープラーニング
- 統計学
それでは1つずつ紹介します。
関連記事:機械学習によるデータ分析とは?機械学習の種類・統計学との違い・手法や活用事例について詳しく解説!
AI
類語の1つ目は、AIです。
AIは、推論や判断など人間の知能を人工的に実現したものです。機械学習はAIの一種と言えるもので、その中でも「非記号処理的人工知能」に分類されます。「非記号処理的人工知能」は、数式処理や自動推論などで厳密に定義できない概念に対し、大量のパターン分析・学習を通じ、既存のフレームから外れてパターンを見出すものです。画像や音声などが機械学習の分析対象になります。
関連記事:AIができること・できないことは?一覧&具体例を解説【未来予測も】
ディープラーニング
類語の2つ目は、ディープラーニングです。
ディープラーニングは機械学習の一手法で、ディープラーニングと機械学習両方ともデータを機械が解析することで法則・ルールを見出します。これにより、トレーニングを通じてタスクの実行が可能になるのです。機械学習とディープラーニングとの違いは、ディープラーニングは人間の神経を模したニューラルネットワークを何層も重ね、データの分析・学習能力を高める点にあります。
統計学
類語の3つ目は、統計学です。
機械学習は機械が自動的に学習するものであるのに対し、データのルール・パターンに統計的(確率的に正しいか)判断を行うものです。統計学は必ずしもコンピュータを使うとは限らないものの、現在ではほとんどの場合コンピュータが使われるため、両者の線引きがあいまいになってきました。また、統計学はデータの背景に存在する法則性を説明することが主目的で、機械学習はデータを正しく予測するものとして区別する人もいます。
機械学習の種類を3つに大別して解説
ここでは、機械学習の種類を紹介します。
- 教師あり学習
- 教師なし学習
- 強化学習
それでは1つずつ紹介します。
教師あり学習
機械学習の種類の1つ目は、教師あり学習です。
教師あり学習では、まず正解となる回答(ラベル)が含まれる「教師データ」(ラベル付きデータ)を、モデルに学習させます。その後、ラベルがないデータでも正解できるように学習させます。明確な正解がある問題で機械学習を行う際に有効で、正解となるデータの質・量が多いと学習の精度向上が可能です。ここでは、代表的な手法を7つ紹介します。
- 回帰分析
- SVM
- 決定木
- K近傍法
- ロジスティック回帰
- 単純ベイズ
- ニューラルネットワーク
それでは1つずつ紹介します。
回帰分析
教師あり学習手法の1つ目は、回帰分析です。
売り上げなど予測したい対象の変数(従属変数・目的変数)と、来店客数など目的変数に影響する変数(説明変数・独立変数)との関係性を分析します。データに基づき予測するケースや、データ同士の因果関係を洗い出すケースに有用です。
SVM
教師あり学習手法の2つ目は、SVMです。
SVM(サポートベクターマシン)は、データの分類に用いる境界線を見つけるための手法で、クラス間のマージンを最大化するよう境界線を決定します。画像や音声などのパターンを認識し、回帰・分類・外れ値の検出を行う際に有用です。例えば、画像認識で手書き数字の判別を行う場合や、テキスト分析でスパムメールの判定を行う際に活用されます。
決定木
教師あり学習手法の3つ目は、決定木です。
データの分類や関係性を、「木」の枝葉に似せた構造の枝分かれモデルで視覚化します。データを特定の条件で分割していくだけなので、直感的にわかりやすい上、複雑な処理も不要です。顧客の分類や医療診断などで活用できます。
K近傍法
教師あり学習手法の4つ目は、K近傍法です。
パターン認識で用いられる手法で、予測したい値を入力すると最も近いK個の近傍値を調べ、近傍値の多数決によりデータポイントのクラス分けを行います。シンプルな上、非線形的なデータにも適応可能です。顔認証やECサイトのレコメンドなどに使えます。
ロジスティック回帰
教師あり学習手法の5つ目は、ロジスティック回帰です。
複数要因より、明確に答えが2通りになる値において「2値の結果」がそれぞれどの程度の確率で起こるか分析します。答えが2通りに集約されるため、解釈が容易で計算も容易です。ロジスティック回帰では、試験での合格率などを説明できます。
単純ベイズ
教師あり学習手法の6つ目は、単純ベイズです。
ベイズ理論という確率論の定義を活用し、データが属するクラスを判定します。計算処理を高速に実施できるため、大規模なデータにも対応できます。迷惑メールのフィルタ機能や文書のカテゴリ分けなどに活用可能です。
ニューラルネットワーク
教師あり学習手法の7つ目は、ニューラルネットワークです。
人間の脳がもつニューロン(神経細胞)ネットワーク構造を人工的に模したモデルで情報処理を行います。これより学習・パターン認識を行うことで、音声や画像などの複雑なデータも処理できることがメリットです。音声からの文字起こしや人物認証などに使えます。
教師なし学習
機械学習の種類の2つ目は、教師なし学習です。
教師なし学習では、ラベルがついている教師データを使いません。目的は、与えられたデータの本質的構造・法則をアルゴリズムより抽出することです。正解となるデータがそもそも存在しない場合に用いられる手法で、分析精度が教示あり学習より落ちるものの、おおまかにデータの特徴を捉える際に有用です。ここでは、代表的な手法を3つ紹介します。
- k-means法
- 主成分分析
- 自己組織化マップ
それでは1つずつ紹介します。
k-means法
教師なし学習手法の1つ目は、k-means法です。
あらかじめk個のクラスタにデータを振り分けてデータ分析を行うことで、簡単かつ高速にデータ分析を実施できます。クラスタ数は、データの正確性と労力を比較して最適になるよう設定することが必要です。顧客のセグメンテーションや画像圧縮などに使われます。
主成分分析
教師なし学習手法の2つ目は、主成分分析です。
データがもつ情報をなるべく損なわず、より少数の重要な変数(主成分)にデータ変換することで、少ない特徴量でデータ構造を簡単に分析できます。計算効率の向上やノイズ除去などの効果があることが特徴です。株価の変動パターン予測や遺伝子パターン分析に活用できます。
自己組織化マップ
教師なし学習手法の3つ目は、自己組織化マップです。
自己組織化マップ(SOM:Self-Organizing Map)は、マップ上で入力データの類似度を表現し、複数のデータを同一クラスタに分類・集約します。グループ分けを容易に視覚化できることが特徴です。市場分析や音声の分類などに活用できます。
強化学習
機械学習の種類の3つ目は、強化学習です。
強化学習は、最初は正解データを与えずに、システムが試行錯誤しつつ回答の精度向上を図る手法です。教師あり学習と違い、与えられたデータにおいて将来的には価値の最大化を目指します。ここでは、代表的な手法を3つ紹介します。
- モンテカルロ法
- Q学習
- SARSA
それでは1つずつ紹介します。
モンテカルロ法
強化学習手法の1つ目は、モンテカルロ法です。
乱数を用いて試行実験を繰り返し、大量のサンプルより平均を算出することで、各事象が発生する期待値を算出します。妥当な答えを推定するために有効で、数値解析や統計学、物理学など幅広い分野で活用されている強化学習手法です。
Q学習
強化学習手法の2つ目は、Q学習です。
各種状態と行動の組合せに対しQ値を割り当てて、それらをQテーブルで管理します。そして、状態と行動ごとにQ値を更新していくことでその時点で価値を最大かするにはどうすればよいか学習します。ゲーム戦略の最適化などに活用可能です。
SARSA
強化学習手法の3つ目は、SARSAです。
SARSA(State-Action-Reward-State-Action)では、現在の状態からエージェントが特定の行動を起こした場合に報酬と行動後の状態が決定します。それを繰り返すことで、最適な行動を予測するものです。ロボット工学やナビゲーションシステムなどに活用できます。
機械学習を活用する用途の種類
ここでは、機械学習を活用する用途の種類を紹介します。
- 売り上げ予測
- 不正検知
- レコメンド作成
- 画像認識
- 自動運転
それでは1つずつ紹介します。
売り上げ予測
活用用途の1つ目は、売り上げ予測です。
回帰分析などを活用し、顧客情報や過去の売り上げ推移データを学習させることで、今後の売り上げ・需要を予測します。将来の需要が正確に予測できなければ、過不足なく商品を確保できるため余計な在庫や機会損失で利益を損ないかねません。よって、収益性向上には売り上げ予測は重要なポイントです。
関連記事:売上予測とは?重要な理由から具体的な計算方法・精度の高め方・ITツールを一挙に紹介!
不正検知
活用用途の2つ目は、不正検知です。
例えば、単純ベイズなどの手法を用いて、他のメールデータと明らかに違うメールを判別することで、スパムメールの検知が可能です。他にもクレジットカードや銀行の不正利用など、不正検知は犯罪防止や企業の信頼確保に役立ちます。
レコメンド作成
活用用途の3つ目は、レコメンド作成です。
ECサイトなどの閲覧・購入履歴を学習することで、ユーザーニーズに即した商品をレコメンドすることで、「ついで買い」を促して収益向上が期待できます。K近傍法などの手法を活用し、機械学習でクラスタリングを行うことで、ユーザーと同じグループのユーザーが多く購入している商品をおすすめするものです。
画像認識
活用用途の4つ目は、画像認識です。
SVMなどの手法を活用し、機械が読み込んだ画像に写っているものを判別・分析します。カメラの文字認識や顔認証に用いることで、スマートフォンの機能を拡張しています。また、製造業では不良品検知などに活用することで、品質向上や人手不足解消にも寄与している点も特筆すべき点です。
自動運転
活用用途の5つ目は、自動運転です。
SARSAなどの手法で、障害物の避け方や周囲と取るべき距離間を学習していくことで、カメラの映像に基づき安全運転を実現します。これにより、運転者の負担軽減を実現するものです。また、GPSと紐づけることで最適なルートを割り出す機能にも、機械学習が使えます。
機械学習の種類を踏まえた最適な手法の選択ポイント
ここでは、機械学習手法の選択ポイントを紹介します。
- タスクを通じ達成したい目的
- 予測データの精度
- 計算の所要時間
- アウトプットのわかりやすさ
それでは1つずつ紹介します。
関連記事:データ活用はあらゆるビジネスの必須要件に?実施方法や成功のポイントを解説
タスクを通じ達成したい目的
選択ポイントの1つ目は、タスクを通じ達成したい目的です。
機械学習の各種手法では、データの分類や数値予測、クラスタリングなど得意とするタスクが異なります。達成したい目的に応じて求められるタスクが異なるため、まずは機械学習の目的を明確にすることが必要です。課題解決にどの手法を使うべきか記載している「チートシート」も、場合によっては取り入れましょう。
予測データの精度
選択ポイントの2つ目は、予測データの精度です。
機械学習で得た予測データの精度は、手法を選ぶ際には必ず確認する必要があります。予測結果と実際の結果を比較し、差が少ないほど予測精度が高いと言えるでしょう。求める予測精度を満たせない場合は、その手法を選ぶべきではありません。ただ、予測精度が高い手法は、計算に時間がかかる傾向にあることには注意しましょう。
計算の所要時間
選択ポイントの3つ目は、計算の所要時間です。
機械学習に用いるデータ量や種類が多いと、それだけ計算時間が長くなる傾向があります。あまりに計算に時間がかかると実務で速やかに計算結果を使えないため、計算の所要時間も考慮したいポイントです。特に、分析の精度がやや落ちても、速やかにデータの全体像を把握することに重きを置きたい場合は、重視すべきポイントと言えるでしょう。
アウトプットのわかりやすさ
選択ポイントの4つ目は、アウトプットのわかりやすさです。
与えられたデータから、目的に沿った適切なアウトプットを出せることは、手法を選ぶ際には前提条件になります。同じ目的を実現できる手法が複数存在することが多いので、その際に着目したい点です。また、アウトプットが図表などでわかりやすく明示できるものであれば、人の目でデータ内容を判断しやすい上に他者への説明も容易になります。
この記事では、機械学習の代表的な種類や手法、用途、選定ポイントを紹介しました。
機械学習は、教師あり学習・教師なし学習・強化学習の3種類に大別され、それぞれに該当する分析手法は多数存在します。機械学習には売り上げ予測や画像認識などさまざまな用途がありますが、それぞれの用途に適した機械学習手法は異なるので、用途に応じて分析手法を使い分けましょう。
また、計算精度や計算速度、アウトプットのわかりやすさも考慮すると、より適切に機械学習手法の選択が可能です。