データ分析の基礎をまるっと解説!データ分析のポイントを総まとめ
データ分析をするにしても何から手を付ければいいのかわからない
情報を集めても次に何をすればいいのかわからない
データ分析の基礎を確認したい
データ分析を始める際、上記のような悩みを抱える方も多いかもしれません。しかし、データ分析の基本的なステップを知れば、迷わずにデータ分析が進められるようになります。ここでは、初めてデータ分析をご担当される方向けに、データ分析の8つの基礎や、データ分析で陥りがちな点をわかりやすく解説します。この記事を読めば、データ分析の大枠がつかめ、データ分析の基本的な進め方がわかるようになるはずです。
ここでは、データ分析の基礎を知るために、分析の流れを8つのパートに分けて解説していきます。データ分析をするにあたって統計の話だけではなく、8つのプロセスを経てはじめて意味のある分析になります。
- 分析の目的の明確化
- 仮説を立てる
- データ分析の計画を立てる
- データ分析に必要な情報を収集す
- 分析するためのデータ加工
- 分析を実行
- 分析結果を解釈
- PDCAを回す
それでは1つずつ解説していきます。
分析の目的の明確化
データ分析の1つ目の基礎は、データ分析において目的を明確にすることです。何のために分析をするのかが決まっていないと、そのデータ分析は徒労に終わる可能性があります。目的なくデータ分析をすると何のためにデータを分析するのかがわからないため、とりあえず手元にあるデータを分析してしまい、結果として何に使える分析結果なのかが誰もわからないで終わることも少なくありません。まずは目的を紙に書くなどして明確化していくようにしましょう。
関連記事:データ分析の目的とは?明確にする理由から方法まで分かりやすく解説|Yellowfin BI
仮説を立てる
データ分析の2つ目の基礎は、仮説を立てることです。データ分析を行う目的が明確に決まったら、今度はその目的を達成するための課題を検討していきます。そのときに、なぜ現状の課題が出てきているのか仮説を立て、データ分析をしながらどの仮説が目的を達成するために重要なのか検証をしていきます。たとえば一口に売上が低いと言っても、「新規売上の減少」「既存売上の減少」「客単価が悪い場合」「客数が少ない場合」など項目が細分化されていくため、どこが課題なのか仮説を立てながらデータ分析をしていきます。
データ分析の計画を立てる
データ分析の3つ目の基礎は、データ分析の計画を立てることです。データ分析の目的が決まったら課題を引き起こす要因をデータ分析するための計画を立てていきます。まず、課題を引き起こす要因の仮説を検証するために必要なデータは何かを考えデータ収集方法を検討します。また、データ分析を行うにあたって必要な時間、コスト、技術的な課題があれば明確にしていきます。
データ分析に必要な情報を収集する
データ分析の4つ目の基礎は、データ分析に必要な情報を収集することです。データをやみくもに収集しても無駄になってしまいますので、データ分析計画に沿って必要なデータを収集していきます。データ収集にあたり必要な量・質などに課題が見つかったら適宜軌道修正していきます。データ収集にはBIツールを使うことで、データ収集が自動化できる等効率アップが見込めるため、検討してみるとよいでしょう。
分析するためのデータ加工
データ分析の5つ目の基礎は、分析するためのデータ加工です。データ加工はデータ分析を行う時間の大半を占める場合があります。収集したデータをそのまま使おうとしてもデータ分析が正しくできない場合がありますので、文字表記の統一、数字の粒度の調整などをしていきます。具体的には、年齢表記で20~29歳と1歳刻みで記載している資料を20代に統一してデータの粒度を揃えます。
分析を実行
データ分析の6つ目の基礎は、分析を実行することです。データの加工まで終了したら、データの分析を行います。データ分析の実行は、おおまかに言えば、データをツールに入れ分析手法を選択して結果を算出します。様々な分析手法があり、専門的な知識を要する場合もあるため、何も知らない未経験の場合では対応できないこともあります。ただし、BIツールなどを使うことで自動的に行えることもあるため、社内の状況に応じて導入を検討してもよいでしょう。
分析結果を解釈
データ分析の7つ目の基礎は、分析結果を解釈することです。データ分析の解釈は専門家を通して考えるか、複数のメンバーで客観的に目的に応じた洞察を述べるようにします。分析の結果を出しただけでは意味はなく、分析した結果を解釈してどうすれば目的が達成されるのか洞察することで、初めて意味が出てきます。
PDCAを回す
データ分析の7つ目の基礎は、PDCAを回すことです。データ分析は、何回も繰り返し行うことで精度が高まっていきます。そのため、データ分析結果をもとに目的を達成するための方法を実行したら、効果測定を行うようにしましょう。そして、効果測定の結果に対して課題を見つけてデータ分析を実行するルーティーンを何度も実施します。このようなPDCAを回すことでデータ分析の精度が高まり、目的の達成に近づいていきます。
データ分析の基礎を何度も見直すことが大事
上記の8つの基礎の流れでデータ分析を行っていくことになりますが、データ分析をしながら違和感があれば何度も立ち返りながらデータ分析を実行していきます。なぜならば、データ分析を8つの基礎の流れで実行していく途中でわかることも多いためです。
- 分析を開始して目的があいまいだったことに気づき、一番最初の「目的の明確化」に戻った
- 分析結果に違和感があり、データを見直した際にデータ加工が不十分だった
- 当初の予定通りデータが集まらないので、データ収集方法を再検討した
具体的には、上記のような例が挙げられます。
データ分析で陥りがちな基礎的な注意点
ここではデータ分析で陥りがちな基礎的な注意点を解説していきます。
- データ分析結果を平均だけで判断しないこと
- シンプソンのパラドックスには注意すること
それでは、1つずつ解説していきます。
データ分析結果を平均だけで判断しないこと
データ分析で陥りがちな基礎的な注意点の1つ目は、データ分析結果を平均だけで判断してしまうことです。就職活動をするときに下記のようなデータがあっても、30代になれば1,000万円の収入がもらえるとは限りません。
A社 平均年齢31.5歳 平均年収1,005万円
ある特定の社員が多くもらっており、その他は給与としては低い場合も考えられるためです。平均で判断してしまうと内情が見えない場合がありますので、ヒストグラムを作り全体の分布を把握する必要があります。
シンプソンのパラドックスには注意すること
データ分析で陥りがちな基礎的な注意点の2つ目は、シンプソンのパラドックスにかかってしまうことです。アメリカの統計学者E.H.シンプソンが提唱したシンプソンのパラドックスとは「母集団全体を2つに分けた場合にある仮説が成立しても、母集団全体では正反対の仮説が成立してしまう」というものです。たとえば、下記が成立する場合であってもA会社全体の平均年収はB会社全体の平均年収を上回るとは言えません。
(例)
A会社の文系職平均年収>B会社の文系職平均年収
A会社の理系職平均年収>B会社の理系職平均年収
下記のように、仮に理系職・文系職の人数が偏っていた場合、B会社全体の平均年収はA会社全体の平均年収を上回ることになります。
※A会社全体平均年収680万円・B会社全体平均年収720万円
データ分析に慣れていない、もしくは専門的な知識がない場合はシンプソンのパラドックスには注意するようにしましょう。
まとめ
ここまでデータ分析の基礎として8つの項目と、データ分析で陥りがちな点に関してまとめてきました。データ分析は魔法の杖のように思われることもありますが、必ずしもそうではなく、目的を達成するための手段の1つです。基礎をもとに何度もPDCAを回しながら進めていくことで、効果的なデータ分析ができるようになります。目的に合ったBIツールを使用して、データ分析の集計や分析の効率化を図ることがおすすめです。