2020/8/12号:データ分析で間違ってしまいやすい平均値の罠

  皆様こんにちは。株式会社アミューズ・ファクトリーの関です。

  私自身が現在、店舗分析の精度を高めるために統計について学び直しているなかで、

データ分析で間違ってしまいがちなポイントについてお伝えしたいと思います。

 

  データの特徴をつかむために誰でも知っている便利な統計指標の代表格である

「平均値」において、多くの人が陥ってしまいがちな罠があります。

 

  平均値は全体を「1つのもの」に集約させることで、理解や認知をしやすくするために

利用されており、データの「大きさ」についての代表値としての役割を果たし得ますので、

非常に便利な指標です。

 

  しかしながら、平均値に対して、何となくデータ全体の真ん中になる値といった認識が

多い傾向にありますが、その平均値が本当にデータを代表する値なのかにまで

注意が向けられていることは少ないです。

 

  例えば、平均値を代表的な数値と認識している場合、

平均値とその周辺にデータが最も多く存在し、平均から離れるにしたがってデータの数が

徐々に減っている状態を前提にしていることが多いです。

 

  この場合には、代表値と呼ぶのにふさわしいですが、データ全体の散らばりを

確認せずに平均値の前提を上記のような状態として扱ってしまいますと、

思わぬ罠にはまる危険性があります。

 

  なぜなら、平均値は極端な値に影響を受けるためです。

  そして、データのバラつき度合いが大きいほど、極端な値の存在が増えるため、

その結果、平均値が必ずしも代表値とは限らない可能性が高まりますので、

注意が必要です。

 

  なお、平均値を代表値として扱っても良いかを判断するために、

全てのデータの散らばりを調べることは、実務上は現実的ではありませんので、

簡易的な方法として、「中央値」を使うことができます。

 

  中央値は、全てのデータのちょうど真ん中になる数値となりますので、

もし、データが平均値を中心にほぼ均等に散らばっていれば、中央値は平均値に近い

値になりますし、平均が極端な数値に引っ張られているような場合には、

平均値と中央値の差が大きくなります。

  使い慣れた指標でも、むやみに使ってしまいますと罠にはまってしまい、

正しい分析ができなくなってしまう可能性がありますので、

ご注意頂きたいポイントとしてお伝えさせて頂きました。

 

  ご参考になりましたら幸いです。

 

 

-----------------------------------------------------------------------------------------------------------

 

チェーン店様が成長する過程で必ず抱えるニーズに万全な体制でサポート致します

 

-----------------------------------------------------------------------------------------------------------

 

配信停止はこちらよりお進みください