標準偏差は、データの「ばらつき」を表す値です。データ分析をする上で、とても重要な値なのですが、私のように統計学に馴染みがない人にとって、この標準偏差は、大変とっつきにくい存在ではないでしょうか? そこで今回は、標準偏差の意味や使い所を、できるだけ分かりやすくまとめてみました。
標準偏差の意味
冒頭にも書きましたが、標準偏差とはデータの「ばらつき」を表す値です。もっと正確に言うと、、、
「データが平均値の周辺にどのくらいの広がりや散らばりを持っているか」ということを表す統計量です。
完全独習 統計学入門 より引用
標準偏差は、平均値と合わせて見ることによって、データを正しく把握することができます。でも、なぜ「平均値」だけでは、正しく把握できないのでしょうか? そこで1つ例をあげて、その理由と、「標準偏差」の使い所を確認してみたいと思います。
標準偏差の使い方
ミカンを仕入れるにあたって、「平均値のみ」でデータ分析をしたネコ吉と、「平均値と標準偏差を使って」データ分析をしたワン太郎のお話です。
平均値のみでデータ分析
果物屋を経営しているネコ吉は、ミカンを10個仕入れるため、仕入れ先から、ミカンに関するデータを貰いました。中くらいの大きさ(120グラムくらい)のミカンがよく売れるので、ミカン10個の重さの「平均値」を調べてみました。
どちらのミカンも「平均の重さは120グラム」です。「どちらも中くらいの大きさのミカンだろう」と考え、ネコ吉は単価の安い、Bミカンを仕入れることにしました。
平均値と標準偏差でデータ分析
同じく青果店を経営しているワン太郎も、ミカンを10個仕入れるため、仕入れ先から、ミカンに関するデータを貰いました。やはり売れ筋は、中くらいの大きさ(120グラムくらい)のミカンなので、ミカン10個の重さの「平均値」に加えて「標準偏差」も調べてみました。
どちらのミカンも「平均の重さは120グラム」ですが、Aミカンの標準偏差は「6」、Bミカンの標準偏差は「58」と大きく違います。そこでワン太郎は、この標準偏差を使って、ミカンの重さにどのくらいの「ばらつき」があるか、計算してみました。
ばらつきの範囲は「(平均値 - 標準偏差)〜(平均値 + 標準偏差)」です。この範囲に、およそ7割のデータが含まれると言われています。
Bミカン ( 120 - 58 ) 〜 ( 120 + 58 ) = 62 〜 178
Aミカンのばらつきは「114 〜 126」グラム、Bミカンのばらつきは「62 〜 178」グラムだと分かりました。ワン太郎は「Bミカンには、小さいミカンや、大きいミカンが含まれているかもしれない」と考え、少し単価が高いですが、Aミカンを仕入れることにしました。
それぞれの分析の成果は、、
ネコ吉の青果店に、注文した Bミカン10個が届いたので、重さを量ってみました。
なんと、小さいミカンと、大きいミカンばかりで、ネコ吉が仕入れたかった、よく売れる中くらいのミカンがありません、、、
しぶしぶ Bミカンを店頭に並べてみましたが、案の定、売れ残ってしまいました。しかたがないので、売れ残ったミカンは、ネコ吉の子供たちと一緒に食べました。子供たちは美味しいミカンがたくさん食べられて喜んでいましたが、ネコ吉は少し残念そうでした。
ワン太郎の青果店にも、注文した Aミカン10個が届いたので、重さを量ってみました。
ばらつきの範囲の計算で予想した通り、全て売れ筋の中くらいのミカンです。
店頭に並べると、Aミカンは飛ぶように売れました。ワン太郎は、標準偏差のありがたみを感じつつ、Aミカンを再注文したのでした。
(おしまい)
記事中のイラストは、下記サイトの素材を使用しています。
ミカン「無料イラスト かわいいフリー素材集 | いらすとや」
ネコ吉とワン太郎「イラスト工房」
まとめ
少し強引な例でしたが(^^;)「平均値」だけでデータを見てしまうと、ネコ吉のような痛い目にあうかもしれませんね。
ただ、誤解しないで頂きたいのは、「平均値」でデータを見るのが「悪い」ということではありません。分かりやすく最も普及している「平均値」は、最重要の統計量だと、私は思います。
この「平均値」と合わせて「標準偏差」を見ることによって、より正確にデータを把握することができるのです。
5秒で出来る!標準偏差の求め方
標準偏差は、エクセルの STDEVP関数 使えば、一瞬で計算できます。データ分析時に AVERAGE関数 で平均を計算する時に、合わせて標準偏差も計算することをオススメします。
※厳密には、n-1法の STDEV関数 を使う場合もありますが、私は気にしないことにしています。
標準偏差は、少し大変ですが手作業でも計算できます。もし計算方法に興味のある方は こちらの記事 をご参照ください。
終わりに
この記事の標準偏差の説明は、かなりざっくりしたものです。標準偏差について、ちゃんと知りたい方には、記事の中でも引用させて頂いた、書籍「完全独習 統計学入門」がオススメです。著者の方が「標準偏差にこれほどのページ数をさいている教科書はほかにない」と自負されるだけあって、標準偏差について詳細かつ分かりやすく説明されています。
コメント
相関係数について調べててたどり着きましたが標準偏差すら知らなかったのにわかりやすく理解できてよかったです
>しろさん
コメントありがとうございます。
記事が参考になったようでよかったです。
まあ正規分布前提だとそうなりますね。しかし世間はそう甘くありません。詳しくは
島根大学の久保田教授の材料物理数学再武装というものがあります。
>熱力学関係さん
ちょっと読んでみましたが「材料物理数学再武装」面白そうですね!
ご紹介ありがとうございます。
正規分布が成り立たない事例は結構インパクトがありますね。ISOとかこういう思想を取り入れているんでしょうか?
>史上最強の弟子ケンイチさん
コメントありがとございます。
この記事ではネジの長さを例題としていますが、ISO規格とは関連ございません。
まぎわらしい例でスミマセン(^^;)
グスコーブドリの伝記の伝記に出てくるイーハトーブのクーボー大博士の歴史の歴史みたいなところありますね。
>サステナブルエンジニアさん
コメントありがとうございます。
グスコーブドリの伝記はじめて知りました!勉強になります。
とってもかわいい例えなうえ助かりました!ありがとうございました
>えっふぇるさん
お褒めのコメントありがとうございます!
この記事がお役に立ったようでよかったです。