相関係数は、体重と身長など、2つの値の関係の強さを示す数値です。相関係数を使えば「Aの商品を買っている人は、Bの商品を買うことが多い」のような傾向を、見つける事が出来るかもしれません。統計学を使ったデータ分析で、まず初めに使ってみたくなるのが、この「相関係数」ではないでしょうか? そこで今回は、相関係数の求め方を、出来るだけ分かりやすくまとめてみました。
例題
例として、ある商品メーカーの、商品A と 商品B の相関係数を求めてみます。商品A と 商品B の販売個数は以下の通りです。
5秒で出来る!相関係数の求め方
どうしても今すぐに、相関係数を計算したい場合は、エクセルの CORREL関数 を使えば、一瞬で相関係数を計算できます。お急ぎの方はぜひご活用ください。
相関係数を求める式
相関係数は、以下の計算式で求められます。
「共分散」や「標準偏差」など、統計学では聞き慣れない言葉が、たくさん出てくるので戸惑いますね(^^;) ただ、それらを求める計算式は、ごくごくシンプルです。普通の計算機があれば簡単に求められます。
まずは、商品A の「標準偏差」を求めてみましょう。
標準偏差は、データ分析をする上で、とても重要な値です。もし興味がありましたら「5分で分かる!「標準偏差」の使い方」も合わせてご参照ください。
商品A の「標準偏差」
「標準偏差」は以下の手順で求めます。ここでも聞き慣れない言葉「偏差」や「分散」が出てきますが、順を追っていけば計算はいたって簡単です。
平均
初めに、商品A の販売個数の合計を、取引先の数で割って「平均」を求めます。
偏差
続いて、取引先ごとの「偏差」を求めます。偏差と聞くと、なにやらややこしそうですが、各販売個数から平均を引くだけです。
12 - 40.8 | = | -28.8 |
38 - 40.8 | = | -2.8 |
28 - 40.8 | = | -12.8 |
50 - 40.8 | = | 9.2 |
76 - 40.8 | = | 35.2 |
分散
「分散」はその名の通り、データの「ばらつき」を表す値です。偏差の平均を計算すれば、ばらつき度合いを表せそうですが、偏差は合計すると必ず 0 になり、当然ですが平均も 0 になります。そのため、偏差を二乗した平均を計算し、これを「分散」とします。
-28.8 ² | = | 829.44 |
-2.8 ² | = | 7.84 |
-12.8 ² | = | 163.84 |
9.2 ² | = | 84.64 |
35.2 ² | = | 1239.04 |
平均 | 分散:464.96 |
標準偏差
「標準偏差」の計算は、分散の平方根(ルート)を計算するのみです。 分散は偏差を二乗しているため、値が大きくなります。こうなると、販売個数と単位が異なるため、解釈がしづらくなります。そこで、分散の平方根を求め、二乗された値を元に戻します。
同様の流れで 商品B の「標準偏差」を計算すると 26.42 が求められます。
続いて、商品A と 商品B の「共分散」を求めます。
共分散
「共分散」は、取引先ごとの 商品A と 商品B の偏差(販売個数 - 平均)を掛け合わせたものの平均です。相関係数の計算で一番大変なところです。計算機で計算しているとエクセルのありがたみが身にしみます。
商品A 偏差 | 商品B 偏差 | |||
( 12 - 40.8 ) | × | ( 28 - 59.6 ) | = | 910.08 |
( 38 - 40.8 ) | × | ( 35 - 59.6 ) | = | 68.88 |
( 28 - 40.8 ) | × | ( 55 - 59.6 ) | = | 58.88 |
( 50 - 40.8 ) | × | ( 87 - 59.6 ) | = | 252.08 |
( 76 - 40.8 ) | × | ( 93 - 59.6 ) | = | 1175.68 |
平均 | 共分散:493.12 |
相関係数
ここまでで、相関係数の計算に必要な、商品A と 商品B の「標準偏差」と「共分散」が準備できました。少し整理しておきます。
商品B の 標準偏差: 26.42
共分散: 493.12
あとは、相関係数を求める式 共分散 ÷ ( 商品Aの標準偏差 × 商品Bの標準偏差 ) に当てはめて、計算するだけです。
相関係数は -1 から 1 の値になります。一般的に相関係数が 0.7 以上は、強い関係があるとされていますので、相関係数 0.87 の 商品A と 商品B には何か関連がありそうですね。
この相関係数を元に、営業部門なら、商品Aだけ売れている取引先があれば、商品Bを提案してみる。製造部門なら、商品Aと商品Bの部材を共通化して、コストダウンを図るなどの活用が考えられます。
また、この計算結果を利用して、商品Aの販売個数から商品Bの売れ行きを予測することもできます。詳しくは『5分でわかる!「回帰係数」の求め方』をご参照ください。
散布図を描こう!
相関係数の計算と合わせて「散布図」を描くことが重要です。散布図はエクセルを使えば簡単に描くことができます。
はずれ値もなく、右上がりに点が並んでいるので、散布図で見ても、商品A と 商品B には強い関係があると言えますね。
終わりに
相関係数の求め方を簡単にご紹介致しましたが、かなりの部分の説明をはしょっています(^^;) 相関係数などの統計学を、しっかり理解したい方は(自分も含め)専門の書籍などをご参考にしてください。
コメント
とてもいいとおもいました
ありがとうございます!
分散の計算箇所ですが、
全体の数-1で4で割らないといけないのでは??
>tellさん
ご質問ありがとうございます。
「全体の数-1の4」「全体の数の5」どちらでも問題ない というのが私の考えです。ただ、統計学の専門家の方にはおこられるかもしれません(^^;)
少しこみいった話になりますが、母集団(例えば100個のミカン)から 標本(そこから取り出した10個のミカン)の分散を計算する場合は「全体の数-1」で割りますが、この記事の「商品A と 商品B の販売個数」は標本ではないため「全体の数」で割ることにしています。