5分で分かる!相関係数の求め方

データ分析
データ分析
スポンサーリンク

相関係数は、体重と身長など、2つの値の関係の強さを示す数値です。相関係数を使えば「Aの商品を買っている人は、Bの商品を買うことが多い」のような傾向を、見つける事が出来るかもしれません。統計学を使ったデータ分析で、まず初めに使ってみたくなるのが、この「相関係数」ではないでしょうか? そこで今回は、相関係数の求め方を、出来るだけ分かりやすくまとめてみました。

例題

例として、ある商品メーカーの、商品A と 商品B の相関係数を求めてみます。商品A と 商品B の販売個数は以下の通りです。

◎ 商品Aと商品Bの販売個数
商品Aと商品Bの販売個数の表

5秒で出来る!相関係数の求め方

どうしても今すぐに、相関係数を計算したい場合は、エクセルの CORREL関数 を使えば、一瞬で相関係数を計算できます。お急ぎの方はぜひご活用ください。

相関係数を求める式

相関係数は、以下の計算式で求められます。

相関係数 = 共分散 ÷( 商品Aの標準偏差 × 商品Bの標準偏差 )

「共分散」や「標準偏差」など、統計学では聞き慣れない言葉が、たくさん出てくるので戸惑いますね(^^;) ただ、それらを求める計算式は、ごくごくシンプルです。普通の計算機があれば簡単に求められます。

まずは、商品A の「標準偏差」を求めてみましょう。

標準偏差は、データ分析をする上で、とても重要な値です。もし興味がありましたら「5分で分かる!「標準偏差」の使い方」も合わせてご参照ください。

商品A の「標準偏差」

「標準偏差」は以下の手順で求めます。ここでも聞き慣れない言葉「偏差」や「分散」が出てきますが、順を追っていけば計算はいたって簡単です。
標準偏差を求める手順をまとめた表

平均

初めに、商品A の販売個数の合計を、取引先の数で割って「平均」を求めます。

( 12 + 38 + 28 + 50 + 76 ) ÷ 5 = 40.8

偏差

続いて、取引先ごとの「偏差」を求めます。偏差と聞くと、なにやらややこしそうですが、各販売個数から平均を引くだけです。

12 - 40.8 =  -28.8
38 - 40.8 =  -2.8
28 - 40.8 =  -12.8
50 - 40.8 =  9.2
76 - 40.8 =  35.2

分散

「分散」はその名の通り、データの「ばらつき」を表す値です。偏差の平均を計算すれば、ばらつき度合いを表せそうですが、偏差は合計すると必ず 0 になり、当然ですが平均も 0 になります。そのため、偏差を二乗した平均を計算し、これを「分散」とします。

-28.8 ² = 829.44
-2.8 ² = 7.84
-12.8 ² = 163.84
9.2 ² = 84.64
35.2 ² = 1239.04
平均 分散:464.96

標準偏差

「標準偏差」の計算は、分散の平方根(ルート)を計算するのみです。 分散は偏差を二乗しているため、値が大きくなります。こうなると、販売個数と単位が異なるため、解釈がしづらくなります。そこで、分散の平方根を求め、二乗された値を元に戻します。

√464.96 = 標準偏差:21.56

同様の流れで 商品B の「標準偏差」を計算すると 26.42 が求められます。

続いて、商品A と 商品B の「共分散」を求めます。

共分散

「共分散」は、取引先ごとの 商品A と 商品B の偏差(販売個数 - 平均)を掛け合わせたものの平均です。相関係数の計算で一番大変なところです。計算機で計算しているとエクセルのありがたみが身にしみます。

商品A 偏差 商品B 偏差
( 12 - 40.8 ) × ( 28 - 59.6 ) = 910.08
( 38 - 40.8 ) × ( 35 - 59.6 ) = 68.88
( 28 - 40.8 ) × ( 55 - 59.6 ) = 58.88
( 50 - 40.8 ) × ( 87 - 59.6 ) = 252.08
( 76 - 40.8 ) × ( 93 - 59.6 ) = 1175.68
平均 共分散:493.12

相関係数

ここまでで、相関係数の計算に必要な、商品A と 商品B の「標準偏差」と「共分散」が準備できました。少し整理しておきます。

商品A の 標準偏差: 21.56
商品B の 標準偏差: 26.42
共分散: 493.12

あとは、相関係数を求める式 共分散 ÷ ( 商品Aの標準偏差 × 商品Bの標準偏差 )  に当てはめて、計算するだけです。

493.12 ÷ ( 21.56 × 26.42 ) = 相関係数:0.87

相関係数は -1 から 1 の値になります。一般的に相関係数が 0.7 以上は、強い関係があるとされていますので、相関係数 0.87 の 商品A と 商品B には何か関連がありそうですね。

この相関係数を元に、営業部門なら、商品Aだけ売れている取引先があれば、商品Bを提案してみる。製造部門なら、商品Aと商品Bの部材を共通化して、コストダウンを図るなどの活用が考えられます。

また、この計算結果を利用して、商品Aの販売個数から商品Bの売れ行きを予測することもできます。詳しくは『5分でわかる!「回帰係数」の求め方』をご参照ください。

散布図を描こう!

相関係数の計算と合わせて「散布図」を描くことが重要です。散布図はエクセルを使えば簡単に描くことができます。
商品Aと商品Bの販売個数の散布図

はずれ値もなく、右上がりに点が並んでいるので、散布図で見ても、商品A と 商品B には強い関係があると言えますね。

終わりに

相関係数の求め方を簡単にご紹介致しましたが、かなりの部分の説明をはしょっています(^^;) 相関係数などの統計学を、しっかり理解したい方は(自分も含め)専門の書籍などをご参考にしてください。

コメント

  1. 村石祐樹 より:

    とてもいいとおもいました

  2. tell より:

    分散の計算箇所ですが、
    全体の数-1で4で割らないといけないのでは??

    • >tellさん
      ご質問ありがとうございます。
      「全体の数-1の4」「全体の数の5」どちらでも問題ない というのが私の考えです。ただ、統計学の専門家の方にはおこられるかもしれません(^^;)

      少しこみいった話になりますが、母集団(例えば100個のミカン)から 標本(そこから取り出した10個のミカン)の分散を計算する場合は「全体の数-1」で割りますが、この記事の「商品A と 商品B の販売個数」は標本ではないため「全体の数」で割ることにしています。

タイトルとURLをコピーしました