5分で分かる!区間推定「信頼区間」の求め方

5分で分かる!区間推定「信頼区間」の求め方
あぱーブログ
2016年5月11日  カテゴリー:データ分析  タグ: , ,
Pocket
LINEで送る

区間推定は、標本の統計量を元に、母集団の平均などを、幅(区間)を持たせて推定する統計学の手法です。この推定した幅を「信頼区間」と言います。例えば、100万本のネジの長さの平均のように、母集団が大きい場合でも、区間推定を使えば、すべてのネジの長さを測らなくても、平均を推定することが出来ます。そこで今回は、母平均(母集団の平均)の信頼区間の求め方を、出来るだけ分かりやすくまとめてみました。

例題

とあるネジ工場で働くワン太郎は、上司から「型番Aのネジの長さの平均を調べておいて、急ぎだから今日中ね!」と頼まれました。しかし、型番Aのネジは100万本以上あり、しかも遠方の倉庫に保管されているため、ワン太郎の手元には、型番Aのネジが「10本」しかありません。(以下、型番Aのネジを単純に「ネジ」と表記します)

またいつもの無茶振りだよ、、困ったなあと、ワン太郎は思いながら、とりあえずネジ10本の長さを測って、平均を計算しました。

ネジ10本の長さの表

ただ、この平均を、100万本以上あるネジすべての長さの平均(これを「母平均」と呼びます)として報告するのは、いくらなんでも無理があります。そこで、先輩のニャン子さんに相談してみると「母平均の「信頼区間」を求めて報告するのがいいわよ」と教えてもらいました。

ワン太郎が先輩のニャン子さんに相談

イラストby:ワン太郎とニャン子さん「イラスト工房」、ネジ「素材ライブラリー.com

信頼区間を求める式

母平均の「信頼区間」は、以下の計算式で求められます。

標本平均 ± t × 標本標準偏差 ÷ √標本の数

区間推定では、母集団と標本を区別して考える必要があるため、標本平均、標本標準偏差と表記していますが、ワン太郎の手元にあるネジ10本(標本)の平均や標準偏差のことを、そう呼んでいるだけです。

ただ、なかなか理解しづらいところなので、今回の母集団と標本について、少し整理しておきます。

母集団と標本について整理した表

さらによく分からないのが「t」ですが、この t の値は「t分布表」という便利な表から、簡単に導き出せます。

それではまず、少し計算が大変な、標本標準偏差を求めてみましょう。

標本標準偏差

標本標準偏差は、以下の手順で求めます。分散ではなく、不偏分散の平方根(ルート)を、標本標準偏差とするのが特徴です。

標本標準偏差を求める手順

標本平均

すでにワン太郎も計算していますが、ワン太郎の手元にある、ネジ10本(標本)の長さの平均を計算し、これを「標本平均」と呼びます。

( 31 + 29 + 28 + 35 + 30 + 30 + 32 + 27 + 33 + 29 ) ÷ 10 = 30.4(標本平均)

偏差

続いて、ネジ1本ごとの長さから、標本平均を引いて「偏差」を求めます。

31 - 30.4 =  0.6
29 - 30.4 =  -1.4
28 - 30.4 =  -2.4
35 - 30.4 =  4.6
30 - 30.4 =  -0.4
30 - 30.4 =  -0.4
32 - 30.4 =  1.6
27 - 30.4 =  -3.4
33 - 30.4 =  2.6
29 - 30.4 =  -1.4

不偏分散

「不偏」と言われると、なにか難しそうですが、普通の分散は、偏差の二乗の合計を「標本数」で割るのに対して、不偏分散は、「標本数 - 1」で割るだけのことです。統計学の教科書ではこれをよく ( n - 1 ) と表記していますね。

0.6 ² = 0.36
-1.4 ² = 1.96
-2.4 ² = 5.76
4.6 ² = 21.16
-0.4 ² = 0.16
-0.4 ² = 0.16
1.6 ² = 2.56
-3.4 ² = 11.56
2.6 ² = 6.76
-1.4 ² = 1.96
合計 52.4

 
52.4 ÷ ( 10 - 1 ) = 5.822(不偏分散)

標本標準偏差

最後に不偏分散の平方根(ルート)を計算して、これを標本標準偏差とします。

√5.822 = 2.413(標本標準偏差)

t の値

続いて、t分布表から t の値を求めます。t の値は、標本(ネジ10本)の「自由度」と、信頼区間の「信頼係数」によって、変わってきます。

自由度

また聞きなれない「自由度」という言葉が出てきましたが、「標本数 - 1」 ( n - 1 ) のことを「自由度」と言います。不偏分散の計算にも登場しましたね。今回の標本はネジ10本なので、自由度は「9」になります。

信頼係数

信頼係数は、これから求める「信頼区間の当たる確率」です。信頼係数は「95%」を使うことにします。

t の値

下の t分布表から、自由度「9」、信頼係数は「95%」に対応する t の値を求めます。

t(信頼係数95%)= 2.262

長くなりましたが、以上で信頼区間の計算の下準備完了です。

t分布表

自由度信頼係数:95%信頼係数:99%
112.70663.657
24.3039.925
33.1825.841
42.7764.604
52.5714.032
62.4473.707
72.3653.499
82.3063.355
92.2623.250
102.2283.169
112.2013.106
122.1793.055
132.1603.012
142.1452.977
152.1312.947
162.1202.921
172.1102.898
182.1012.878
192.0932.861
202.0862.845
212.0802.831
222.0742.819
232.0692.807
242.0642.797
252.0602.787
262.0562.779
272.0522.771
282.0482.763
292.0452.756
302.0422.750
402.0212.704
602.0002.660
1201.9802.617
2401.9702.596
正規分布1.9602.576

余談ですが、自由度(標本数-1)が大きくなると、t の値が、正規分布の値とほとんど変わらなくなります。これが「標本数が大きい場合は、正規分布を使ってよい」と言われている理由です。

信頼区間の計算

ここまでで、信頼区間の計算に必要な値が揃いましたので、少し整理しておきます。

標本平均:30.4
t(信頼係数95%):2.262
標本標準偏差:2.413
標本数:10

あとは、信頼区間を求める式「標本平均 ± t × 標本標準偏差 ÷ √標本の数」に当てはめて、計算するだけです。

30.4 - 2.262 × 2.413 ÷ √10 = 28.674
30.4 + 2.262 × 2.413 ÷ √10 = 32.126

自由度(標本数-1)がよく出てくるので、信頼区間の計算でも「標本数-1」としそうになりますが、(私だけでしょうか)信頼区間の計算ではそのまま「標本数」を使います。

以上で、母平均「100万本以上あるネジすべての長さの平均」の信頼区間は、
信頼係数(当たる確率)95%で「 28.674mm 〜 32.126mm 」 と求められました。
 

「R」2行で出来る!「信頼区間」の求め方

統計解析ソフトの「R」を使えば、わずか2行のコマンドを入力するだけで、信頼区間を求められます。「95 percent confidence interval」の下に表示されているのが、信頼係数95%の信頼区間です。
 

終わりに

この記事の信頼区間の説明は、かなりざっくりしたものです(^^;) 詳しくは統計学の書籍などをご参照ください。私が読んだ書籍の中では「まずはこの一冊から 意味がわかる統計学 (BERET SCIENCE)」がオススメです。書籍名通り、区間推定や信頼区間の意味が、とても分かりやすく書かれています。初学者向けの本ですが、不偏分散や自由度のことがしっかり解説されているのも特徴かと思います。

スポンサーリンク
Pocket
LINEで送る

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です