統計学の教科書で「標本 n が十分に大きい場合は、t分布ではなく標準正規分布にしたがう」といった記述を見かけたことがありませんか? 数学の応用の統計学にしては「十分」とは、ずいぶん抽象的な表現に感じます。できれば具体的に、「標本数が○○以上の場合は〜」として欲しいところですね。そこで今回は、この「十分に大きい」の大きさは、数値にするといくつなのかを調べてみました。
統計学の書籍を調べてみた
手元に何冊かある、統計学の書籍で、標本数や自由度(標本数-1のことです)と、t分布/標準正規分布の関係について書いてある部分を、調べてみました。
統計学入門(基礎統計学)東京大学教養学部統計学教室 P202より引用
k が大きい場合(たとえば 30 以上の場合)は、標準正規分布とほとんど変わらない
k は自由度のことを指しています。統計学のバイブル的な書籍だけあって、この「30」を基準としている、ネット上の記事をよく見かけます。
完全独習 統計学入門 P191より引用
自由度が 120 になると、限界値が1.98となって1.96に近づいてくる。これは自由度が大きくなるとt分布は正規分布に近くことを意味する
心理統計学の基礎 P141より引用
自由度が ∞ のt分布は標準正規分布と同じになります
日本統計学会公式認定 統計検定2級対応 統計学基礎 P108より引用
自由度が十分に大きいと考えられる 99 の場合は、標準正規分布とほとんど区別できない、この場合も「十分に大きい」ということを明確に定義することはできないが、このことより、データの大きさが十分大きい場合は、Tがt分布ではなく、標準正規分布にしたがうとして、計算してもよい
私の手元の書籍では「十分に大きい」大きさを、具体的に数値(30、120、99)として例を上げられていましたが「○○以上の場合は標準正規分布を使う」という記載は見つかりませんでした。また、統計検定2級の参考書では「十分に大きいということを明確に定義することはできない」とも書いてあります。
標準正規分布と t分布をグラフで比較
見た目でどれくらいの違いがあるのか、自由度(30、99、120)の t分布と、標準正規分布をグラフで比較してみました。
自由度30のt分布(緑)と標準正規分布(青)
頂点と裾の部分に、多少の違いがありますが、ほぼ同じです。
自由度99のt分布(橙)と標準正規分布(青)
私の目では違いが分かりません。
自由度120のt分布(赤)と標準正規分布(青)
一致しすぎて、標準正規分布の青線が隠れてしまっています。
信頼区間の計算で比較
続いて信頼区間を求める式「標本平均 ± t × 標本標準偏差 ÷ √標本の数」の「t × 標本標準偏差 ÷ √標本の数」部分を、t分布と正規分布を使って計算し、違いを比較してみます。
どの自由度でも、標本標準偏差が「10」の場合は、ほとんど差異がありません。
ただし、標本標準偏差が大きくなると、差異も大きくなります。この辺りが「標本(n)が、十分に大きいということを明確に定義することはできない」と言われる理由なのかもしれません。
結論
残念ながら、標本 n が「十分に大きい」の大きさは、具体的な数値として分かりませんでしたが、私なりの結論です。
下の表のように、自由度(標本数-1)が大きくなれば tの値が、自然に正規分布に近づくので、母分散が分からない場合は、とりあえず t分布を使っておけば、間違いが無いかと思います。(母分散が分かっている場合は、正規分布を使います)
コメント