データ分析 5分で分かる!確率統計「nPr」順列の計算方法 数学の確率の問題で出てくる nPr は、順列(Permutation)を表す記号です。高校の数学で学ぶはずなのですが、しっかり勉強していなかった私は、4P2 のような式が出てくると思わず参考書を閉じたくなってしまいます。しかし、統計学では当たり前のようにこの nPr 記号が出てきますので、とても困ります。そこで今回は、nPr の意味と計算方法をまとめてみました。 2020.09.20 データ分析
データ分析 5分でわかる!「回帰係数」の求め方(回帰直線の傾き) 統計学の回帰分析を使うと、身長と体重のような2つのデータから、回帰直線「体重 = 身長 × 回帰係数 + 切片」(上のグラフの赤線のことです)を求め、身長から体重を予測することができます。例えば、気温からビールの売れ行きを予測したり、天気から来客数を予測したりと、仕事にも活用できそうですね。そこで今回は、回帰分析の一番のキモ「回帰係数」(「回帰直線の傾き」ともいいます)の求め方をわかりやすくまとめ... 2016.10.20 2024.01.20 データ分析
データ分析 3分でわかる!「自由度」の意味(なぜ n-1 なのか) 統計学の勉強をしていると、聞きなれない言葉がよく出てきます。その一つが「自由度」ではないでしょうか?不偏分散を計算したり分布表を参照する時など、自由度はよく登場するのですが、私はあまり意味を理解していません(^^;) そこで今回は「自由度」の意味と、自由度がなぜ n-1 なのかを、わかりやすくまとめてみました。 2016.10.14 2024.01.20 データ分析
データ分析 統計的仮説検定で HTTP/2 と HTTP/1.1 の表示速度を検証 統計的仮説検定は、標本の統計量を元に、母集団に関する仮説を検証するための統計学の手法です。例えば、「日本人の平均身長は170cmである」という仮説を、無作為抽出した100名の身長から検証することができます。そこで今回は、仮説検定を使って、HTTP/2 と HTTP/1.1 の表示速度に、はたして違いはあるのか?を検証してみました。 2016.06.29 2016.07.02 データ分析
データ分析 5分でわかる!区間推定「母比率」の信頼区間の求め方 選挙速報で開票率が低いのに、当選確実が出ている事を不思議に感じたことはないでしょうか?各報道機関がどういった仕組みで当選確実を出しているのかは、明らかにされていませんが、母比率の区間推定が使われていると言われています。また、母比率の区間推定は、日本全体のTVの視聴率や、内閣支持率なども推定できるので、統計学の中でも実用性が高い手法です。そこで今回は、母比率の信頼区間の求め方をまとめてみました。 2016.06.22 2016.06.24 データ分析
データ分析 5分でわかる!区間推定「母分散」の信頼区間の求め方 母分散の区間推定を使うと、例えば母集団が100万本のネジだとして、そのネジの長さのバラツキ(分散)を、数本のネジを調べるだけで、推定することができます。そこで今回は、母分散の信頼区間の求め方を、出来るだけ分かりやすくまとめてみました。 2016.06.08 2017.07.19 データ分析
データ分析 標本 n が「十分に大きい」の大きさは?(正規分布・t分布) 統計学の教科書で「標本 n が十分に大きい場合は、t分布ではなく標準正規分布にしたがう」といった記述を見かけたことがありませんか? 数学の応用の統計学にしては「十分」とは、ずいぶん抽象的な表現に感じます。できれば具体的に、「標本数が○○以上の場合は〜」として欲しいところですね。そこで今回は、この「十分に大きい」の大きさは、数値にするといくつなのかを調べてみました。 2016.05.18 2024.01.17 データ分析
データ分析 5分で分かる!区間推定「信頼区間」の求め方 区間推定は、標本の統計量を元に、母集団の平均などを、幅(区間)を持たせて推定する統計学の手法です。この推定した幅を「信頼区間」と言います。例えば、100万本のネジの長さの平均のように、母集団が大きい場合でも、区間推定を使えば、すべてのネジの長さを測らなくても、平均を推定することが出来ます。そこで今回は、母平均(母集団の平均)の信頼区間の求め方を、出来るだけ分かりやすくまとめてみました。 2016.05.11 2024.01.17 データ分析
データ分析 5分で分かる!「母集団」と「標本」の意味 「母集団」と「標本」は、推測統計の推定や検定を行うのにあたって、とても重要な考え方です。母集団は調べたいデータ全体、標本はそこからランダムに取り出したものというだけの意味なのですが、これをしっかり理解しておく必要があります。また、推測統計では母集団の平均と、標本の平均などを区別しなければならないのが、ややこしいところです。そこで今回は、母集団と標本についてまとめてみました。 2016.05.04 2017.07.20 データ分析
データ分析 5分でわかる!対数「log」記号の意味 対数を表す「log」記号が苦手な方は多いのではないでしょうか? 私も情報処理の問題でこの「log」記号を見かけてはいましたが、あまり意味が理解できず、捨て問題にしていました(^^;) そこで今回は、この対数「log」記号の意味をまとめてみました。 2016.04.20 2023.02.25 データ分析
データ分析 5分で分かる!総和記号「Σ(シグマ)」の計算方法 総和記号の「Σ(シグマ)」は、「1+2+3(中略)+100」のように、繰り返し足し算をする式を、簡単に書くための記号です。便利な記号なのですが、馴染みのない方にとっては、すごく難解な計算をしているように見えるのではないでしょうか? そこで今回は、総和記号の「Σ(シグマ)」の意味と計算方法をまとめてみました。 2016.03.30 2017.07.16 データ分析
データ分析 5分で分かる!確率統計「nCr」の計算方法 数学の確率の問題で出てくる nCr は、組み合わせの数(Combination)を表す記号です。高校の数学で学ぶはずなのですが、学生時代あまり勉強熱心ではなかった私には、例えば 4C2 = 6 となるのがよく理解できませんでした。統計学では当たり前のようにこの nCr 記号が出てきますので、とても困ります。そこで今回は、nCr の意味と計算方法をまとめてみました。 2016.01.24 2024.01.16 データ分析
データ分析 dimple.js 積上げ棒グラフの作り方 dimple(ディンプル)は、さまざまなグラフを簡単に作成できる JavaScript ライブラリです。データ可視化ライブラリの定番 D3.js と合わせて使います。D3.js は柔軟性が高く、複雑なデータを可視化することが得意ですが、グラフの描画処理を自分で作成する必要があります。描画処理のコードを書くのは、なかなか大変ですが、この dimple ライブラリを使えば、複雑なグラフを、わずか数行の... 2015.10.08 2016.09.12 データ分析プログラム
データ分析 5分で分かる!「標準偏差」の使い方 標準偏差は、データの「ばらつき」を表す値です。データ分析をする上で、とても重要な値なのですが、私のように統計学に馴染みがない人にとって、この標準偏差は、大変とっつきにくい存在ではないでしょうか? そこで今回は、標準偏差の意味や使い所を、できるだけ分かりやすくまとめてみました。 2015.09.30 2024.01.15 データ分析
データ分析 TWKEY について TWKEY(ツイッキー)は、ある検索ワードで Twitter ツイートを検索して、ツイートに含まれる単語の出現回数をランキング表示する、簡易的なテキストマイニングツールです。もしかしたら、この TWKEY を使って「ビールとおむつ」のような、関連するキーワードを見つけられるかもしれませんよ。 2015.07.12 データ分析
データ分析 PHP 政府統計 API の使い方メモ(e-Stat) 政府統計の総合窓口(e-Stat)の API 機能 では、各府省が公表する統計データを、APIを使って簡単に取得することができます。以前は各府省ごとに、統計データを公開していましたが、近年この、政府統計の総合窓口サイトの1つにまとめられ、昨年からは API 機能の提供も開始されました。 政府統計 API の使い方はいたって簡単なのですが、統計データの種類、量ともに膨大なため、データ取得までの流れが... 2015.07.02 2019.02.17 データ分析プログラムPHP
データ分析 5分で分かる!相関係数の求め方 相関係数は、体重と身長など、2つの値の関係の強さを示す数値です。相関係数を使えば「Aの商品を買っている人は、Bの商品を買うことが多い」のような傾向を、見つける事が出来るかもしれません。統計学を使ったデータ分析で、まず初めに使ってみたくなるのが、この「相関係数」ではないでしょうか? そこで今回は、相関係数の求め方を、出来るだけ分かりやすくまとめてみました。 2015.06.25 2024.01.13 データ分析