2015-06

データ分析

5分で分かる!相関係数の求め方

相関係数は、体重と身長など、2つの値の関係の強さを示す数値です。相関係数を使えば「Aの商品を買っている人は、Bの商品を買うことが多い」のような傾向を、見つける事が出来るかもしれません。統計学を使ったデータ分析で、まず初めに使ってみたくなるのが、この「相関係数」ではないでしょうか? そこで今回は、相関係数の求め方を、出来るだけ分かりやすくまとめてみました。
Linux

MeCab システム辞書への単語追加(mecab-ipadic-neologd)

MeCab 辞書には、以前の記事でご紹介した「ユーザ辞書」と「システム辞書」の2種類があります。ユーザ辞書への単語の追加は、手軽な反面、解析速度が落ちるといったデメリットもあります。そこで今回は、MeCab の「システム辞書」に単語を追加する方法をご紹介します。また、最近話題の新語辞書 mecab-ipadic-neologd もシステム辞書に追加してみました。
プログラム

PHP 5分で出来る!Twitter API アプリケーション認証(Application-only authentication)

ツイッター API の、アプリケーション認証 (app auth) を使うと、15分あたりのAPI利用上限を、ツイート検索が 180回 から 450回 に、タイムライン取得は 180回 から 300回 に増やすことができます。ツイート探索系のアプリを作るのには、ちょっと嬉しい仕組みですね。 そこで今回は、PHP から Twitter API アプリケーション認証を行い、ツイート検索をする方法をご紹...
Linux

MeCab ユーザ辞書への単語追加

MeCab を使って、文章を単語に分割した時に、複数の単語が含まれる複合語などが、思ったように分割できない事があります。例えば「焼肉定食」は「焼肉」と「定食」の2つの単語に分割されてしまいます。MeCab には「最小単位の単語に分割する」という基本ルールがあるので、この分割は正しいのですが、実際に文章を解析する時は、1つの単語として扱いたくなります。そこで今回は、MeCab の辞書に単語を追加して...