Google と IBM Watson の音声認識 API を比較してみた

クラウド

2017.12.142019.02.17

Google Cloud Speech API と IBM Watson の Speech to Text は、どちらもディープ・ラーニング（コンピューターに学習させるための手法）を活用して音声を認識しテキストに変換してくれるサービスです。つい先日、 Google Cloud Speech API と IBM Watson の Speech to Text を試す機会があったので、日本語の変換結果や仕様を比較してみました。

日本語の変換結果
仕様の比較表
おわりに

日本語の変換結果

日本語音声を変換した結果の一例です。

ナレーション原稿

■青森県八戸市で古くから愛される郷土料理「せんべい汁」
漁や狩りでとった獲物を具材にした汁ものに、
ちぎった「南部せんべい」を入れて食べたのが「せんべい汁」の始まりです。
ダシ汁がたっぷりしみ込んでいる煎餅の不思議な食感を楽しめます

きっと役に立つボイスサンプル原稿集 | スタジオシグナル　より引用

Google Cloud Speech API でテキストに変換した結果

青森県八戸市で古くから愛される郷土料理せんべい汁綾屋狩りで取った獲物を無罪にした汁物にちぎった南部せんべいを入れて食べたのがせんべい汁の始まりですだし汁がたっぷり染み込んでいるせんべいの不思議な食感を楽しめます

IBM Watson の Speech to Text でテキストに変換した結果

青森県八戸市で古くから愛される郷土料理せんべい汁
領野仮で撮った獲物ございにした汁物に
ちぎった南部せんべいを入れて食べたのがせんべい汁の始まりです
だし汁がたっぷり染み込んでいるせんべいの不思議な食感を楽しめます

他にも色々な日本語音声を試してみましたが、変換精度に違いはほとんどありません。ただ精度は音声の状態によって変わってきますので、ぜひご自分の環境で試してみてください。どちらのサービスも無料で簡単に試せます。

仕様の比較表

2017年12月14日時点の仕様や料金を表にしてみました。個人的には使い勝手のよい Watson Speech to Text に軍配を上げます。

	Google Cloud Speech API	IBM Watson Speech to Text
対応言語数	110 以上の言語と方言	8言語
対応しているオーディオ形式	FLAC LINEAR16（WAV） MULAW（WAV） AMR（8,000Hz） AMR_WB（16,000Hz） OGG_OPUS（16,000Hz） SPEEX_WITH_HEADER_BYTE（16,000Hz）	audio/basic（PCM） FLAC LINEAR16 MP3 MULAW Ogg WAV WebM
おすすめのオーディオ形式	ロスレス形式を推奨	圧縮形式を推奨
ステレオファイル対応	×	○（最大16チャネル）
音声の最大時間	同期認識：1分非同期認識：180分ストリーミング認識	最大100MBまで（Oggを使用した場合8時間40分）
音声ファイルの送信方法	Base64でエンコードしてリクエストに埋め込む Google Cloud Storage に配置	そのまま送信可能
無料枠	60分/月	ライト・アカウントは100分/月まで利用可能スタンダードサービスでは1,000分/月まで無料
料金	$0.006 / 15 秒（61〜100 万分）	$0.02 / 60秒（1,001分〜25万分）

おわりに

カスタマイズしなければ、ベンダーロックインになる心配もありません。実際にサービスやアプリに実装してから切り替えて使うのもアリだと思います。

2025年7月
日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31