Google と IBM Watson の音声認識 API を比較してみた

クラウド
クラウド
スポンサーリンク

Google Cloud Speech API と IBM Watson の Speech to Text は、どちらもディープ・ラーニング(コンピューターに学習させるための手法)を活用して音声を認識しテキストに変換してくれるサービスです。つい先日、 Google Cloud Speech API と IBM Watson の Speech to Text を試す機会があったので、日本語の変換結果や仕様を比較してみました。

日本語の変換結果

日本語音声を変換した結果の一例です。

ナレーション原稿

■青森県八戸市で古くから愛される郷土料理「せんべい汁」
漁や狩りでとった獲物を具材にした汁ものに、
ちぎった「南部せんべい」を入れて食べたのが「せんべい汁」の始まりです。
ダシ汁がたっぷりしみ込んでいる煎餅の不思議な食感を楽しめます

きっと役に立つボイスサンプル原稿集 | スタジオシグナル より引用


 

Google Cloud Speech API でテキストに変換した結果

青森県八戸市で古くから愛される郷土料理せんべい汁綾屋狩りで取った獲物を無罪にした汁物にちぎった南部せんべいを入れて食べたのがせんべい汁の始まりですだし汁がたっぷり染み込んでいるせんべいの不思議な食感を楽しめます

IBM Watson の Speech to Text でテキストに変換した結果

青森県 八戸市 で 古く から 愛 される 郷土 料理 せんべい 汁
領野 仮 で 撮った 獲物 ざい に した 汁物 に
ちぎった 南部 せんべい を 入れて 食べた のが せんべい 汁 の 始まり です
だし汁 が たっぷり 染み込んで いる せんべい の 不思議な 食感 を 楽しめ ます

 
他にも色々な日本語音声を試してみましたが、変換精度に違いはほとんどありません。ただ精度は音声の状態によって変わってきますので、ぜひご自分の環境で試してみてください。どちらのサービスも無料で簡単に試せます。

・関連記事
 Google Speech API の使い方 日本語音声をテキストに変換してみよう
 Watson Speech to Text の使い方 日本語音声をテキストに変換してみよう

仕様の比較表

2017年12月14日時点の仕様や料金を表にしてみました。個人的には使い勝手のよい Watson Speech to Text に軍配を上げます。

Google Cloud Speech APIIBM Watson Speech to Text
対応言語数110 以上の言語と方言8言語
対応しているオーディオ形式FLAC
LINEAR16(WAV)
MULAW(WAV)
AMR(8,000Hz)
AMR_WB(16,000Hz)
OGG_OPUS(16,000Hz)
SPEEX_WITH_HEADER_BYTE(16,000Hz)
audio/basic(PCM)
FLAC
LINEAR16
MP3
MULAW
Ogg
WAV
WebM
おすすめのオーディオ形式ロスレス形式を推奨圧縮形式を推奨
ステレオファイル対応×○(最大16チャネル)
音声の最大時間同期認識:1分
非同期認識:180分
ストリーミング認識
最大100MBまで
(Oggを使用した場合8時間40分)
音声ファイルの送信方法Base64でエンコードしてリクエストに埋め込む
Google Cloud Storage に配置
そのまま送信可能
無料枠60分/月ライト・アカウントは100分/月まで利用可能
スタンダードサービスでは1,000分/月まで無料
料金$0.006 / 15 秒(61〜100 万分)$0.02 / 60秒(1,001分〜25万分)

おわりに

カスタマイズしなければ、ベンダーロックインになる心配もありません。実際にサービスやアプリに実装してから切り替えて使うのもアリだと思います。

コメント

タイトルとURLをコピーしました