Google Cloud Speech API と IBM Watson の Speech to Text は、どちらもディープ・ラーニング(コンピューターに学習させるための手法)を活用して音声を認識しテキストに変換してくれるサービスです。つい先日、 Google Cloud Speech API と IBM Watson の Speech to Text を試す機会があったので、日本語の変換結果や仕様を比較してみました。
日本語の変換結果
日本語音声を変換した結果の一例です。
ナレーション原稿
■青森県八戸市で古くから愛される郷土料理「せんべい汁」
漁や狩りでとった獲物を具材にした汁ものに、
ちぎった「南部せんべい」を入れて食べたのが「せんべい汁」の始まりです。
ダシ汁がたっぷりしみ込んでいる煎餅の不思議な食感を楽しめます
Google Cloud Speech API でテキストに変換した結果
IBM Watson の Speech to Text でテキストに変換した結果
領野 仮 で 撮った 獲物 ござい に した 汁物 に
ちぎった 南部 せんべい を 入れて 食べた のが せんべい 汁 の 始まり です
だし汁 が たっぷり 染み込んで いる せんべい の 不思議な 食感 を 楽しめ ます
他にも色々な日本語音声を試してみましたが、変換精度に違いはほとんどありません。ただ精度は音声の状態によって変わってきますので、ぜひご自分の環境で試してみてください。どちらのサービスも無料で簡単に試せます。
・関連記事
Google Speech API の使い方 日本語音声をテキストに変換してみよう
Watson Speech to Text の使い方 日本語音声をテキストに変換してみよう
仕様の比較表
2017年12月14日時点の仕様や料金を表にしてみました。個人的には使い勝手のよい Watson Speech to Text に軍配を上げます。
Google Cloud Speech API | IBM Watson Speech to Text | |
---|---|---|
対応言語数 | 110 以上の言語と方言 | 8言語 |
対応しているオーディオ形式 | FLAC LINEAR16(WAV) MULAW(WAV) AMR(8,000Hz) AMR_WB(16,000Hz) OGG_OPUS(16,000Hz) SPEEX_WITH_HEADER_BYTE(16,000Hz) | audio/basic(PCM) FLAC LINEAR16 MP3 MULAW Ogg WAV WebM |
おすすめのオーディオ形式 | ロスレス形式を推奨 | 圧縮形式を推奨 |
ステレオファイル対応 | × | ○(最大16チャネル) |
音声の最大時間 | 同期認識:1分 非同期認識:180分 ストリーミング認識 | 最大100MBまで (Oggを使用した場合8時間40分) |
音声ファイルの送信方法 | Base64でエンコードしてリクエストに埋め込む Google Cloud Storage に配置 | そのまま送信可能 |
無料枠 | 60分/月 | ライト・アカウントは100分/月まで利用可能 スタンダードサービスでは1,000分/月まで無料 |
料金 | $0.006 / 15 秒(61〜100 万分) | $0.02 / 60秒(1,001分〜25万分) |
おわりに
カスタマイズしなければ、ベンダーロックインになる心配もありません。実際にサービスやアプリに実装してから切り替えて使うのもアリだと思います。
コメント