AWSの音声文字起こしサービス「Amazon Transcribe」が日本語に対応

アマゾンウェブサービス(AWS)は米国時間11月21日、音声からの文字起こしを行う有料サービス「Amazon Transcribe(トランスクライブ)」において、日本語を含む7言語への対応開始を発表した。利用料金は、1カ月に文字起こしを行った音声の秒数に基づいて従量課金制で発生し、一例として60分の音声で1.44USD(約157円)。サインアップ後、最初の12カ月は毎月最大60分間の無料利用枠が付与される。

音声文字起こしサービス「Amazon Transcribe」が日本語対応

Amazon Transcribeは、ユーザーが用意した音声ファイル(WAVやMP3など)などの音声をテキストに変換できる自動音声認識(ASR)サービス。Amazon Transcribe APIを使用して、Amazon S3に保存されたオーディオファイルを分析し、音声を文字起こししたテキストファイルを返す仕組みで、主にカスタマーサポートの通話の文字起こしや、音声/動画コンテンツの字幕生成などのアプリケーションで使う、といった用途を想定している。すべての単語についてタイムスタンプが付加されるので、テキストを探すことでオリジナルソース音声の頭出しも行えるという。

Amazon Transcribe API(文字起こしストリームを含む)の利用料金は、1秒あたり0.0004USDのレートで月ごとに課金される。料金の一例として、60分の音声が1.44USD、120分の音声が2.88USD(いずれもリージョン:アジアパシフィック(東京)の場合)。なお、15秒未満のリクエストについては15秒分の料金が発生する。

Amazon Transcribeでは今回、日本語のほかにヘブライ語やマレー語、トルコ語など7種類の言語を新たにサポート。今後も言語の進化に対応するため、継続的に学習して改善を行なっていく。