産業技術総合研究所(産総研)は、情報技術研究部門の後藤 真孝上席研究員 兼メディアインタラクション研究グループ 研究グループ長と緒方 淳研究員らが開発したユーザーの協力で性能が向上する音声情報検索技術を、インターネット上にある日本語と英語の動画音声データを対象とした音声全文検索・書き起こしサービス「PodCastle」として10月12日に一般公開し、実証実験を開始すると発表した。
産総研では、音声認識の誤りをユーザーが訂正できる独自のインタフェースを開発し、2008年6月に日本語のポッドキャストに限定した音声全文検索サービスとして一般公開している。既に12万件以上の音声データが登録され、実際に52万単語以上が訂正されており、これらを学習することで音声認識の性能向上が可能なことが実証されたとしている。
今回公開する音声全文検索・書き起こしサービスでは、新たに動画共有サービス(ニコニコ動画、YouTube、Ustream)に対応。複数のユーザーが協力して、話者名や改行を入力しながら読みやすい書き起こしを作成できる機能も実現している。また、日本語に加えて、英語の動画音声データについても音声認識と検索ができるようになった。
PodCastleの開発には、動画音声データが増えている一方でテキストデータと異なり発言内容の検索ができなかったことや、音声をテキスト化する書き起こし作業に長時間の労力を要すること、自動的にテキスト化する取り組みも音声認識の誤りを避けることはできず、ユーザーが誤りに気づいても正しい書き起こしを作成するために協力し合うことが難しかったことなどが背景にあるという。
公開されたPodCastleでは、動画共有サービスの動画音声データやインターネット上の任意のURLにある動画音声データに対応し、ユーザーが検索語を入力すれば、その言葉を含む動画音声データの発言が検索できるようになっている。
また、音声認識結果をWebブラウザ上で閲覧・訂正しながら、元のWebサイト上にある動画音声データをストリーミング再生して視聴できる。
これまでも、Webブラウザ上で候補を選択するだけで、音声認識誤りを訂正できる独自のインタフェースによって最低限の書き起こしはできたが、今回新たに複数のユーザーが協調して読みやすいテキストとして書き起こしが作成できるように、書き起こし支援機能が強化されている。
たとえば、テキスト中の任意の箇所に話者名と改行の入力を可能にして、可読性を向上したほか、同じ動画音声データ中の異なる箇所を、複数のユーザーが同時に書き起こし可能にするなどといった機能が追加されている。
また、ユーザーが訂正するだけでなく、正しく音声認識された部分に正解マークを付けることもでき、これによって全体の単語数の何%が書き起こされたか(訂正あるいは正解マーク付与されたか)を達成率として表示可能となっている。