KDDI研究所と京都大学学術情報メディアセンター(河原研究室)は11月24日、最新の話し言葉音声認識技術を応用した字幕生成・配信システムを開発したことを発表した。

同システムは講演や講義などの映像を収録しながら、並行して自動音声認識・編集者による簡易修正を行う仕組みとなっており、これまでのシステムでは難しいとされていた「話し言葉」や専門性の高い話題についても高精度で認識できるという。

字幕生成作業のイメージ

また同システムには映像と字幕をオンラインで同期させるアルゴリズムが導入されており、人手による字幕挿入やタイミング調整、特殊な再生装置が不要になるとされる。

映像と字幕のオンライン同期処理のイメージ

今後は京都大学での講演や講義での実証実験が行われ、大学外のイベントなどシステムの適用先を広げていくという。