奈良先端科学技術大学院大学(NAIST)は8月27日、同時通訳者のように発話途中から文末を待たずに翻訳を開始する同時自動音声通訳のコア技術を開発したと発表した。
同成果は、同大 情報科学研究科 知能コミュニケーション研究室 中村哲教授、グラム・ニュービッグ助教らによるもの。詳細は、8月29日~30日に開催される「イノベーションジャパン2013~大学見本市&ビジネスマッチング~」にて展示される他、8月26日からフランスで開催される「INTERSPEECH2013」にて発表される。
音声の自動通訳(音声翻訳)の仕組みは、コンピュータにより、音声の自動認識、機械翻訳、音声合成を順番に行い、その場で相手の言語の音声に変換する。しかし、音声認識や機械翻訳は技術的に難しく、これまでは旅行会話や簡単な日常会話に特化して研究開発が行われてきた。また、講演や会議などの場で使われる1つの発話が長い音声に対し、人間の同時通訳者のように発話中に通訳を開始するという同時自動音声通訳技術はさらに難易度が高く、実用的な技術を確立することが困難だった。特に、文頭で肯定、否定がわかる英語と、文末まで来ないと判断できない日本語といったような語順が異なる言語の同時自動通訳は困難で、大きな遅延を伴うという欠点があった。
今回の研究では、自動音声通訳の際に、翻訳の遅れが生じる問題を解決するために、文が終了する前に翻訳を開始する手法として、これまでの手法の文の発話終了からそれぞれの処理が逐次的に行われていたのとは異なる、一文が完全に終わる前に適切なタイミングで通訳を行う技術を考案したという。
具体的には、句ごとに対応関係を対訳文から統計的に学習し、正解の確率が高い訳語を表現する「統計的フレーズ(句、単語列)ベース翻訳」を用いる。最初にその情報を利用して入力する言葉を「文」より短い「句」の単位に分割。ただし、翻訳の単位を短くすれば訳出タイミングを速くすることができるものの、単位が短かすぎると、正確な訳出に必要な文脈情報が失われるため、翻訳に最も適切な単位を選択できるように、翻訳対象となる言語対の並べ替えやすさを考慮したパラメータを導入し、トレードオフの関係にあるスピードと精度の調整を可能にした。例えば、図3のように並び替えの際には、言語構造が異なることにより、順番が逆に対応する場合や、その間に異なる単語を挟んで不連続となる場合があることが分かる。そこで、不連続の場合も含め、図中にある右確率の大きさに基づいて訳出を行う方法を開発。また、訳出タイミングの調整では、図4のように「こんにちは」が入力されても訳出を保留し、次の句をみて、右確率が大きいことを確認して、「駅は」につながらないことを確認して「こんにちは」を訳出するようにしたという。
さらに、日英の比較的長い文章で同時自動通訳評価を行ったところ、提案法により音声翻訳の遅延が改善された。導入したパラメータによりスピードと精度のバランスを調整でき、精度を維持したまま20%のスピード向上を実現できることが確認されたという。また、同一の講演に対して、上級通訳者(15年以上経験者)、中級(4年以上経験者)、初級(1年以上経験者)が、同一の講演に対して同時通訳を行ない、速度と品質を比較したところ、初級と同等の同時通訳性能と速度が達成されることも明らかとなった。
なお今回の研究は、同時自動通訳の核となる翻訳方式となるものであり、さらに研究開発を行うことにより、日本語を含む多言語の講演、ニュースや会議の同時自動通訳システムの実現につながることが期待されることから、将来的には、外国語ニュースの同時自動通訳、会議の同時自動通訳、日本語ニュース、講演の外国語発信など、これまでの旅行会話の単なるコミュニケーションの補助のための技術でなく、より大規模な情報流通に寄与できるものになると期待されると研究グループではコメントしている。