コミュニケーションの基本は「言語」にある。その言語も世界各国に存在し、その数は数百とも数千とも言われ、コミュニケーションの壁として立ちふさがっているのが現状だ。これを打ち破ると同時に知識を伝達する目的で翻訳という作業が生まれたが、Microsoftの研究機関であるMicrosoft Researchは先頃新しい試みを披露した。今週は同研究所の音声翻訳技術に関する情報と、既報のとおりWindows 8のリリースに合わせて"Reimagined"した「Windows.com」に関するレポートをお送りする。

言語の壁を取り除く音声翻訳技術

誰しもが欲する能力の一つに言語理解力がある。英語に代表される他国の言語をスムーズに理解し、発することができれば、どれだけの情報を得られるようになり、コミュニケーションもスムーズに行えるだろうか。「ドラえもん」に登場した"ほんやくこんにゃく"のように、あらゆる言語を理解できる道具に憧れる方は少なくないだろう。

そんな未来の一端を見せたのが、Microsoftの研究機関であるMicrosoft Researchの音声翻訳技術だ。同研究所では以前からリアルタイム翻訳について研究を続けており、以前も同研究所の研究結果をビデオ化したものをレポートとして寄稿したが、10月25日に中国で開催された同研究所のプレゼンテーションでは、その成果を実際に披露している(図01)。

図01 ビデオチャットとリアルタイム翻訳が行われているシーン

図02 Microsoft Researchの最高調査責任者であるRick Rashid(リック・ラシッド)氏

Microsoft Researchの最高調査責任者であるRick Rashid(リック・ラシッド)氏が行ったプレゼンテーションは、スピーカーとして述べた内容を音声認識で取得し、大型プロジェクターに英文の字幕としてリアルタイムに表示されていた。特段目新しいものではないが、それでも従来の方法と比較して30パーセント以上の音声に対する誤検知率を軽減しているという。興味深いのは、そのテキストを利用し、中国語にリアルタイム翻訳しているシーンだ(図02~04)。

図03 Rashid氏が述べた内容がリアルタイムに英文字幕として表示されている

図04 英文字幕を元に中国語へのリアルタイム翻訳も披露。Rashid氏が述べた内容が中国語の音声として流れると、拍手が巻き起こった

音声認識技術はいくつかの手法があるものの、同研究所では「隠れマルコフモデル」を採用。同手法をベースに訓練データを追加することで、格段の精度向上を実現している。同プレゼンテーションでは、この音声認識技術を元にスピーチの内容をテキスト化しているのだろう。

次のポイントはテキストの機械翻訳である。多くの研究者は過去60年もの間研究を続けてきているが、近年はビッグデータと統計的手法を導入することで大きく進化し、その成果はBing翻訳に反映されている。もちろん翻訳結果を日本語として見ると、文書として成り立っていない場合が多く、実用レベルに達するのは先の話。だが、同プレゼンテーションでは、前述のとおり音声認識と機械翻訳を組み合わせ、スピーチの内容を中国語に翻訳して見せた。

Rashid氏の言葉を借りれば「時にはユーモラスな翻訳結果が出ることもある」が、英語で述べた内容が中国語の音声として発する様は近い将来は言語の壁を取り除く"ほんやくこんにゃく"が現実的なものになる気はしないだろうか。このプレゼンテーションを行うにあたり同研究所では、英語および中国語の音声を録音してデータ化する作業を数時間ほど必要としたと説明し、事前準備が必要なことに変わりはない。

「結果はまだ完全ではない」と同氏も述べているが、研究結果が技術として具体化し、デモンストレーションに達したことは素直に評価すべきだろう。また、同氏はSFドラマ「スタートレック」に登場した翻訳機「ユニバーサルトランスレータ」を例に「二十二世紀まで待つ必要があるかもしれない」と述べている。世界に存在する言語の数は千数百とも数千とも言われるが、いつの日か国々の言語に束縛されないコミュニケーションが当たり前となる未来が訪れるのだろう。