マイクロソフトの翻訳エンジン、ディープラーニングで大きく進化 - 日本語と他言語の会話を双方向リアルタイムで翻訳可能

Microsoftが2016年11月に開催した開発者向けイベント「Microsoft Connect 2016」において、同社の自動翻訳サービス「Microsoft Translator」などが使用する翻訳エンジンに、深層学習(ディープニューラルネットワークを用いた学習方法)を採用することが発表されている。当時、音声翻訳に用いられるMicrosoft Translator Speech APIは、日本語を除く9言語のサポートにとどまっていた。

今回、日本マイクロソフトは、日本語サポートの構築を完了したことを明らかにした。SkypeやOffice 365(2016)の各アプリケーション、Webブラウザーやスマートフォン向けアプリケーションに対して、Microsoft Translator Speech APIを組み込み、日本語と他言語の双方向リアルタイム機械翻訳を可能にする。また、翻訳エンジンを従来のSMT(統計的機械翻訳)から、深層学習によって全体の文脈を適切に捉えるものに切り替えるのも、大きなトピックだ。

深層学習による翻訳は各単語のモデルを作成し、その文脈もしくは文章全体の中で単語モデルを翻訳。従来のSMTでは2～7単語の文脈しか拾えなかったが、深層学習による翻訳では、文章全体の文脈を考慮することによって、より自然な翻訳が可能になるという。Microsoft Translator Speech APIでは、音声認識およびテキスト化したデータを深層学習によるエンジンで翻訳し、テキストを音声で読み上げる。

Microsoft Translator Speech APIなどを利用した音声翻訳ソリューション

各アプリケーションなどからMicrosoft Translator Speech APIを呼び出す形で、翻訳機能を提供する

事前に行われた記者説明会では、実際にデモンストレーションを披露。「まだ完璧とは言いがたい」(Microsoft AI&Research Group Director of Product Strategy and Marketing, Microsoft TranslatorのOliver Fontana氏)とのことだが、このAPIはMicrosoft TranslatorアプリケーションやSkype Translatorなどから簡単に呼び出せるため、ユーザーが容易に使えるのは大きなアドバンテージと言えよう。これらの機能は、2017年4月7日から提供開始となり、翻訳エンジンをすべて新型に切り替えると同時に、後述するMicrosoft Translatorライブ機能や、TranslatorライブPowerPointアドインも提供する。


【左】Microsoft AI&Research Group Director of Product Strategy and Marketing, Microsoft TranslatorのOliver Fontana氏【右】iOSからMicrosoft Translatorライブに参加した状態。Fontana氏の発言内容をリアルタイムで翻訳している

機械翻訳の活用シナリオは幅広い

日本マイクロソフト最高技術責任者榊原彰氏

Microsoftの調査によれば、外部公開するWebページで用いる言語数は1言語が95%、2言語以上は5%にとどまり、社内用Webページでは1言語が97%、2言語以上は3%以下。だが、GDPベースで見ると、英語を母国語としているアプリケーションやサービスは32%程度で、中国語・日本語・フランス語・ドイツ語を含めても64%だ。ここにスペイン語・ポルトガル語・ロシア語・イタリア語・韓国語を足して、ようやく81%に達する。

こうした調査結果もあり、Microsoftは、Microsoft Translator Speech APIのサポート言語を当初から10言語に定めていたのだろう。翻訳の精度や品質は、人間の「通訳者」による流暢かつ情緒的なレベルには及ばないものの、当面は「通訳の仕事を置き換えることは考えていない。スピーディさや工数減を求められる場面」(日本マイクロソフト最高技術責任者榊原彰氏)での利用を目指す。

深層学習はデータ蓄積で品質を改善していくのが特徴の一つだが、Microsoft Translator Speech APIの利用者数を大きく増やすと見られるのが、Microsoft Translatorライブだ。PCやスマートフォンを手にした複数のユーザー同士が、多言語かつ対面による会話を実現できる。Microsoftが想定するのは、ソーシャル、専門家会議、プレゼンテーションといった場面での利用だ。仕様としては、入力言語が音声10種類、テキストが60種類で、出力言語は音声が18種類、テキストが60種類だ。ここは随時アップデートしていく。

会場内で行われたデモンストレーション。こちらはSkype翻訳を使って日本語による会話を試みている

会場外ではSkype翻訳で英語化された音声を聞き、同じように英語で話しかけている

MicrosoftのFontana氏は、「社内の同僚は40歳前後で聴覚を失ったが、今では週末の夜に皆と飲みに出かけるようになった。Microsoft Translatorを使って皆の発言内容を知って、その場を楽しめるからだ」「(彼の)2人の息子は手話ができるが、息子の彼女は手話を身に付けていない。その彼女とも、Microsoft Translatorを通じてコミュニケーションができるようになった」と、実に身近な活用シナリオを紹介した。

Microsoft Translator APIは、山の裾野に立った。ユーザーが違和感を抱かない自然なコミュニケーション……という頂上ははるか先である。だが、聴覚障がいや言語の壁を技術で埋められるのは、大きな一歩となるだろう。Microsoftは本ソリューションを「人の代わりになるのではなく、コミュニケーションの壁を越えるために使う」(Fontana氏)としており、コミュニケーション支援に深層学習やAI技術が役立つと信じている。旅先でのちょっとした会話や日常の生活で、言語に関係なく自身のメッセージを共有できる世界が訪れそうだ。

MicrosoftのCM動画より。世界中どこでも自分の母国語が使えるようになる

補足しておくと、Microsoft Translator Speech APIはAzureサービスの一つで、課金モデルが適用される。無料の試用版や料金などの詳細は、Microsoft AzureのWebサイトを参照いただきたい。なお、エンドユーザーが「Microsoft Translator」などの無料アプリを使う場合は、料金は発生しない。