FacebookやInstagramを運営するMetaは2月23日(米国時間)、R&Dイベント「Inside the Lab」において、世界中の言語の壁をなくすユニバーサルな翻訳ツールの実現を目指した新プロジェクトを発表した。今回のInside the Labは「Building for the metaverse with AI」というテーマで、同社が思い描くメタバースの体験を豊かにするAIの可能性に焦点を当てている。

翻訳は機械学習の研究が進んでいる分野であり、英語、北京語、スペイン語といった多くの人が母語としている主要言語については翻訳ツールが存在する。だが、世界人口の20%以上はそうしたツールを利用できずに取り残されており、言語の壁によってコミュニケーションの範囲が制限され、インターネット上のほとんどの情報が利用しづらい状況にある。機械翻訳(MT)システムは急速に進歩しているものの、大量のテキストデータからの学習に依存しており、リソースが少なく学習データが不足している言語や、標準的な文章体系を持たない言語に広がりにくい問題を抱えている。

  • 世界で話されている言語トップ10

    世界で話されている言語トップ10、世界で50%以上の人々がこれらの言語が母語ではない

翻訳ツールがすべての言語に適用できるようになれば、世界中の人々が使いやすい言語でオンラインの情報にアクセスできるようになり、世界の人々がつながり、アイデアを共有する方法が根本的に変わるとしている。

MetaのMTツール構築の取り組みは2つのプロジェクトを含む。1つは「No Language Left Behind」。リソースとなる例文が少ない言語でも学習して高度な翻訳を可能にする新たなAIモデルの構築を目指す。もう1つは「Universal Speech Translator」。仲介役となる言語コンポーネントを用いずに、ある言語から別の言語に音声をリアルタイムで翻訳するシステムの構築に取り組んでいる。それによって標準的な文章体系を持たない言語や主に音声で使われている言語もサポートできるようになる。

  • 世界で使われている言語数

    世界で約7000言語が使われており、約3000言語は主にオーラルである

Metaは、そう遠くない将来に、仮想現実や拡張現実によってデジタルと現実の世界がメタバースに融合され、仕事のプロジェクトの共同作業や読書会の開催などが場所を問わずに行われるようになると指摘。翻訳ツールによる言語に縛られない自由なコミュニケーションは、メタバースの体験をより多くの人に広げて豊かなものにする。

しかし、今回は取り組みの公表にとどまっており、目標を設定したロードマップなどは提供していない。リソースとなる例文が少ない言語でも効率的に学習できるAIモデルを実現するために、まずはより多くの言語でトレーニングデータを収集し、また現在すでに利用できるデータを活用する新たな方法を見いだして、現在のデータの不足を克服しなければならない。モデルがより多くの言語に対応できるようになるとモデリングの課題が生じる。今日のMTシステムはバイリンガルで、英語と日本語、英語とスペイン語といった言語ペアごとに別々のモデルが存在する。そのアプローチのままでは、何十もの言語ペアに拡張することは困難だ。そして、その結果を評価し、改善する方法も見つけなければならない。英語からスペイン語への翻訳の品質を評価するためのリソースは豊富だが、アムハラ語からカザフ語への翻訳の質を確認するのは容易ではない。また、言語を成り立たせている文化も保ち、バイアスを生み出したり強めたりしない方法も見つける必要がある。ユニバーサル翻訳ツールの実現はそれら3つの大きな課題の克服から取り組む長期的なプロジェクトになる。