米Metaは7月6日(現地時間)、同社のMeta AIが200言語の高品質な翻訳が可能なAIモデル「NLLB-200」を構築したことを発表した。

Metaは今年2月末に、R&Dイベント「Inside the Lab」において、世界中の言語の壁をなくすユニバーサルな翻訳ツールの実現を目指した2つのプロジェクトを発表した。1つは「No Language Left Behind(NLLB)」。リソースとなる例文が少ない言語でも学習して高度な翻訳を可能にする新たなAIモデルの構築を目指す。もう1つは「Universal Speech Translator」。仲介役となる言語コンポーネントを用いずに、ある言語から別の言語に音声をリアルタイムで翻訳するシステムの構築に取り組んでいる。今回の発表は前者、NLLBのアップデートである。

2月末時点では、Metaが思い描くように翻訳できる言語を増やせるのか不透明だったが、Meta AIのAIモデルが扱える言語数は約4カ月で100言語から200言語に倍増した。現時点でGoogle翻訳が対応する言語は133言語、Microsoft翻訳は100+言語である。

200言語にはカンバ語やラオス語といった既存の翻訳ツールでのサポートが限られる言語を含み、多くの翻訳ツールでは25言語以下であるアフリカの言語も55言語をサポートする。NLLB-200のBLEU(翻訳精度)スコアは、FLORES-101ベンチマークで、従来の技術から平均44%向上。アフリカやインドの一部の言語では、最近の翻訳システムと比べて70%以上の向上が見られるという。対応言語だけではなく翻訳の質も向上しており、特に翻訳ツールが限られる言語にこれまでにない品質の翻訳を提供できているようだ。Meta AIは、マイナーな言語(ミナンカバウ語など)で書かれた物語の翻訳を体験できるデモサイトを用意している。Metaによると、こうした対応言語の拡大によって、FacebookやInstagram、同社の他のプラットフォームにおいて1日に250億件以上の翻訳をサポートできる。

Meta AIは、NLLB-200の評価と改良のために、研究者がAIモデルの性能を4万種類の言語の組み合わせで評価できるデータセット「FLORES-200」を構築。NLLB-200モデル、FLORES-200、モデル学習コードなどをオープンソース化し、また研究者がより多くの言語に拡張し、包括的な技術を構築するのを支援する様々なツールを公開している。