米MetaのAI研究部門Meta AIは8月22日(現地時間)、自動音声認識、音声テキスト変換、音声合成、テキスト読み上げ、テキスト翻訳の全てを単一のモデルでサポートする「SeamlessM4T」を発表した。オープンサイエンスのアプローチに則り、研究者や開発者がこの研究を発展させられるよう「CC BY-NC 4.0」で公開した。

AI翻訳は急速な進歩を遂げている。しかし、サブシステムをまたいで翻訳を複数の段階に分割し、複数のシステムを用いる手法は、大量のデータを活用できても1つのモダリティでしか優れた性能を発揮できない傾向がある。実際の異なる言語間のコミュニケーションでは、音声やテキストから得た情報を総合判断して翻訳結果を出しており、全てを行える統一された多言語モデルはSpeech-to-Speech、Speech-to-Textの分野における「重要なブレークスルー」と強調している。

SeamlessM4Tは、音声とテキストをシームレスに翻訳・書き起こしする多言語・マルチタスクの基盤モデルとして以下をサポートする。

  • 約100言語の自動音声認識
  • 約100の入力言語と出力言語に対応するSpeech-to-Text翻訳
  • 約100の入力言語と35(+英語)の出力言語をサポートするSpeech-to-Speech翻訳
  • 約100言語のText-to-Text翻訳
  • 約100の入力言語と35(+英語)の出力言語をサポートするText-to-Speech翻訳

200言語をサポートするText-to-Textの機械翻訳モデル「No Language Left Behind (NLLB)」、1,100以上の言語をカバーする自動音声認識、言語識別、音声合成技術を提供する「Massively Multilingual Speech」など、Meta AIがこれまで取り組んできた様々なプロジェクトから得られた知見を活用し、幅広い音声データソースにわたって1つのモデルで優れたマルチモーダル翻訳を可能にした。SeamlessM4Tの構築にあたって、シーケンスモデリングツールキットであるFairseqを再設計し、より軽量なモデルでより多くの情報を扱えるようにした。翻訳されたテキストと音声を直接生成できるマルチタスクUnitYモデル・アーキテクチャ、そして音声エンコーディングにw2v-BERT 2.0を利用している。

Metaはまた、SeamlessAlignも公開する。計27万時間におよぶ音声とテキストのアライメントをマイニングしたもので、これまでで最大のオープンなマルチモーダル翻訳データセットになるという。