Windows Centralは4月2日(米国時間)、「Microsoft now has an AI that can turn hours of audio into text instantly - and businesses will love it|Windows Central」において、Microsoftが高精度な多言語音声認識モデル「MAI-Transcribe-1」をリリースしたと伝えた。

同モデルは日本語を含む25の主要言語に対応し、競合製品と比較してGPUコストを約50%削減しながら、高い精度を実現するという。

  • 音声をリアルタイムでテキスト化するイメージ 出典:Microsoft

    音声をリアルタイムでテキスト化するイメージ 出典:Microsoft

MAI-Transcribe-1とは?日本語対応・高精度・低コストの音声認識モデル

Microsoftが、高精度な多言語音声認識モデル「MAI-Transcribe-1」を公開した。日本語を含む25の主要言語に対応し、企業向けの音声処理用途を想定したモデルとなっている。

同モデルは「MAI-Voice-1」「MAI-Image-2」に続くMicrosoftのAIモデル群の一つで、CopilotやBing、PowerPoint、Azure Speechなどで使われている基盤モデルと同系統に位置付けられる。

どこがすごい?コスト50%削減・2.5倍高速・精度トップ

Microsoftによると、MAI-Transcribe-1は競合製品と比較して高い性能を実現しているという。

まずコスト面では、GPUコストを約50%削減しながら運用可能とされる。大規模な音声処理を行う企業にとっては、コスト効率の面で大きなメリットとなる。

性能面では、単語誤り率の低さは競合他社製品との比較において首位(3.9%)を獲得したという。音声の汎用表現ベンチマークテスト「FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)」の評価では、サポートする主要25言語において競合他社製品を上回ったとしている。

  • モデル別の単語誤り率(全体平均) - 引用:Microsoft

    モデル別の単語誤り率(全体平均) - 引用:Microsoft

速度面においては、同社のAzure Fastよりも2.5倍早く文字起こし可能で、効率性を求める現場で有用とされる。また、ノイズ環境を想定して開発が行われており、背景雑音、低品質な録音データ、重なり合う音声の処理にも対応するとしている。

サポートする言語の一覧は次のとおり(参考:「(PDF) MAI-Transcribe-1 Model Card 」)。

  • 日本語
  • 英語
  • イタリア語
  • スペイン語
  • ポルトガル語
  • ドイツ語
  • ポーランド語
  • 韓国語
  • インドネシア語
  • フランス語
  • ロシア語
  • オランダ語
  • トルコ語
  • ルーマニア語
  • ベトナム語
  • フィンランド語
  • スウェーデン語
  • タイ語
  • 中国語
  • チェコ語
  • ノルウェー語
  • デンマーク語
  • ハンガリー語
  • ヒンディー語
  • アラビア語

どうやって使う?開発者向け提供、日本からは一部制限も

Microsoftは発表と同時に、Microsoft Foundryのパブリックプレビューとして提供を開始した。価格は音声1時間あたり0.36ドルで、同性能の製品の中ではトップクラスのコストパフォーマンスとされる。

MAI-Voice-1およびMAI-Image-2を含めた3モデルの利用方法は公式ブログ「Introducing MAI-Transcribe-1, MAI-Voice-1, and MAI-Image-2 in Microsoft Foundry | Microsoft Community Hub」が詳しい。

これらAIモデルは開発者向けの提供となっており、一般ユーザーによる性能の検証方法は提供されていない。実験環境として「MAI Playground」が提供されているが、こちらは日本から利用することはできない。

そのため、MAI-Voice-1で生成した音声を、MAI-Transcribe-1で認識できるかなどの興味深い実験はできていない。しかしながら、Windows Centralは会議、字幕、その他の音声入力用途に最適と説明し、その有用性を示している。