Windows Centralは4月2日(米国時間)、「Microsoft now has an AI that can turn hours of audio into text instantly - and businesses will love it|Windows Central」において、Microsoftが高精度な多言語音声認識モデル「MAI-Transcribe-1」をリリースしたと伝えた。
同モデルは日本語を含む25の主要言語に対応し、競合製品と比較してGPUコストを約50%削減しながら、高い精度を実現するという。
MAI-Transcribe-1とは?日本語対応・高精度・低コストの音声認識モデル
Microsoftが、高精度な多言語音声認識モデル「MAI-Transcribe-1」を公開した。日本語を含む25の主要言語に対応し、企業向けの音声処理用途を想定したモデルとなっている。
同モデルは「MAI-Voice-1」「MAI-Image-2」に続くMicrosoftのAIモデル群の一つで、CopilotやBing、PowerPoint、Azure Speechなどで使われている基盤モデルと同系統に位置付けられる。
どこがすごい?コスト50%削減・2.5倍高速・精度トップ
Microsoftによると、MAI-Transcribe-1は競合製品と比較して高い性能を実現しているという。
まずコスト面では、GPUコストを約50%削減しながら運用可能とされる。大規模な音声処理を行う企業にとっては、コスト効率の面で大きなメリットとなる。
性能面では、単語誤り率の低さは競合他社製品との比較において首位(3.9%)を獲得したという。音声の汎用表現ベンチマークテスト「FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)」の評価では、サポートする主要25言語において競合他社製品を上回ったとしている。
速度面においては、同社のAzure Fastよりも2.5倍早く文字起こし可能で、効率性を求める現場で有用とされる。また、ノイズ環境を想定して開発が行われており、背景雑音、低品質な録音データ、重なり合う音声の処理にも対応するとしている。
サポートする言語の一覧は次のとおり(参考:「(PDF) MAI-Transcribe-1 Model Card 」)。
- 日本語
- 英語
- イタリア語
- スペイン語
- ポルトガル語
- ドイツ語
- ポーランド語
- 韓国語
- インドネシア語
- フランス語
- ロシア語
- オランダ語
- トルコ語
- ルーマニア語
- ベトナム語
- フィンランド語
- スウェーデン語
- タイ語
- 中国語
- チェコ語
- ノルウェー語
- デンマーク語
- ハンガリー語
- ヒンディー語
- アラビア語
どうやって使う?開発者向け提供、日本からは一部制限も
Microsoftは発表と同時に、Microsoft Foundryのパブリックプレビューとして提供を開始した。価格は音声1時間あたり0.36ドルで、同性能の製品の中ではトップクラスのコストパフォーマンスとされる。
MAI-Voice-1およびMAI-Image-2を含めた3モデルの利用方法は公式ブログ「Introducing MAI-Transcribe-1, MAI-Voice-1, and MAI-Image-2 in Microsoft Foundry | Microsoft Community Hub」が詳しい。
これらAIモデルは開発者向けの提供となっており、一般ユーザーによる性能の検証方法は提供されていない。実験環境として「MAI Playground」が提供されているが、こちらは日本から利用することはできない。
そのため、MAI-Voice-1で生成した音声を、MAI-Transcribe-1で認識できるかなどの興味深い実験はできていない。しかしながら、Windows Centralは会議、字幕、その他の音声入力用途に最適と説明し、その有用性を示している。

