Microsoft、自社開発AI基盤モデルで攻勢　音声認識・音声生成・画像生成の3種を公開

米Microsoftは4月2日（現地時間）、同社のAI部門「Microsoft AI（MAI）」が独自に開発した3つの基盤AIモデルを発表した。音声文字起こし向けの「MAI-Transcribe-1」、音声生成向けの「MAI-Voice-1」、画像生成向けの「MAI-Image-2」の3種で、同社はこれらのモデルについて、高い品質と処理速度に加え、競争力のある価格設定を実現したと説明している。

同日より、AIモデルの構築・運用プラットフォーム「Microsoft Foundry」で提供を開始した。米国では、新たな試用環境「MAI Playground」でも利用できる。

Microsoftによると、「MAI-Transcribe-1」は、日本語、英語、フランス語、スペイン語、韓国語など同社製品で利用頻度の高い25言語に対応し、業界標準ベンチマーク「FLEURS」に基づく評価で高い音声テキスト変換精度を示したという。具体的には、Gemini 3.1 Flashに対して22言語で、GPT-Transcribeには15言語で、より低いWER（単語誤り率）を記録した。バッチ処理速度は従来のMicrosoft Azure Fastの2.5倍に達し、ノイズの多い実環境下でも高い精度を発揮するよう設計されている。

「MAI-Voice-1」は、話者の特徴を反映しつつ、自然で表現力のある音声を生成するモデルである。数秒の音声サンプルからカスタムボイスを作成でき、60秒分の音声を1秒で生成する処理速度を実現した。音声エージェントや音声体験の構築といった用途を想定している。

画像生成モデルの新版「MAI-Image-2」は、自然な採光や正確な肌の質感、画像内の文字の明瞭な描写を実現しながら、既存環境比で少なくとも2倍の生成速度を達成した。Microsoftによると、MAI-Image-2はArena.aiのリーダーボードで上位に入るモデルファミリーとして評価された。世界大手のマーケティング・コミュニケーション企業グループであるWPPなどが、大規模な実業務での活用を開始している。