Mistral AI、新たな音声AIモデル「Voxtral Transcribe 2」

仏Mistral AIは現地時間4日、音声からのテキスト変換や理解を可能とする音声AIモデル「Voxtral Transcribe 2」をリリースした。「Voxtral Transcribe 2」は、2つのラインナップで構成されており、文字起こしなどリアルタイム音声テキスト変換を可能にする「Voxtral Realtime」は、Apache 2.0ライセンスでHugging Faceに公開、API経由で利用する有料の「Voxtral Mini Transcribe V2」は、同社のクラウド上の開発環境「Mistral Studio」で試すことができる

OSSとして利用できる「Voxtral Realtime」は、遅延200ミリ秒未満に設定できるライブ文字起こし専用として設計されており、エッジデバイスやローカル環境で機能する。英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語などを対応言語に挙げる。API経由で0.003ドル/1分あたり(発表時)で提供される「Voxtral Mini Transcribe V2」は、エンタープライズ展開向けにエラーの軽減やノイズに対する堅牢性の向上を図っており、公式ブログでは、単語エラー率約4%などのベンチマーク結果を示してその精度をアピールしている。