Microsoft専門のニュースサイト「Windows Latest」は9月12日(現地時間)、「Microsoft Edge now has AI audio translation for videos on Windows 11, but it needs 12GB RAM」において、Microsoft Edgeに動画音声のAI翻訳機能「Real-time video translation」が搭載されたと伝えた。

同機能により、英語話者の動画を視聴した場合などに、母国語へのリアルタイム翻訳が可能になる。

  • Microsoft Edge now has AI audio translation for videos on Windows 11

    Microsoft Edge now has AI audio translation for videos on Windows 11

リアルタイム動画翻訳には大量のリソースが必要

Windows Latestによると、新機能はベータ版のMicrosoft Edgeバージョン141.0.3537.13に搭載された。AIをローカルで動作させるため、その負荷に耐えられるデバイスが必要となる。最小のデバイス要件は次のとおり。

  • 4コア以上のCPU
  • 12GB以上のRAM

これら要件にはシステムおよび他アプリが消費するリソースは含まれていない。そのため、メインメモリが16GBのシステムでは不足する可能性がある。

機能を有効にする設定

機能を有効化するには、Edgeの設定→「言語」→「翻訳(Translation)」から「Offer to translate videos on supported sites(Preview)」をチェックする。設定後にYouTubeで動画ページを開くとフローティングバーが表示され、入力言語を選択することが可能になる。

言語を選択するとAIモデルのダウンロードが行われ、すぐに動画の再生が開始される。翻訳元の音声は消え、翻訳後の音声が再生される。Windows Latestの実験によると、目立った遅延は確認できないが、人物の特定に不具合があるという。

実験動画の登場人物は1人だけだが、声のトーンが変わると男性、女性の2人を認識し、それぞれに異なる音声トラックを割り当てたという。致命的とまでは言えないが、映像から人物を認識しているわけではない点には注意したい。

対応している言語はまだ3つ

同機能が対応している入力言語は英語、スペイン語、韓国語の3つ。英語はスペイン語、ヒンディー語、ロシア語への翻訳をサポート、スペイン語と韓国語は英語への翻訳をサポートする。まだ少数言語のサポートに留まっているが、順次拡大していく予定とされる。

対象プラットフォームはYouTubeおよび特定の動画サイトに限定されるが、これも互換性の拡大が予定されている(公式発表:「Real-time video translation | Microsoft Edge」)。