Microsoft、オープンウェイトのマルチモーダル推論モデル「Phi-4-reasoning-vision-15B」を公開

Microsoft Corporationは3月4日(現地時間)、「Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model」において、オープンウェイトの小型マルチモーダルAI「Phi-4-reasoning-vision-15B」をリリースするとともに、その研究成果を公開した。

Phi-4-reasoning-vision-15Bは約150億パラメーター規模のモデルで、画像とテキストを同時に処理し、図表解析や科学・数学問題、画面操作理解など複雑な課題を扱う能力を持つ。特に、数学および科学推論とユーザーインタフェースの理解において優れた性能を示したという。

Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model - Microsoft Research

Phi-4-reasoning-vision-15Bの特徴 - 効率よいマルチモーダル推論を実現

Phi-4-reasoning-vision-15Bの特徴は、画像とテキストを同時に扱い、視覚情報を伴う複雑な問題を段階的に推論して解く能力を備えている点だ。視覚情報に対する効率的な推論を実現するために、Phi-4-reasoning-vision-15Bでは視覚エンコーダが画像を視覚トークンへ変換し、それを言語モデルの埋め込み空間に取り込む中間融合方式のアーキテクチャーを採用している。

Microsoftによれば、これは計算量を抑えつつ実用的な性能を確保できる構成であり、小型モデルでも効率的なマルチモーダル推論を実現する最適な手法だという。

学習ではデータ品質を重視したとのこと。大規模データを単純に増やすのではなく、体系的なフィルタリングや誤り修正、合成データの追加を組み合わせることで、データ量を抑えながら効率的な学習を実現した。

問題に応じて段階的な推論と直接的な回答を切り替えることも特徴

さらに、推論型データと知覚中心データを混合した学習を行い、問題に応じて段階的な推論と直接的な回答を切り替える仕組みを導入している点も大きな特徴。

現在の多くの大規模言語モデルは、Thinking（深い思考）モードの有効／無効を明示的に指示して切り替える必要があるが、Phi-4-reasoning-vision-15Bは自らその切り替えを判断することができる。この設計により、単一モデルで高速応答と深い推論の両立が可能になったという。

ベンチマーク結果を公開

Microsoftは、Phi-4-reasoning-vision-15Bのベンチマーク結果を、同等クラスまたはやや上位のクラスのオープンソースLLMと比較する形で公表している。

類似モデルとのベンチマーク比較　出典:Microsoft

これによると、一部のテストでは優れた性能を示す一方で、他のテストでは劣勢に立たされていることが分かる。ただし、Phi-4-reasoning-vision-15Bの強みは精度とコストのバランスであり、デフォルトの混合推論（mixed-reasoning）で高い精度を示していることで、それが実証されたとMicrosoftは説明している。

Phi-4-reasoning-vision-15Bは、Microsoft FoundryやHugging Faceからダウンロードできる。