Microsoftは7月9日(現地時間)、「Reasoning reimagined: Introducing Phi-4-mini-flash-reasoning|Microsoft Azure Blog」において、Phiモデルファミリーの新エディション「Phi-4-mini-flash-reasoning」を発表した。

この新しいモデルは、エッジデバイスやモバイルアプリケーションなどリソースが制限される環境において高度な推論を実現することを目的としており、同社はパフォーマンスを犠牲にしない高速な推論性能の実現を強調している。

  • Reasoning reimagined: Introducing Phi-4-mini-flash-reasoning|Microsoft Azure Blog

    Reasoning reimagined: Introducing Phi-4-mini-flash-reasoning|Microsoft Azure Blog

新アーキテクチャ「SambaY」の卓越したパフォーマンス

Microsoftは、小規模言語モデル(SLM: Small Language Model)としてPhiモデルファミリーを展開している。今回は高度な数学推論向けに最適化されたオープンモデルとして「Phi-4-mini-flash-reasoning」を新たに加える。

その特徴は新アーキテクチャ「SambaY」の導入にある。レイヤー間の記憶維持を担当する効率的なゲートメモリーユニット(GMU: Gated Memory Unit)をクロスアテンション層とインターリーブ(不連続配置)することでデコード効率を大幅に向上し、最大64Kトークンの長いコンテキストにおける検索パフォーマンスの向上を実現する。

前身モデルの「Phi-4-mini」との比較においては、最大10倍のスループット向上、平均2~3倍のレイテンシ削減を達成している。

  • SambaY アーキテクチャーの構造 - Microsoft

    SambaY アーキテクチャーの構造 引用:Microsoft

MicrosoftはPhi-4-mini-reasoningとのベンチマーク比較を公開している。トークンとレイテンシーの比較では、トークンの増加に伴うレイテンシーの急激な増加を抑制できることを示している。

  • トークン(横軸)に対するレイテンシ(縦軸)の比較 - Microsoft

    トークン(横軸)に対するレイテンシ(縦軸)の比較  引用:Microsoft

幅広い用途での活用が期待できる

Phi-4-mini-flash-reasoningは他のPhiファミリーと同様に単一のGPUにデプロイ可能だ。リソースの限られたデバイスにおける長文生成や、レイテンシに敏感なタスクにおいてこれまでよりも高いスループットを実現できることから、同社は次の用途に最適として推奨している。

  • リアルタイムのフィードバックループを必要とするアダプティブラーニング(Adaptive Learning)プラットフォーム
  • モバイル学習支援や、エッジデバイスにおける自律推論アシスタント
  • 学習者のパフォーマンスに基づいてコンテンツの難易度を動的に調整する対話型指導システム

高度な数学推論向けに最適化されていることもあり、教育関連、軽量シミュレーションが主な用途として挙げられている。学習用途では有害出力の防止、安全性の確保が重要となるが、同社によるとPhi-4-mini-flash-reasoningを含むPhiファミリーには堅牢なセーフティーポストトレーニングが採用されているとのこと(関連情報:[2407.13833] Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle)。

効率性、柔軟性を兼ねそろえ、幅広い用途での利用が期待される「Phi-4-mini-flash-reasoning」は、Azure AI FoundryNVIDIA API CatalogHugging Faceで利用可能だ。

同社は今後も原則(説明責任、透明性、公平性、信頼性と安全性、プライバシーとセキュリティ、包括性)を守りながら開発を継続し、組織の成長と生産性向上に取り組む方針を示している。