米NVIDIAは12月15日(現地時間)、エージェント型AI向けのオープンAIモデルファミリ「Nemotron 3」を発表した。同日よりNano(最大300億パラメータ)がHugging Faceなど複数の推論サービスプロバイダーを通じて提供開始され、NIMマイクロサービスとしても利用可能となっている。さらに、2026年上半期にはSuper(約1000億パラメータ)とUltra(約5000億パラメータ)の提供を予定している。
Nemotron 3は、複数のモデルやAIシステムが連携して動作する「マルチエージェントシステム」の構築に焦点を当てたモデル群である。企業や組織が単一のチャットボットから、役割分担しながら協調動作するマルチエージェントシステムへと移行する中で顕在化している、通信オーバーヘッドや文脈のずれ、推論コストの増大といった課題への対応を狙う。
こうした効率性と精度の両立を支える技術的中核が、「ハイブリッド潜在 Mixture-of-Experts(MoE)」アーキテクチャである。
MoEは、エキスパート(専門家)の役割を担う複数の小規模なニューラルネットワークと、入力内容に応じて利用するエキスパートを選択するルーターネットワークを組み合わせたモデル構造である。すべての処理を単一の巨大モデルで行うのではなく、入力されたトークンごとに必要なエキスパートのみをアクティブにすることで、総パラメータ数が大きくても実行時の計算量や消費電力を抑えられる。
Nemotron 3では、このMoE構造に「ハイブリッド潜在」という設計を組み合わせ、複数のエキスパートが共通の基盤コアを共有し、専門的な部分のみを個別に保持する仕組みを採用している。これにより、モデル全体の表現力を維持しながら、学習および推論の効率向上を図っている。
- Nano(300億パラメータ):一度に最大30 億のパラメータをアクティブ化して、対象を絞ったタスクを高効率に実行。
- Super(約1000億パラメータ):マルチエージェントアプリケーション向け、高精度な推論モデル。
- Ultra(約5000億パラメータ):複雑なAIアプリケーション向け。トークンあたり最大500億のアクティブパラメータを備えた高度な推論エンジン。
提供開始されたNanoは、Nemotron 2 Nano比で最大4倍のトークンスループットを実現したという。推論(reasoning)に伴うトークン生成量を最大60%削減できるとしており、推論コストの低減が期待される。また、最大100万トークンの長文コンテキストに対応し、大量の資料を参照しながら複数の手順を踏むような業務での活用が見込まれる。
NVIDIAはNemotronでオープン性を重視しており、モデル本体に加えて学習データや手法の透明性確保にも注力している。Nemotron 3でも、学習用データセット群(事前学習・事後学習・強化学習関連で計3兆トークン規模)や、強化学習の環境/ライブラリ(NeMo Gym、NeMo RLなど)、評価用ツール群をGitHubやHugging Faceで公開している。
