富士通は9月8日、AIサービス「Fujitsu Kozuchi」のコア技術として、LLM(Large Language Models:大規模言語モデル)の軽量化と省電力を実現するAI軽量化技術である「生成AI再構成技術」を開発し、「Takane」を強化したことを発表した。

この技術は、AIの基となる各ニューロン間の結合に割り当てられる重みを圧縮する量子化技術と、軽量化と元のAIモデルを超える精度を両立させた特化型AI蒸留技術の2つのコア技術で構成される。

これらの技術のうち量子化技術を「Takane」に適用することで、1ビット量子化(メモリ消費量最大94%削減)で、量子化前と比較して89%の精度維持率と、量子化前の3倍の高速化を実現したという。

量子化における従来の主流な手法であるGPTQ(Post-trainingの量子化手法)の精度維持率は20%以下であり、それを上回る結果を記録した。これにより、ハイエンドのGPU4枚を必要とする大型の生成AIモデルを、ローエンドのGPU1枚でも高速に実行可能になる。スマートフォンや工場の機械といったエッジデバイス上でのAIエージェントの実行にも貢献する。

これにより、リアルタイム応答性の向上とデータセキュリティの強化、そしてAI運用における抜本的な省電力化を実現し、サステナブルなAI社会に貢献するとのことだ。

同社は量子化技術を適用した「Takane」のトライアル環境を2025年度下期より順次提供を開始予定。さらに、Cohere社の研究用オープンウェイト「Command A」を同技術により量子化したモデルをHugging Faceを通じて順次公開する。

生成AI再構成技術を構成する2つのコア技術

AIエージェントが実行するタスクの多くは、LLMが持つ汎用的な能力のごく一部しか必要としない。今回開発した生成AI再構成技術は、LLMの設計において学習や経験、環境の変化に応じて神経回路を組み替え、特定のスキルに特化していく人間の脳の再構成の能力から着想を得たという。

今回同社が開発した生成AI再構成技術は、2つのコア技術により、汎用的な知識を持つ巨大なモデルから特定の業務に必要な知識だけを効率的に抽出し、軽量・高効率で信頼性の高い専門家の脳のように特化したAIモデルを創出する。

AIの思考を効率化し、消費電力を削減する量子化技術

この技術は、生成AIの思考の基となる膨大なパラメータの情報を圧縮し、大幅に生成AIモデルの軽量化・省電力化と高速化を実現する。従来の手法では、LLMのような層が多いニューラルネットワークにおいては、量子化誤差が指数関数的に蓄積することが課題だった。

そこで、理論的洞察に基づき、層をまたいで量子化誤差を伝播させることで増大を防ぐ新たな量子化アルゴリズム(QEP:Quantization Error Propagation)を開発。さらに、大規模問題向けの最適化アルゴリズムであるQQA(Quasi-Quantum Annealing)を活用することで、LLMの1ビット量子化を実現した。

  • 量子化技術

    量子化技術

専門知識を凝縮し、精度を向上させる特化型AI蒸留技術

この技術は、脳が必要な知識を強化し不要な記憶を整理するように、AIモデルの構造を最適化する。まずは基盤となるAIモデルに対し、不要な知識を削ぎ落とすPruning(枝刈り)や、新たな能力を付与するTransformerブロックの追加などを行い、多様な構造を持つモデル候補群を生成する。

次に、これらの候補の中から、独自のProxy(代理評価)技術を用いたNAS(Neural Architecture Search)により、顧客の要望(GPUリソースや速度など)と精度のバランスが取れたモデルを自動で選定する。

最後に、選定された構造を持つモデルに、「Takane」などの教師モデルから知識を蒸留する。この独自のアプローチにより、単なる圧縮に留まらず、特化したタスクでは基盤の生成AIモデルを上回る精度を達成するとのことだ。

同社のCRM(顧客関係管理)データを用いて各商談の勝敗を予測するテキストQAタスクの実証では、この技術により過去データに基づくタスクに特化した知識のみを蒸留したモデルを用いることで、推論速度を11倍に高速化しつつ、精度を43%改善するなど、精度向上が確認された。

高精度化とモデル圧縮を同時に実現することで、教師モデルを超える精度をより軽量な100分の1のパラメータサイズの生徒モデルで達成できることが確認され、必要なGPUメモリと運用コストをそれぞれ70%削減すると同時に、より信頼性の高い商談勝敗予測を可能としている。

また、画像認識タスクにおいては、未学習の物体に対する検出精度を、既存の蒸留技術と比較して10%向上させることに成功。これは、この分野における過去2年間の精度向上幅の3倍以上に相当する成果だという。

  • 特化型AI蒸留技術

    特化型AI蒸留技術