ソフトバンクは、米国の半導体設計企業・Ampere Computing(Ampere)と、次世代のAI(人工知能)インフラを構成する要素のひとつとして、“CPUを活用したAIモデル”の運用効率化に向けた共同検証を開始した。今後のAIエージェント時代に向け、多数の小規模AIモデルをCPUで分散運用し、計算資源の利用効率を高めるねらいがある。
今回の共同検証では、ソフトバンクが開発を進めている、計算資源の管理やAIモデルの最適な配分を行うオーケストレーターと、AIの推論処理向けに設計されたAmpere製CPUを活用することで、CPUをAI推論用の計算資源として利用できることを確認。
AIエージェントなどで一般的に利用される小規模言語モデル(SLM:Small Language Model)や、Mixture of Experts(MoE、推論の際に一部の専門家“Expert”のみを動作させることで、計算処理の負荷を抑えるモデルのこと)などの推論モデルをCPU上で実行することで、AIモデルの運用を最適化し、計算資源の利用効率の向上を実現させられるとしている。
具体的にはまず、分散型の計算環境を想定し、AIエージェント向けのSLMとMoEモデルを対象に、CPU上でのAI推論環境における性能やスケーラビリティー、運用性を評価。
また、CPUのみを搭載したノードや、CPUとGPUを搭載したノードなどのマルチノード環境を前提として、オーケストレーターに最適な配分制御機能を実装することで、ユースケースや計算処理の負荷などの特性に応じてAIモデルを柔軟に配置・管理し、最適化できることも確認した。
さらに、オープンソースのAI推論フレームワークであるllama.cppをベースに、Ampere製のCPU向けに最適化した「Ampere optimized llama.cpp」を実装。これにより、一般的なGPUベースの構成よりも消費電力を抑えながら、同時実行可能数を増加できることを確認した。加えて、AIモデルの読み込み時間が大幅に短縮され、モデルの高速な切り替られも可能としている。
AIの普及加速により、大規模言語モデル(LLM)だけでなく、特定の用途に特化し、比較的少ないパラメーター数でも高い実用性を発揮するAIモデルの需要が拡がっている。特にAIエージェントや業務の自動化、ネットワーク制御といった分野では、低遅延な応答性と、常時稼働を前提とした高い電力効率を兼ね備えた推論処理が求められる。こうした背景を踏まえ、両社は今回、次世代AIインフラにおける計算資源の利用効率の向上をめざした取り組みをはじめた。
ソフトバンクとAmpereは今後、これらの成果を生かし、AIエージェント向けに複数のモデルを動的に切り替えながら、1秒当たりのトークン出力数(TPS:Tokens Per Second)を安定的に維持できるAI推論プラットフォームの実現に向けた取り組みを進めていく。
ソフトバンクは、Ampereとの協業を通して、次世代AIインフラを支える要素技術のひとつとして、低遅延かつ高効率なAI推論環境の確立を推進。AIエージェントやSLMのさらなる活用の拡大に寄与するとしている。
