AIが急速な進化を続けている中、最新版の大規模言語モデル(LLM)も定期的に登場してきています。クラウドからエッジに至るまで、あらゆる環境において実行されるLLMは、AIの可能性と機会を最大限に引き出す上で必要なものですが、一方で演算リソースとエネルギーの膨大な需要を招いています。


こうした課題を解消するためにエコシステムは一丸となり、幅広いAI推論ワークロードを大規模に実現しつつ、かつてない高速AI体験をいち早くユーザーに提供できるよう、効率性を高めた最新版のオープンソースLLMを公開しています。


中でもMetaが提供する 最新版 Llama 3.2 LLM については、 Arm CPU 上で 実行 できるようにしたことで、オープンソースのイノベーションと Arm の演算プラットフォームの強力な組み合わせが実現されました。


これにより、プロンプト処理で5倍、トークン生成では3倍の向上が実現しており、生成フェーズでは 19.92トークン/秒を達成しているとのことです。


さらなるメリットの詳細については、ぜひ本記事の続きをご覧ください。


  • Arm CPU 上で Meta の最新版 Llama 3.2 リリースを実行することで、クラウドからエッジまでパフォーマンスを大幅に向上
  • MetaとArm のコラボレーションにより、パーソナライズされたオンデバイス・レコメンデーションやルーチンタスクの自動化など、各種ユースケースでイノベーションを加速
  • Arm の 10 年に及ぶ AI 投資とオープンソースとの大規模なコラボレーションを通じて、Arm の演算プラットフォーム上で 1B~90B の最新版 LLM がシームレスに実現

クラウドからエッジまでAIパフォーマンスを加速

Llama 3.2 1B/3B など、テキストベースの基本的な生成 AI ワークロードに対応する小規模 LLMの利用は、大規模な AI 推論を実現する上で不可欠です。Arm CPU に最適化されたカーネルを通じて、Arm ベースのモバイルデバイスで最新版 Llama 3.2 3B LLM を実行することで、プロンプト処理で5倍、トークン生成では3倍の向上が実現しており、生成フェーズでは 19.92トークン/秒を達成しています。

これにより、デバイス上で AI ワークロードを処理する際のレイテンシーが抑えられ、総合的なユーザーエクスペリエンスは著しく向上します。また、エッジでの AI 処理を拡大することで、クラウドを往来するデータによる消費電力を抑え、エネルギーとコストを低減できます。


エッジでの小規模モデルの実行に加えて、クラウド環境でも Llama 3.2 11B/90B などの大規模モデルを実行できるようになりました。この 11B/90B モデルは、テキストと画像を生成するクラウド上のCPUベースの推論ワークロードに最適であることが、Arm Neoverse V2 でのデータで示されています。


Arm ベースのAWS Graviton4 で 11B の画像/テキストモデルを実行することで、生成フェーズでは29.3 トークン/秒を達成できます。この数字は、人間の読書速度である約5トークン/秒を大幅に上回っています。


オープンソースのイノベーションとエコシステムのコラボレーションにより、AI は迅速に拡大

Llama 3.2 などの最新の LLM をオープンに公開することは重要です。オープンソースのイノベーションは、圧倒的なスピードで進化しています。従来のリリースでは、オープンソースのコミュニティを通じて、最新版 LLM は 24 時間未満で Arm 環境での運用を実現しました。


私たちは Arm Kleidi を通じてソフトウェアコミュニティをさらに強化しており、このように最適化された CPU パフォーマンスを AI テクノロジースタック全体で活用できるよう取り組んでいます。Kleidi は、アプリケーション開発者に統合作業を強いることなく、任意の AI フレームワーク上で Arm Cortex および Neoverse CPU の AI 機能とパフォーマンスを解き放ちます。


最近のKleidiとPyTorch との統合機能や現在進行中の ExecuTorch との統合機能により、私たちはクラウドからエッジに至る Arm CPU 環境を対象に、シームレスな AI パフォーマンスのメリットを開発者に提供しています。KleidiとPyTorch との統合により、Armベースの AWS Gravitonプロセッサーで Llama 3 LLM を実行した際の最初のトークンまでの時間は2.5倍高速化しています。


一方のエッジでは、Kleidi AI ライブラリを使用することで、Llama 3 および llama.cpp と新型 Arm Cortex-X925 CPUによる最初のトークンまでの時間は、リファレンス実装との比較で 190% 高速化しています。


AI の未来を構築

Arm の演算プラットフォームの柔軟性、広範性、AI 機能と、Meta などの業界リーダーの専門知識を組み合わせることで、AI の新たな機会は大規模に解放されます。


ユーザーの位置情報、スケジュール、嗜好を理解し、ユーザーのためにタスクを実行するオンデバイスの LLM でも、業務の生産性を向上し、より高価値のタスクに専念できるようにするエンタープライズのユースケースでも、Arm テクノロジーの統合は、デバイスが単なるコマンド&コントロールツールではなく、プロアクティブなアシスタントとしてユーザーの全体的なエクスペリエンスを強化してくれる未来への道を切り開いています。


最新版 Llama 3.2 LLM による、Arm CPU 上でのAIパフォーマンスの向上は目覚ましく、こうしたオープンなコラボレーションは、可能な限り持続可能な方法で、あらゆる環境のAIイノベーションを実現する上でベストな方法だと私たちは考えます。最新版 LLM、オープンソースのコミュニティ、Arm の演算プラットフォームを通じ、私たちはAIの未来を構築しており、2025 年には 1,000 億個を超える Arm ベースデバイスが AI 対応になる予定です。


参考資料

モバイルとエッジのエコシステム開発者向けの Llama 3.2 は、Arm Cortex CPU ベースデバイスで効率的に実行されます。開発者向けのリソースについては、こちらの ドキュメントをご参照ください。


Arm Neoverse CPU 上のクラウド環境で Llama 3.2 を実行する、すべての主要クラウドサービスプロバイダーを通じて開発者は Arm を利用できます。開始時にはこちらの ドキュメントをご参照ください。

[PR]提供:アーム