AIが急速な進化を続けている中、最新版の大規模言語モデル(LLM)も定期的に登場してきています。クラウドからエッジに至るまで、あらゆる環境において実行されるLLMは、AIの可能性と機会を最大限に引き出す上で必要なものですが、一方で演算リソースとエネルギーの膨大な需要を招いています。
こうした課題を解消するためにエコシステムは一丸となり、幅広いAI推論ワークロードを大規模に実現しつつ、かつてない高速AI体験をいち早くユーザーに提供できるよう、効率性を高めた最新版のオープンソースLLMを公開しています。
中でもMetaが提供する 最新版 Llama 3.2 LLM については、 Arm CPU 上で 実行 できるようにしたことで、オープンソースのイノベーションと Arm の演算プラットフォームの強力な組み合わせが実現されました。
これにより、プロンプト処理で5倍、トークン生成では3倍の向上が実現しており、生成フェーズでは 19.92トークン/秒を達成しているとのことです。
さらなるメリットの詳細については、ぜひ本記事の続きをご覧ください。