AWSがCerebrasのCS-3システム活用で推論を強化
Amazon Web Services(AWS)とCerebras Systemsは3月13日、生成AIアプリケーションおよび大規模言語モデル(LLM)向けに世界最速クラスのAI推論ソリューションを提供することを目的とした協業を発表した。
これにより両社は、AWSのTrainium搭載サーバとCerebrasのCS-3システム、Elastic Fabric Adapter(EFA)ネットワークを組み合わせた推論基盤を、AWSの生成AIプラットフォーム「Amazon Bedrock」上で展開するという。Amazon Bedrockは、AWSが提供する生成AIサービスで、複数の基盤モデル(Foundation Models)をAPI経由で利用できる点が特徴。インフラ管理を意識することなく、LLMを用いたアプリケーション開発や運用が可能で、エンタープライズ向けのセキュリティやガバナンス機能も備えており、今回の協業によって、そのBedrock上で提供される推論性能が引き上げられることになる。
TrainiumとCS-3の使い分けで推論処理を高速化
具体的には、AIによる推論を「Inference Disaggregation(推論の分離)」と呼ばれる「プロンプト処理(prefill)」と「出力生成(decode)」の2段階に分離し、それぞれ異なる計算特性に最適化したプロセッサで処理することで、最適化を図り、高速な処理の実現を図ることができるようになるという。TrainiumとCS-3の組み合わせでは、prefillをTrainiumで処理、メモリ帯域が支配的とされるdecodeをCS-3で処理し、それらをEFAネットワークで接続することで低遅延と高帯域の両立を図るという。AWSでは、TrainiumとCS-3で役割を分担させて処理することで、現在利用可能なほかの手法と比べて桁違いに高速な推論を実現できると説明している。
なお、同ソリューションはAWSのデータセンターに導入される形で今後数か月以内に提供開始の予定。また、2026年後半には、主要なオープンソースLLMやAmazon Novaを、Cerebrasのハードウェアを用いた推論基盤としてBedrock上で提供することも予定されているという。
