SambaNovaがAI推論サービス「SambaNova Cloud」を発表、Llama 3.1 405Bを毎秒132トークンで実行

SambaNova Systemsは9月10日(米国時間)、同社のAI半導体「SN40L」を活用したAI推論サービス「SambaNova Cloud」を発表した。

SN40Lの実チップ。2ダイ構成で、その周辺にHBM3が64GB搭載されている

同サービスはユーザー登録を行うことで無料で利用することが可能。最大かつ高性能モデルである「Llama 3.1 405B」ならびに高速な「Llama 3.1 70B」をAPI経由で利用して、独自の生成AIアプリケーションを作成することができ、Llama 3.1 70Bを完全な精度で毎秒461トークン、Llama 3.1 405Bも完全な精度で毎秒132トークンで実行することが可能だとしている。

MetaのLlama 3.1モデルの中でも最もインテリジェントで、モデルの使用方法と展開方法に柔軟性を提供するとされる405Bながら、大きなモデルであることからシステムによっては実行速度が遅くなるほか、精度を下げることで対応するなどの必要があるが、同社では最新世代のSoCであるSN40Lの高い性能により、モデルの大きさによる速度のトレードオフを軽減。完全な精度で毎秒132トークン(16ビット時)での動作を可能としていると説明している。

ちなみにこのベンチマークは、AI性能比較サイト「Artificial Analysis」が独自に行った結果に基づくものだという。

Artificial Analysisによるベンチマーク結果 (出所:SambaNova)

なお、SambaNova Cloudは以下の3つのレベルで提供されており、同社では同サービスを活用することで、開発者は独自のチェックポイントを持ち込みことができ、Llamaモデル間を高速に切り替え、AIプロンプトチェーンを使用してワークフローを自動化し、高速な推論速度で既存のファインチューニングされたモデルを利用することができるようになるとしている。

Free(すでに利用可能):ログインで誰でも無料でAPIにアクセス可能
Developer(2024年末までに利用可能予定):開発者はLlama 3.1の8B、70B、405Bモデルをより高い制限レートで使用してモデルを開発することができる
エンタープライズ(すでに利用可能):企業における本番稼働のワークロードに必要な、より高い制限レートを提供