SambaNova Systemsは7月24日、チャットボットなどのAIアプリを簡単に構築するためのトークンベースのクレジットを無料で利用できる「SambaNova Fast API」に関する説明会を開催。その特長などの紹介を行った。

2017年に設立されたSambaNovaは、独自のAI半導体、ソフトウェア、システム、基盤モデルを統合したフルスタックAIプラットフォームを提供することで、オンプレミスで手軽な推論環境を構築できることを武器にカスタマを増やしてきた。日本でもソフトバンクが導入を決定したほか、日本語の大規模言語モデル(LLM)「Fugaku-LLM」が50種類以上の高品質オープンソース生成AIモデルで構成されたエンタープライズ向け1.3兆パラメータの生成AIモデル「Samba-1」のComposition of Experts(CoE)のエキスパートとして導入されるなど、実績を上げつつある(日本語LLMに関しては、東京工業大学のSwallowシリーズやELYZAのELYZA-japanese-llama-2-7bなども導入が進んでいる)。

  • 最近のSambaNovaの日本における取り組み例
  • 最近のSambaNovaの日本における取り組み例
  • 最近のSambaNovaの日本における取り組み例
  • 最近のSambaNovaの日本における取り組み例 (資料提供:SambaNova、以下すべてのスライド同様)

同社Senior Vice President, Products(製品担当上級副社長)のMarshall Choy(マーシャル・チョイ)氏は、同社のフルスタックAIプラットフォームの特長について、「GPUのアーキテクチャについても検討したが、データの移動などに問題があった(GPUはCPUとやり取りしてメモリにアクセスする必要がある)。我々は専用のAI半導体であるRDU(Reconfigurable Dataflow Unit)を開発することで、この問題を解決することにした。最新世代となる第4世代品「SN40L」では、520MBのオンチップメモリ(SRAM)に加え、64GBのHBM3をキャッシュとして活用し、その先に外付けで1.5TBのDDR5 DRAMという3層データフローメモリ構成を採用することで、GPUに対しメモリフットプリントを20%ほど向上。専用コンパイラとの連携により、高いパフォーマンスと低いレイテンシを提供できるようになった」と、独自発想のAI半導体が源泉となっていることを強調する。

  • マーシャル・チョイ氏

    SambaNova Senior Vice President, Products(製品担当上級副社長)のMarshall Choy(マーシャル・チョイ)氏。手に持っているのがSN40L

  • SN40Lの概要

    TSMCの5nmプロセス+CoWoSを用いて製造されるSN40Lの概要

  • 半導体のみならず、ソフトウェア、システム、そして基盤モデルまでフルスタックで提供

    半導体のみならず、ソフトウェア、システム、そして基盤モデルまでフルスタックで提供することで使い勝手を向上させている

  • 3階層のデータフローメモリ

    3階層のデータフローメモリとし、ダイレクトにRDUでやり取りすることで、大規模パラメータであっても高速性を維持することを可能と下

  • SN40Lの実チップ

    SN40Lの実チップ。2ダイ構成で、その周辺にHBM3が64GB搭載されている。技術としてはTSMCのCoWoSを活用している

また、そのシステムとしてのコンパクトさも特長だとする。オンプレミス向けには19インチラックにx86 CPU×2に8個のSN40Lを搭載したユニット単位で提供される。今回提供が開始されたSambaNova Fast APIは、このSambaNova-1が提供する事前トレーニング済みモデルとチップ機能への手軽なアクセスを開発者たちに向けて提供することを目的としたもの。提供されるのは、Llama 3(8B)およびLlama-3(70B)のフル精度推論で、独自のチェックポイントを持ち込み、トークンベースで制限付きながら無料でAPIを活用し、超高速推論を体験することができ、契約後に専用URL、APIキー、およびドキュメントが提供され、SambaNovaの計算リソースを活用してモデルをファインチューニングすることも可能だという。

  • 競合と1秒当たりのトークン数を比較した結果

    競合と1秒当たりのトークン数を比較した結果

実際にAPIを利用するためには、専用Webサイトからユーザー登録を行う必要があるが、その前に、SN40Lを16基活用する「Samba-1 Turbo」を活用したデモを専用サイトで無料で体験することができる

  • デモサイトのURL

    デモサイトのURL。QRコードを読み取ってもアクセス可能

  • SambaNova Fast APIの概要

    SambaNova Fast APIの概要

このSamba-1 Turboのデモサイトは、画面の右上にドロップダウンのメニューがあり、そこで利用可能なLLMが表示されるので、使いたいものを選び、画面下の入力欄にプロンプトを記入する形で実行できる。

日本語環境にも対応しているほか、デモ用のプロンプトも用意されており、それをクリックするだけで出力を見ることもできる。その処理速度は、実際にデモを体感してもらうと実感を持ってわかっていただけると思うが、デフォルト設定となっている「Meta-Llama-3-8B-Instruct」の場合、1秒当たりに生成できるトークン数が1000超と、爆速といえる速さ。あまりの速さに出力の最初の方はページ外にスクロールしていってしまう。

また、その拡張機能の1つとして、「プロンプトの入力エリア」の左となりに用意された「Real-Time」のチェックボタンがある。これをオンにすると、プロンプトを入力中であっても、生成AIが出力を随時実行。プロンプトの変更に応じて、リアルタイムで書き換えていく様子を見ることができる。チョイ氏は「開発者やスタートアップにAPIを公開することにしたのは、すぐに大きな投資に踏み切るのではなく、まずは使ってもらう、という意味合いが大きい。エコシステムの中にいることが重要で、中にいるからこそ、我々のモデルを使ってソリューションを組んでもらうといった連携もできる。そうした意味では、今回の取り組みはデベロッパーを重視したものとなる」とこの取り組みの意義を説明する。

なぜ、こうした取り組みを推進するのか。同氏は「エージェンティックAI時代、つまりこれまでの人間とAIの関係を超えて、エージェントとエージェント、エージェントとシステムが連携しあう時代が到来しようとしており、それはビジネスシーンでの活用が進むことを意味する。そうした中で、具体的に、いかに少ないハードウェアリソースで多くの言語モデルをサポートして、性能要件を低コストかつ低レイテンシで実現するのか、消費電力の削減も併せて、SambaNovaがサポートできると信じている」と自社の指向するRDUの活用が、これから来るであろう新たな生成AIを活用する時代の最適解になると強調。推論環境でありながら、量子化をせずにフル精度で高速化を実現している点も、高い精度を提供する必要があるビジネスシーンで必要とされる要素とし、Fast APIがそうした時代の最適なプラットフォームの第一歩となるとした。

  • エージェンティックAIの時代

    AIエージェントがユーザーのバディとなり、さまざまなことを二人三脚で協力して進めてくれるという未来は同社以外からも想像される未来として提示されている。そうした時代(エージェンティックAIの時代)には、さまざまなAIを組み合わせて活用していくことが重要となってくる。そうした時代に、さまざまなAIモデを瞬時に切り替えて利用できるSambaNovaのソリューションは最適解になるとする