さくらインターネット、生成AI向け推論API基盤「さくらのAI Engine」を提供開始

さくらインターネットは9月24日、生成AI向け推論API基盤「さくらのAI Engine」の一般提供を開始した。これにより「さくらのクラウド」のコントロールパネルから同サービスを利用でき、LLM(大規模言語モデル)をはじめとする基盤モデルを、API経由でアプリケーションに組み込むことが可能になる。

「さくらのAI Engine」の概要

同社では、生成AIを実業務やサービスで利用する推論需要の高まりを受け、企業や地方自治体などが自社サービスに会話生成や音声認識、RAG(検索拡張生成)に対応するベクトルデータベースを最小限の開発作業で実装できる、推論向けAPI基盤の開発。

同サービスの提供開始にあわせて、フルマネージドの生成AI向け実行基盤「さくらの生成AIプラットフォーム」名称を、生成AI向けビジネス基盤「さくらのAI」へと変更する。

さくらのAI Engineは、生成AI向けクラウドサービス「高火力」を基盤とし、APIを通じて国内外の複数の基盤モデルやRAGの機能を提供する。

これにより、企業は目的や性能用件に応じて最適な基盤モデルを選択でき、生成AIを活用したアプリケーションを、自社サービスに組み込むことが可能になる。また、さくらのAIは、生成AI活用に必要な機能群を統合したビジネス基盤であり、さくらのAI Engineは中核のサービスとなる。

「さくらのAI」全体イメージ

さくらのAI Engineの特徴として、計算基盤やネットワーク構成なしでクラウド上の実行環境を利用できることに加え、各種AI機能はREST APIとして提供し、アプリケーションへの組み込みやプロトタイプ開発が容易となっている。ベクトルデータベースと連携するRAG機能をAPI経由で簡単に利用でき、自社データを活用したチャットボットやFAQなどにも対応を可能としている。

加えて、同社が運営する国内のデータセンターで構成されたインフラ上で、基盤モデルを選択可能なため、機密情報や個人情報を国内で取り扱うことができるため、公共分野や高いセキュリティ要件が求められる業種でも導入を可能としている。そのほか、推論処理にはNVIDIA製のPUリソースを採用しており、複雑な生成AI処理にも安定したパフォーマンスを発揮するという。提供仕様は下図の通り。