Snowflakeは6月24日、説明会を開催し、米国で開催された年次イベント「Snowflake Data Cloud Summit 2024」で発表された、注目すべきAI関連の最新情報を紹介した。

新CEOのSridhar Ramaswamy氏による基調講演の模様は、SnowflakeがAI時代の戦略発表「AI Data Cloudカンパニーへ」で、お届けしている。

冒頭、執行役員 セールスエンジニアリング統括本部長 井口和弘氏は、「データクラウド」のブランド刷新について語った。同社はこれまで、「データクラウド」の提供を標榜してきたが、今年のData Cloud Summitで、「AIデータクラウド」への進化を発表した。

「AIとデータは密に結合する必要があることから、AIデータクラウドにブランドを変更した。われわれはシンプルで統合されたデータ基盤を提供しているが、AIを加えることで、よりデータ活用が進むと考えている」(井口氏)

  • Snowflake 執行役員 セールスエンジニアリング統括本部長 井口和弘氏

また、井口氏はアーキテクチャの変更についても触れた。下図が新たなアーキテクチャとなるが、「Coretex AI」が加わった。「Coretex AI」はフルマネージド型のAIサービスで、主要なLLM(大規模言語モデル)へのアクセスを提供し、AIを活用したアプリケーションを簡単に構築・展開することを実現する。井口氏は「アーキテクチャにAIを加えることで、さらにデータ活用を進める」と述べた。

  • Snowflakeの新たなアーキテクチャ

データ基盤、アプリ開発、AIにおいて機能強化

同イベントでは、イノベーションのテーマとして、「データファンデーションの強化」「アプリケーションの構築と配布」「エンタープライズAIの加速」の3点に注力することが発表された。以下、各テーマにおける機能強化のポイントを紹介する。

データファンデーションの強化:Polaris Catalog発表

井口氏はデータファンデーションの強化において、最も強化が行われたソリューションとして、データガバナンスに関するソリューション群「Snowflake Horizon」を紹介した。同製品は、コンプライアンス、セキュリティ、プライバシー、相互運用性、アクセスのための機能を提供する。

井口氏は、Snowflake Horizonの特徴の一つとして、LLMを活用した検索(Universal Search)とテキスト検索の両方に対応している点を挙げた。これにより、アクセス性を高める。

加えて、業界の動向として、ストレージレイヤーの相互運用性が高まっていることから、Snowflakeでも強化を進めているという。その具体策の一つとして、Apache Icebergのためのフルオープンソースカタログ「Polaris Catalog」が発表された。今回、SnowflakeにおけるIcebergテーブルの一般提供が開始された。

Polaris CatalogとIcebergテーブルの提供は、オープンなデータプラットフォームを使いたいというユーザーのニーズに対応するもの。

オープンなデータプラットフォームの利用を希望する理由としては、「ベンダーロックインされたくない」「他のエンジンからもSnowflakeを使いたい」「データにまつわるコストを抑えたい」の3点があるという。

Polaris CatalogはAmazon Web Services(AWS)、Confluent、Dremio、Google Cloud、Microsoft Azureとの連携が予定されており、今後90日以内にオープンソース化される。

  • データファンデーションの強化のための主要な機能拡張

アプリケーションの構築と配布

井口氏は、Snowflake上で自由度の高いアプリケーションを実装できる仕組みとして「Snowparkコンテナサービス」を挙げた。同サービスは、構成可能なCPUおよびGPUコンピュートインスタンスで、(コンテナとしてパッケージ化されている)アプリケーションやモデルを簡単に展開できるフルマネージド型コンテナサービス。今回、AWSで一般提供が、Microsoft Azureではパブリックプレビューが開始された。

Snowparkコンテナサービスでは、アプリケーションやモデルは顧客のSnowparkコンテナ上にデプロイされ、データは顧客の環境に閉じていることから、データを外に漏らすことなく使えるという。これにより、ユーザーが気にするデータが外に出ることのリスクを抑えているという。

井口氏は、アプリケーション開発のための新しい仕組みの一つとして、Snowflake Notebooks(パブリックプレビュー)を紹介した。Snowflake Notebooksは、Python、SQL、Markdownのための単一の開発インタフェースを提供する。また、Snowflake Notebooksを活用して、MLパイプラインの実験と反復、AIを活用した編集機能、データエンジニアリングワークフローの簡素化などが行える。

さらに今回、オブザーバビリティ機能セットであるSnowflake Trailも発表された。これは、コンピュートの使用状況の適切な監視、トラブルシューティング、デバッグ、アクション実行を実施できるようにするための機能だ。

井口氏によると、これまでもオブザーバビリティ機能は提供してきたが、今回、Snowflake Trailとして機能をまとめたのだという。

  • アプリケーションの構築と配布のための主要な機能拡張

エンタープライズAIの加速:独自LLM「Arctic」を提供

さて、同社が最も注力しているAIに関しては、エンド・ツー・エンドで生成AI/ML(機械学習)をカバーする統合プラットフォームを提供している。このプラットフォームでは、ノーコードのStudio、SQL、Python、REST APIインタフェースでAIを使用できる。

  • Snowflakeが提供している生成AI/MLのための統合プラットフォーム

生成AIについては、フルマネージドサービス「Cortex AI」により、LLMへのアクセスを提供し、AIを活用したアプリケーションの構築・展開を実現する。Cortex AIの新たなソリューションとして、以下が発表された。

  • Cortex Analyst(近日中にパブリックプレビュー開始) ビジネスユーザーが自然言語を用いて、Snowflake内の構造化データと高精度で対話できるようにする

  • Cortex Search(近日中にパブリックプレビュー開始) 非構造化データに対し、低レイテンシーで高品質のハイブリッド検索(セマンティックとキーワード)を可能にする

  • LLM向けSnowflake AI & ML Studio ノーコードのインタフェースでさまざまなLLMを試すプレイグラウンド

  • Cortex AIサーバーレスファインチューニング MetaとMistral AIの主要モデルのファインチューニングを可能にする

  • Snowflake Cortex Guard MetaのLlama Guardで構築されたAI安全機能により、望ましくないシステム出力を防ぐフィルタリングを行ってアプリケーションを保護する

  • Snowflakeの生成AI関連ソリューション

加えて、井口氏は今年4月に発表された同社独自のLLM「Snowflake Arctic」を紹介した。同氏はArcticの特徴として、エンタープライズのタスク処理能力の高さ、効率性、オープン性を挙げた。

効率性に関しては、MetaのLlamaよりも少ないGPUで同等の効率を実現しており、「パラメータがそれほど多くなくても効率が出せており、コスパがよい」(井口氏)という。

また、ArcticはApache 2.0ライセンスで、オープンデータレシピとリサーチインサイトとペアになったウェイトとコードにゲートなしでアクセスでき、他のオープンソースのLLMよりもオープン性が高い。「われわれは業界への貢献として、すべての項目をオープンにしている」と、井口氏は語っていた。

そのほか、井口氏はArcticの多言語性についても説明した。Arcticは事前学習用のデータセットの1つとしてC4データセットを利用しており、学習に日本語をそれほど大量に使っていないが、同氏の体感では、日本語の質問も簡潔かつ高速に返してくれるという。

井口氏は、「LlamaやOpenAIは巨大なモデルを使い、また、Mistralは分散型のアーキテクチャを使う。いわば、Arcticは両方のタイプのいいとこどり」と、Arcticの強みについて語っていた。