Snowflakeは6月26日より29日まで、米ラスベガスで年次カンファレンス「Snowflake Summit 2023」を開催している。27日のメイン基調講演では、同社で会長兼CEOを務めるFrank Slootman氏ら幹部が、Snowflakeのビジョンや新サービスを発表した。

  • 米Snowflake 会長兼CEO Frank Slootman氏

AI時代により重要性高まるデータ戦略

Snowflake Summitには1万2000人が参加、前回(2022年)は1万人を切っていたというから盛況ぶりが伺える。前日にはNVIDIAの創業者兼CEOであるJensen Huang氏を招いてトップ対談を行った。

ここで両CEOは提携を拡大し、NVIDIAのLLM開発用プラットフォーム「NVIDIA NeMo」とSnowflakeを統合することでSnowflake内のデータを使ってカスタムLLMを構築できることを発表した

Slootman氏は27日の基調講演でも、まずAIに触れた。

「AI戦略の前に、まずデータ戦略を持たなければならない。AIを導入したら奇跡が起こると願うことはできない」とSlootman氏。AIの潜在能力をフルで活用するには、モダン化、クラウド化、新しい技術などが必須になる。「根本的に異なる選択が必要だ」(同氏)

Snowflakeのデータ戦略は同社が創業時から提唱する「データクラウド」だ。データクラウドを介することで、子会社、関連会社、取引先とシナプスのようにデータを接続して安全にやりとりができる。

「データクラウドのポイントは、企業の境界により定義されるのではなく、ビジネス上の関係、エコシステムにより定義されること。つながりを構築したり、切り離したり、再構築したりすることが自在にできる」と、説明する。

Snowflakeは金融向けなど7つの業界向けにデータクラウドを用意しており、同社のデータクラウドは世界40の地域にまたがるという。

  • Snowflakeの顧客のデータクラウドをレンダリングしたもの。点はユニークなアカウントで、線はアカウントに接続されるデータネットワークとなる

AIとLLMでドキュメントからデータを導く「Document AI」発表

Slootman氏はデータクラウドが目指すものを、「脱サイロ」「全てのデータ」「全てのワークロード」「全てのユーザー」の4つのキーワードから説明した。

脱サイロとは、ワークロードの実行や新しいアプリケーションの導入により立ち上がっていたデータベースのサイロをなくすこと。「現在のAI”革命”に限らず、サイロは大きな妨げ要因になる」(Slootman氏)

全てのデータとは、構造化データだけでなく、非構造化データも取り込むことを意味する。ただし、データをそのまま取り込んでも分析への活用は難しい。Snowflakeはここで、2022年にApplicaを買収、LLM(大規模言語モデル)とAIを使って非構造ドキュメントから構造データを導き出す機能を「Document AI」として今回発表した。

  • Document AIのデモ。LLMを使って手書きの情報を抽出し、モデルをチューニングすることで、PDFにある手書き文字がフォームに自動入力された

全てのワークロードは、「データがワークロードにいくのではなく、ワークロードがデータのあるところにくる」ことにより実現する。そのために、Snowflakeはデータウェアハウス、データレイク、そしてトランザクション機能の「Unistore」、トランザクションと分析の両方を行うための「Hybrid Tables」(プレビュー)と機能を拡大してきた。

それだけでなく、コラボレーションとデータ共有機能も提供しているが、大手顧客の70%がデータコラボレーションを利用しているという。このほか、サイバーセキュリティ、データエンジニアリングと機能を加えた。

そして、アプリケーションだ。「パブリッククラウドのインフラがあり、ライブのデータがあり、ワークロードがあり、トランザクション機能もある。ソフトウェア企業にとってSnowflakeは魅力的な場所だ」とSlootman氏。「アプリケーションはデータベースの上ではなく、データクラウドの上に構築すべき」と続けた。

そのために、Snowflakeが念入りに取り組むのがガバナンスだ。「ガバナンスは、Snowflakeの全てに浸透している。新しい機能を導入する際、リスクを徹底して考えている」とSlootman氏は述べた。Pythonを導入する際にガバナンスの観点からリスクを排除する作業があったため、「導入するだけなら1週間でできるが、2年を費やした」そうだ。「ワークロードを有効にするという点で全ての機能はガバナンスパラメーターの中で実行される」と、同氏は語っていた。

  • Snowflakeが取り組むプライバシーのための機能

このように、データクラウドの上に構築するプログラマビリティ・プラットフォームが「Snowpark」だ。「Snowpark」は2021年に発表、Python、Javaなどをサポートする。

全てのユーザーとは、アプリ開発者、機械学習エンジニア、データサイエンティスト、SQLアナリスト、ビジネスユーザーを指す。「全ての立場の人を等しく重要視している」とSlootman氏は語った。

生成AIアプリにも対応「Snowpark Container Services」など発表

Snowflakeはイベント中、さまざまな発表を行った。アプリケーション、データ、ワークロードの3つの分野で主なものを紹介する。

アプリケーションでは、「Native Application Framework」として、Snowflake上で容易にアプリケーションを開発できるフレームワークを発表した。まずは、AWS上のパブリックプレビューとして利用できる。

共通のサービス、共通のガバナンスフレームワーク、共通のデータベースエンジンを使っており、開発したアプリは主要クラウドで動くという。すでに25種類以上のSnowflakeネイティブアプリケーションがあり、Snowflakeマーケットプレイスのネイティブアプリケーション(Snowflake Native Apps)の中には、Goldman SachsやCapital Oneのスペンド(支出)管理「Slingshot」、NTTデータの「Cost Optimizer for Snowflake」「Test Automation for Snowflake」などが並んでいる。

Snowflakeによると、マーケットプレイスはこの1年で公開プロバイダ数が66%増加するなど、成長しているとのこと(非公開でも配布できる)。

Snowflakeプロダクト担当上級副社長のChristian Kleinerman氏は、「データのコピーは不要。パートナーがさまざまなソリューションをSnowflakeマーケットプレイス上で展開するのを楽しみにしている」と述べた。今後、Microsoft Azure、Google Cloudにも拡大する予定という。

  • Snowflake プロダクト担当上級副社長 Christian Kleinerman氏

ワークロードでは、「Snowpark Container Services」を発表した(プライベートプレビュー)。Kubernetesをベースとしインターフェイスは同社が買収したStreamlit、Snowflakeプラットフォームにコンテナイメージを登録、実装できる。Snowparkの機能を拡張することで、NVIDIA GPUの活用もサポートする。SAS、HexなどのAI/機械学習との連携も可能という。

  • デモでは、SnowparkのDataFrames、Container ServicesのノートブックHexデータを使ってデータを準備し、NVIDIA GUIでモデルをトレーニングし、Snowpark Model Registryにモデルをパブリッシュした

データでは、オープンテーブルフォーマット「Apache Iceberg」のサポートを拡大したことを発表した。それまでは、クラウドストレージにあるデータを読み取る外部テーブル、それにマネージドされたテーブルの2種類のテーブルがあったのを統合し、Iceberg Tablesとする。その上で、マネージドとアンマネージドの2つのモードを用意する。パフォーマンスをはじめ「トレードオフは一切なし」とKleinerman氏。

Snowflakeによると、「今回の発表の多くは日本のクラウドリージョンにも遅れることなく適用される予定」としている。