2022年11月30日は、OpenAIによってChatGPTが世界に発表された記念すべき日でした。あれから2年余り経ちますが、AIへの関心は高まるばかりです。その結果、GPUのトップメーカーであるNVIDIAの時価総額は10倍近くまで上昇し、AIに対する企業の潜在的な総投資額や、AIが社会に与える影響についても、荒唐無稽な予測がなされるようになりました。
これは、チューリング・テスト、チェスのグランドマスターの敗北、自律走行、そして現在の生成AIの爆発的な普及に至るまで、過去70年間に私たちが見てきたAIの夜明けとは大きく異なるように感じます。状況は大きく変わりましたが、ある基本的な概念に基づいていることに変わりはありません。
長年にわたり、AIの進歩は次の3つの重要な発展の上に成り立ってきました。
- より強力な計算リソース(GPUの形で)
- 改良されたアルゴリズムやモデル(生成AIの場合、Transformerアーキテクチャや大規模言語モデル(LLM))
- 大量のデータへのアクセス
AIプロジェクトのフェーズは大きく「データの収集と準備」「モデルの開発とトレーニング」「推論としても知られるモデルのデプロイ」に分けられます。以下、各フェーズについて説明しましょう。
見過ごされがちな「データの収集と準備」の重要性
データの収集と準備の重要性は見過ごされがちです。AIプロジェクトを成功させるには、良質で適切、かつ偏りのないデータがカギとなります。組織がデータを理解し、データの所有者を特定し、サイロ化を解消してデータを効果的に活用することが課題であることはしばしば指摘されています。
質の高いデータにアクセスできなければ、AIプロジェクトを成功させることは難しくなります。AIプロジェクトではテキストだけでなく、音声、画像、さらには動画など、マルチモーダルなデータを使用する組織が増えています。データ量は膨大であり、そのために必要なストレージ容量も大きくなります。
モデルのトレーニングの2つのアプローチ
トレーニングのアプローチは2種類あります。1つ目は基礎モデルのトレーニングで、膨大な量のデータを活用してAIモデルを一から構築し、そのモデルを繰り返しトレーニングして一般的なモデルを作成するものです。これは通常、多くのリソースを所有する大手テクノロジー企業によって行われます。
例えばMetaは最近、オープンソースのLlama 3.1 4050億パラメータ・モデルを15兆トークンを超えるトークンでトレーニングしたことを発表しましたが、これには16,000のGPUで約4000万GPU時間を要したと報告されています。この長いモデル学習時間は、大規模モデルの学習における重要な側面、すなわち失敗からのリカバリを可能にするために頻繁なチェックポイントを作成する点を浮き彫りにしています。大規模モデルでは、チェックポイントに使用するストレージが非常に高い書き込み性能と容量を持つことが不可欠です。
2つ目のトレーニング・アプローチは、モデルのファイン・チューニングです。これは、他の組織が最も大変な部分を行った既存のモデルをさらにトレーニングすることで、そのモデルにドメイン固有のデータを適用するというものです。これにより、ゼロからトレーニングすることなく、自組織用にカスタマイズされたモデルが完成します。
どのようなアプローチであれ、トレーニングにはGPUによる超並列処理が必要であり、大規模なデータセットを効率的に処理するために高いスループットとアクセス速度が求められます。 そのため、AIトレーニング用のデータ・ストレージには、GPUにデータを供給し続けるための高い性能、大規模なトレーニングのデータセットを管理するための拡張性、そしてトレーニング・モデルの重要性とコストを考慮した信頼性が求められます。
本番環境にモデルをデプロイ
モデルがトレーニングされ、その性能が要件を満たすと、本番環境に入ります。これは、モデルが見たことのないデータを使って結論を導き出したり、インサイトを提供したりすることを意味します。
このフェーズは「推論」と呼ばれ、AIプロジェクトから価値が引き出されるときです。推論では大量のコンピュートとストレージが要求されるため、リソースの使用量およびコストはトレーニングのそれらを上回ります。何百万人ものユーザーがカスタマー・サービス用のチャットボットにアクセスすることを考えてみてください。
推論のための基礎となるストレージは、タイムリーな結果を提供するためのカギとなるため、高性能が求められると同時に、記録保持のためにモデルに供給されるデータのストレージ要件を満たし、再トレーニングのデータを提供するため容易に拡張できるものでなければなりません。推論結果の品質は、学習済みモデルと学習データセットの品質に直接関係します。生成AIには、不正確な結果を作り出してしまう事象、いわゆるハルシネーションが発生する可能性が高く、たびたびニュースになるような問題を引き起こしてきました。
精度の向上
ChatGPTのユーザーは、モデルに入力されるクエリの重要性に気づいているでしょう。構成がしっかりした、全体をよくとらえているクエリは正確な回答を導きます。このことから、最適な出力結果を得るために、よく練られた大規模なデータセットをモデルへのクエリとして提供する「プロンプト・エンジニアリング」という概念が誕生しました。
別のアプローチでますます重要になってきているのは、検索拡張生成(RAG)です。RAGは、ChromaやMilvusのようなベクター・データベースから直接得られるユースケース特有のコンテキストの形で、組織独自のデータでクエリを補強します。プロンプト・エンジニアリングと比較して、RAGは改善された結果を出力し、ハルシネーションの可能性を排除します。同様に重要なのは、過去の指定日などに関係なく、最新のタイムリーなデータをモデルで使用できるという事実です。
RAGは、組織のデータをベクトル化することに依存し、それにより全体的なアーキテクチャに統合することが可能になります。ベクター・データベースは、ソースと比較してデータセットのサイズが約10倍と大幅に増加することが多く、ユーザー・エクスペリエンスがベクター・データベースのクエリの応答時間に直結することから、高い性能が求められます。そのため、性能と拡張性の面で基礎となるストレージは、RAGの実装を成功させるうえで重要な役割を果たします。
AIが生み出すエネルギーという課題
ここ数年、世界中で電気料金が高騰しており、その勢いは収まる気配がありません。加えて、生成AIの台頭により、データセンターのエネルギー需要が何倍にも膨れ上がっています。
実際IEAは、AI、データセンター、暗号資産の電力使用量が、2022年の世界におけるエネルギー需要のほぼ2%を占め、2026年までにこれらのエネルギー需要が倍増すると推定しています。これは、データセンターに負担をかけるGPUの高い電力需要にも一因があり、1ラックあたり40~50キロワットを必要とし、多くのデータセンターの能力をはるかに超えています。
データセンター全体で効率化を推進することは不可欠であり、オールフラッシュ・データ・ストレージのようなインフラは、電力とスペースを管理するうえで極めて重要です。ストレージで節約した電力を、GPUへの電力供給に回せるからです。最新のオールフラッシュ・ストレージ技術の中には、エネルギー使用量を最大85%削減し、他のソリューションよりもラックスペースを最大95%削減できるものもあり、AIエコシステムの重要な一部として大きな価値を提供します。
AIパズルの中のデータ・ストレージ
AIの可能性は想像を絶します。しかし、AIモデルが成果を出すためには、トレーニングの全フェーズにわたって慎重なアプローチが必要です。RAGは、出力結果の品質をさらに向上させるために活用されるでしょう。
すべてのステージにおいてデータが重要な要素であることは明らかであり、フラッシュ・ストレージは、高いパフォーマンス、拡張性、信頼性を提供し、ビジネスと社会にAIの変革的な影響をもたらすうえで不可欠です。フラッシュは、AIが必要とする非構造化データへのリアルタイムでのアクセスに対応し、学習と推論の両方を促進すると同時に、電力消費量や二酸化炭素排出量を削減し、効率的でサステナブルなAIインフラを実現するうえでカギとなるものなのです。