世界中でAIの活用が進む中、そのためのインフラを確保するうえで熾烈な争いが生じている。AIの処理が増えれば増えるほど、高性能かつ大容量のコンピューティングリソースが必要になり、その供給が追い付いていないからだ。

そうした中、オラクルが提供するコンピューティング・クラスタ「OCI Supercluster」の存在感が高まっている。それは、なぜか。

米Oracle Oracle Cloud Infrastructure担当エグゼクティブ・バイスプレジデント マヘシュ・シャガラジャン氏に、「OCI Supercluster」をはじめとする、同社が提供するAIインフラの最新動向について聞いた。

  • 米Oracle Oracle Cloud Infrastructure担当エグゼクティブ・バイスプレジデント マヘシュ・シャガラジャン氏

AIスーパーコンピュータとして強化された「OCI Supercluster」

シャガラジャン氏は、「Oracle Cloud Infrastructure(OCI)」について、「セキュリティがビルトインされているなど、必要なツールがすべてOCIで使えるようになっているべきと考えている。それも、すべての国で同じ価格で同じ機能を使えるようにしている」と説明した。

競合と同様、オラクルもAIに対し積極的に投資している。シャガラジャン氏はその例として、2016年にOCIでベアメタルのコンピュート提供を開始したことを皮切りに、現在はベアメタルのGPUインフラも提供していることを紹介した。

また、Oracle ExadataにおいてRDMAの技術を培い、HPCの実績も蓄積していたことから、「OCI Supercluster」が実現したという。

「OCI Supercluster」は、クラウドプラットフォームであるOCI上で提供される、サーバ、ストレージ、ネットワーク、データベース、アプリケーションから構成されるエンジニアド・システムだ。

同社は、「OCI Supercluster」をAIスーパーコンピュータと銘打っている。後述するが、今年9月にラスベガスで開催された年次イベント「Oracle CloudWorld」では、AI活用を支援するための機能拡張が発表された。「OCI Supercluster」は、最大でFrontierスーパーコンピュータの3倍以上のGPU数、他のハイパースケーラーの6倍以上のGPU数を提供可能だ。

AI対応として、GPU、ネットワーク、ストレージを強化

シャガラジャン氏は、次世代のAIに対応するため、スケール、パフォーマンス、スピードにフォーカスして、OCIの開発を進めていると説明した。「Oracle CloudWorld」では、OCIの拡張について以下のような発表が行われた。これらは「OCI Supercluster」として提供される。

GPU

GPUは最大131,072基のNVIDIA Blackwellが搭載可能になったことが発表された。これにより、2.4ゼタFLOPSのピーク性能を実現する。この数は、最大でFrontierスーパーコンピュータの3倍以上、他のハイパースケーラーの6倍以上だという。

ネットワーク

GPUの性能を最大限に活用するには、ネットワークとストレージの性能も引き上げる必要がある。

ネットワークに関して、シャガラジャン氏は「OCI Superclusterを実行するとき、GPUとストレージをつなぐネットワークのパフォーマンスが懸念点となる。この課題に対応するため、フロントエンドにわたるマネージメントネットワークを整備している」と説明した。

OCI Superclusterでは、RoCEv2(ConnectX-7 NICsおよびConnectX-8 SuperNICsまたはNVIDIA Quantum-2 InfiniBandベースのネットワーク)を提供する。

シャガラジャン氏は、ゼタスケールのクラウド・コンピューティング・クラスタの高速な接続を実現するため、同社がチューニングを行っており、RDMAでも104Pb/sを達成していると紹介した。

「OCI Superclusterでは、GPUをフルスピード、フルパワーで使っても、ネットワークでボトルネックが発生しない」(シャガラジャン氏)

ストレージ

一方、ストレージに関して、シャガラジャン氏は「すべてのユーザーに対し、コストパフォーマンスが高い形でソリューションを提供しようと考えている」と説明した。

「Oracle CloudWorld」では、OCI File StorageにおいてHPMT(高パフォーマンス・マウント・ターゲット)の提供が開始された。OCI File Storageサービスは、単一のファイル・システムの容量をエクサバイトまでスケーリングできる分散ファイル・システム。HPMTにより、ファイル・システムのスループットをテラビット/秒にスケーリングできるようになった。

HPMTは高速性を実現するように設計されており、AIや機械学習(ML)のトレーニングやチェックポイントのためのGPUでの使用に最適だという。具体的には、本番環境で最大480Gbpsの持続的な総読み取りスループットを提供し、大規模言語モデル(LLM)を提供するベンダーが数千のGPUノードにわたってトレーニング・データをロードできるようにする。

現在、Lustre ServiceがEarly Accessの提供を開始しており、来年2月には、マネージドのLustre ServiceがGAになるそうだ。また、Lustre Serviceの一環として、オブジェクトストレージにデータをオフロードする機能を提供している。

ユーザーの手元でAIインフラが使えるように

さらに、シャガラジャン氏は、AI活用において重要なこととして、データがオンプレミスの環境にあることを挙げた。そのため、同社はこれまでの理念に基づき、できるだけデータの近くにインフラを持っていくようにしているという。つまり、同社のあらゆるクラウドにおいてAIインフラを使えるようにしている。

シャガラジャン氏は、「地政学的な視点から、データ保護の在り方も変わってきている。われわれは、すべての国がこうした課題を解決して、クラウドを構築できるようにしている」と、同社がデータ主権を踏まえたクラウドを提供していることをアピールした。

また、「物理的なセキュリティの規制から、当社以外のクラウドにデータを持っていかなければいけないことも理解している」とシャガラジャン氏。そのため、各国のパートナーがOCIを提供できる「Oracle Alloy」が提供されている。日本では、野村総合研究所、富士通、NTTデータが「Oracle Alloy」のパートナーだ。

シャガラジャン氏は、「日本市場にエキサイトしている。日本にデータセンターを作ってもすぐに埋まってしまう。これからもデータセンターを拡張していく」と、AIやデータセンタービジネスをドライブしていくという意気込みを見せていた。