GMOインターネット、NTT東日本、NTT西日本、QTnetは3月30日、「IOWN (Innovative Optical and Wireless Network)」の「APN (All-Photonics Network)」を活用した東京-福岡間の遠隔分散型AIインフラの技術実証を完了したと発表した。
IOWN APNとは?なぜAIインフラで注目されているのか
生成AIの普及に伴い、大規模言語モデル(LLM)などの学習に必要な計算資源とデータ量は急速に増大している。こうした処理ではGPUなどの計算資源と高速ストレージを同一のデータセンター内に配置する構成が一般的だが、設備投資や電力制約、データの所在に関する規制などが課題となっている。
特に企業や公共分野では、機密性の高いデータを外部のクラウド環境へ移動させることが難しく、「データはその場に置いたまま、計算資源だけを柔軟に利用したい」というニーズが高まっている。
こうした背景のもと注目されているのが、IOWNの中核技術であるAPN(All-Photonics Network)だ。APNは光技術を活用することで、従来のネットワークと比べて大容量・低遅延・低消費電力の通信を実現することを目指している。
今回の実証は、こうしたAPNの特性を生かし、物理的に離れた拠点間でもGPUとストレージを一体的に利用できるかを検証するものだ。これにより、データを移動・複製することなくAI処理を実行できる新たなインフラモデルの実現可能性が示された。
IOWN APNで東京-福岡間のAI分散構成をどう実現したのか?
本実証では、拠点間ネットワークとして、GMOインターネットグループの第2本社(東京・渋谷区)とQTnetのデータセンター(福岡・福岡市)をIOWN APN(100GbE)で接続。
福岡側にGPUサーバ「NVIDIA HGX H100」、渋谷側に高速ストレージ「DDN AI400X2」を配置し、遠隔ストレージを利用した際のAI学習性能を測定した。大規模言語モデル処理タスク(Llama2 70B)と画像分類タスク(ResNet)における学習時間を測定した。
遠隔でも性能は落ちない?LLM・画像分類の検証結果
実証実験の結果、IOWN APNを経由した遠隔分散環境においても、ローカル環境(同一データセンター内接続)と遜色ないパフォーマンスを発揮することが確認された。
大規模言語モデル(Llama2 70B)学習タスクはローカル環境が24.87分かかったのに対し、遠隔環境(IOWN APN経由)は24.99分だった。
演算処理が主体となるLLM学習における遅延の影響は極めて限定的(約0.5%の差)であることが実証された。
画像分類(ResNet)タスクはローカル環境が13.72分かかったのに対し、遠隔環境(IOWN APN経由)は14.38分だった。データ読み込みが発生するタスクにおいても、適切なデータ整形を行うことで、遠隔環境でも実用レベルでの処理が可能であることが確認されたとしている。
なぜ遠隔でも性能を維持できたのか?技術的ポイント
遠隔環境でありながらローカルとほぼ同等の性能を実現できた背景には、IOWN APNの通信特性と、AI処理の特性の両面がある。
まず、APNは光技術をベースとしたネットワークにより、大容量かつ低遅延の通信を実現している。従来のIPネットワークと比較して中継処理が少なく、データ転送時の遅延やジッター(遅延のばらつき)を抑えられる点が特徴だ。これにより、物理的に離れた拠点間であっても、あたかも同一データセンター内のような安定したデータアクセスが可能になる。
また、今回の構成では100GbEの高速回線を用いており、GPUとストレージ間の大容量データ転送にも対応できる帯域が確保されている。AI学習では大量のデータを継続的に読み書きするため、帯域不足は性能低下の大きな要因となるが、この点をクリアしていることも大きい。
さらに重要なのが、AI処理そのものの特性だ。今回検証された大規模言語モデル(LLM)の学習は、GPUによる演算処理の比重が高く、ストレージアクセスの影響を受けにくい。このため、多少のネットワーク遅延が存在しても、全体の処理時間への影響は限定的となる。
一方で、画像分類(ResNet)のようにデータ読み込みの頻度が高い処理では、遠隔環境の影響が相対的に大きくなる。それでも今回の実証では、データ配置や読み込み方法の最適化により、実用レベルの性能を維持できることが示された。
これらの要素が組み合わさることで、物理的に離れた拠点間でも、実用的なAI分散インフラとして機能することが確認された。
データを動かさないAIは何を変える?分散インフラのメリット
実証の成功は、物理的な距離による「計算資源とデータの分離」という課題を解決する大きな転機となるという。
従来、AI学習に必要なデータはクラウド事業者のデータセンターへ転送・複製することが一般的だったが、実証が示した「データは動かさず、計算資源が遠隔からデータへアクセスする」モデルはデータ主権やセキュリティ要件が厳しい分野における新たな選択肢を提示するもの。
これにより、データ転送の時間とコストの削減、重複管理の排除、オンプレミスとクラウドを組み合わせた計算資源の選択肢拡大が可能になると考えられるとしている。
