日本IBMは3月19日、「IBM Instana Observability」の導入事例に加え、データセンター運用向けの自動化ソフトウェアに関する説明会を開催した。導入企業としてゲットワークスの事例が紹介された。

データセンター運用を高度化するIBMの次世代自動化戦略

冒頭、日本IBM テクノロジー事業本部 オートメーション・プラットフォーム事業部 事業部長 理事の上野亜紀子氏は、データセンターを取り巻く状況に関して「クラウド、AI、5Gなどの技術が加速し、データセンターの需要はかつてないほど拡大している。一方で、設備や建屋の老朽化、エネルギーコストの高騰など新たな深刻な課題も顕在化してきている。また、データセンター内のデータ処理量も指数関数的に増加し、処理能力を拡大するにも規模を増やすだけでは不足する時代になっている」と指摘。

  • 日本IBM テクノロジー事業本部 オートメーション・プラットフォーム事業部 事業部長 理事の上野亜紀子氏

    日本IBM テクノロジー事業本部 オートメーション・プラットフォーム事業部 事業部長 理事の上野亜紀子氏

このような状況下において、データセンターの役割は従来のIT基盤からAIを動かす心臓部へとシフトしつつあるという。しかし、電力需要の急増や設備の老朽化、エンジニアの不足、ESG(環境、社会、ガバナンス)対応、コストをはじめ、データセンターの運用負荷が深刻化している。

上野氏は次世代のデータセンターに求められるものとして「データセンターは長期運用資産のため短期的なものではなく、すべてのライフサイクルを捉えた戦略が不可欠だ。その際、建屋管理・調達計画、IT危機管理、設備管理、エネルギー&ESG管理が重要となる」との見解だ。

  • 次世代のデータセンターはライフサイクル管理が重要だという

    次世代のデータセンターはライフサイクル管理が重要だという

次世代のデータセンターはコンピューティング、ネットワーク、ストレージなどのハードウェアに加え、各種ワークロードを最適に運用する機能に加え、AIワークロードの効率的な構築・運用・保守を支えるAIレディな機能が必要となる。また、運用効率化と人的ミス削減のための高度な自動化、設備状況やESG関連データの可視化・一元管理も同様だという。

そのうえで、同氏は「IBMはデータセンターのライフサイクル全体を網羅するハードウェア、ソフトウェアを包括的に提供している。また、自社を最初の顧客として取り組む『クライアント・ゼロ』として日々の運用に自社製品を適用し、知見・ノウハウを蓄積しているほか、これらを組み合わせて日本のお客さまの運用を支援している。さらに、重要性が増すソブリンクラウドへの取り組みとして、AI対応主権管理ソフトウェア『IBM Sovereign Core』を発表している」と述べている。

  • データセンター向けのIBMソリューション

    データセンター向けのIBMソリューション

コンテナ型データセンターでGPU運用を最適化するゲットワークスの取り組み

次に、ゲットワークス システムマネージャ/AIエキスパートの境川章一郎氏が「GPU可視化によるデータセンター運用の高度化」と題し、同社の事例を解説した。同社は2014年からコンテナ型データセンターの構築・運用を手がけ、継続的な増設でノウハウと設計の地域的適用性を蓄積し、自社運用と顧客への納品を含め、これまで約300棟の構築、サーバ3000台以上の設置・運用実績がある。

  • ゲットワークス システムマネージャ/AIエキスパートの境川章一郎氏

    ゲットワークス システムマネージャ/AIエキスパートの境川章一郎氏

  • ゲットワークスにおけるコンテナ型データセンターの構築実績

    ゲットワークスにおけるコンテナ型データセンターの構築実績

境川氏は「建屋型のデータセンターは、電力供給や水冷設備の制約でGPUの受け入れが難しいケースが多く、高密度・高消費電力のGPU導入には既存インフラの改修が必要になるときがある。当社は既存施設の改修を必要とせず、スピーディに対応できるほか、コンテナ型のため柔軟な増設・配置が可能で新しいデータセンターの形を実現している」と話す。

特に、注力しているのは冷却水の効率的な活用だ。独自に開発したコンテナ型の熱交換スキームなどで最大50%の冷却水使用量の削減を実現しており、世界的に評価を得ているとのことだ。このように堅調に事業を拡大している同社ではあるが、監視ツールに課題を抱えていたという。

ゲットワークスでは、OpenTelemetryやZabbixをはじめとしたオープンソースを利用していたものの、GPUごとの電力や温度、利用率、基盤の状態など、把握したい対象領域が多かった。また、構成変更やリソース変動が頻繁で負荷の偏りが発生し、継続追跡が難しいという側面もあったという。

境川氏は「監視ツールそのものを導入するのではなく、現場で判断に使える可視化基盤を整備することを目指した。そこで、日本IBMの協力でInstanaを中核とした制御・可観測基盤を構築し、検証を行うことにした」と話す。

GPU可視化による電力・温度の大幅削減を実証

このような経緯から、実証実験は2025年11月~12月に実施した。InstanaとOpenTelemetry、NVIDIA Data Center GPU Manager(DCGM)を統合した可視化体制を構築して、ゲットワークスの湯沢GXデータセンター(新潟県湯沢町)に設置された『NVIDIA H200』GPU8基を対象に、GPUごとの温度・電力使用量・メモリー使用率・稼働率などをリアルタイムで可視化し、可視化データにもとづく負荷調整の効果を検証。

実装アーキテクチャは、GPU側でNVIDIA DCGM Exporterにより、GPU8基の指標(温度、電力、GPU利用率、クロック、ECCエラー)を取得し、OpenTelemetry Collectorで収集・変換しInstanaに送信、InstanaのGPUダッシュボード/カスタムダッシュボードで8基をリアルタイム一覧表示・継続監視するというものだ。

  • 取り組みの概要

    取り組みの概要

結果として、検証前のピーク負荷時におけるGPUの消費電力は5520W、温度は75度だったが、可視化データにもとづく負荷調整後は消費電力が1062W、温度は40度となり、消費電力がフル稼働時から負荷分散後に80%低減したことを確認した。この成果を受けて、同社は2026年1月からInstanaの本番運用を開始し、湯沢GXデータセンターでの監視対象GPUの拡大も検討を進めている。

  • 検証した結果、約80%の消費電力の低減を確認

    検証した結果、約80%の消費電力の低減を確認

境川氏は「従来はデータがあっても判断に結びつかなかったものの、GPUごとの状態を可視化したことで偏りを把握することができ、調整の判断が可能になった。可視化の価値は見えることではなく、“判断できること”であると実感した」と振り返る。

AIとESGを見据えたデータセンター運用の次なる展開

同社では今後の展開としてステップ1でGPUの継続監視ができたことから、ステップ2では冷却設備(InRow空調、液冷CDUなど)テレメトリの取得と、可視化に向けた技術検証を行い、AIを活用した運用支援も予定。ステップ3では、PUE(Power Usage Effectiveness)やWUE(Water usage effectiveness)など、環境指標の可視化やサステナビリティ関連情報の集約を検討している。

  • 今後の展開

    今後の展開

一方、AIエージェント駆動のエンタープライズ向け開発支援ツール「IBM Bob」とInstanaの連携を検証し、観測データ活用の可能性を確認し、現在はInstanaを用いて、監視対象の拡大に向けた検証にも活用している。

ステップ2における、Instanaが取得したGPUの観測データの確認や報告文書作成、冷却設備のテレメトリ取得・可視化の実現に向けた開発にも取り組んでいる。また、観測データにもとづくサーバの電源・冷却ファンといった物理制御から、Kubernetesのワークロード配置などのソフトウェア制御まで、AIが運用判断を支援する仕組み(実行には必ず人の承認を挟む設計を前提)の段階的な構築に向けた検討も進めている。

  • IBM BobとInstanaの連携も検証中だ

    IBM BobとInstanaの連携も検証中だ

同氏は「IBM Bobを使い、GPUの負荷試験前に監視環境の正常性を自動的に確認したり、負荷試験中に異常イベントの監視を行ったりしている。ここまで簡単にできるのかという驚きがあった」と述べている。

さらに、ステップ3に向けてESGデータ管理プラットフォームである「IBM Envizi ESG Suite」との連携を含むサステナビリティ関連情報の可視化・集約についても検討を行う予定だ。

境川氏はIBMを選定した理由について「レポーティングまで含めてサーバだけでなく、一括管理できる点に魅力を感じた」と述べており、今後はIBMなど他の企業と共創してデータセンターソリューションを提供することも検討している。