日本最大のモバイルネットワークを支えるNTTドコモ(以下、ドコモ)。2024年、同社はデータの価値を最大限に引き出し、ビジネス成果の向上と組織文化の変革を実現するため、「Snowflake」と「Apache Iceberg」を活用したデータ基盤の刷新に踏み切った。背景には、従来のDWH(データウェアハウス)では対応しきれない構造的な課題があった。
2025年6月に米国サンフランシスコで開催された「Snowflake Summit 2025」で、同社は「日本最大のモバイルネットワークを支えるNTTドコモのデータメッシュ── Apache Icebergの採用とその価値(原題:NTT DOCOMO'S DATA MESH POWERING JAPAN'S LARGEST MOBILE NETWORK――Adoption and value of the Apache Iceberg)」と題したユーザーセッションに登壇。Apache Iceberg導入の背景や技術選定の理由をはじめ、Snowflakeとの連携による成果を説明した。
今回、その詳細について、NTTドコモ R&Dイノベーション本部 サービスイノベーション部 ビッグデータ基盤担当 担当部長の石井啓之氏、NTTドコモ R&Dイノベーション本部 サービスイノベーション部 ビッグデータ基盤担当 兼 ネットワーク本部 ネットワーク部技術企画部門 Principal Data Engineerの松原侑哉氏に伺った。
-
NTTドコモ R&Dイノベーション本部 サービスイノベーション部 ビッグデータ基盤担当 担当部長の石井 啓之氏(左)とNTTドコモ R&Dイノベーション本部 サービスイノベーション部 ビッグデータ基盤担当 兼 ネットワーク本部 ネットワーク部技術企画部門 Principal Data Engineerの松原侑哉氏(右)
数十ペタバイトのデータ管理が直面した構造的課題
ドコモは数十ペタバイト規模のデータを保有し、日々数百テラバイトのデータ処理を行っている。これらのデータにはネットワーク通信ログをはじめ、サービス利用情報、サンプリングデータ、統計データなどの多様な形式が含まれている。この膨大なデータを“資産”として活用し、ビジネス価値の創出と全社的なデータ活用文化の定着を図ることが、ドコモのデータ基盤刷新プロジェクトの根幹にあった。
当初、ドコモはデータ管理に複数のDWHを活用していた。しかし、異なる技術や環境にまたがるデータを横断的に扱う中で、複数の問題を抱えていた。
その一つがデータの整合性や重複管理の問題である。システムごとに同一データが異なる形式で保存されていたため、非一貫性や二重管理によるコスト増が発生していた。また、システム間連携時のクエリ実行では処理速度が低下し、パフォーマンスの確保が難しい状況だったという。
さらに、リアルタイム連携の難しさも運用の制約となっていた。集中型アーキテクチャの一元的なETL処理は、データ種別や量の急増に対応しきれず、担当者の知識や処理能力を超えて非効率を招いていた。
もう一つ、個々のデータに対するユーザーの理解不足も、データ活用の最適化を妨げていた。NTTドコモ サービスイノベーション部 ビッグデータ基盤担当 担当部長の石井啓之氏は、「データ提供者に(自分が管理するデータに対する)責任を持たせる文化が社内に浸透していませんでした。そうしたデータの品質や活用に対する当事者意識の欠如が、全体最適化を阻む要因となっていたのです」と説明する。
ベンダーロックインからの脱却 - 「Apache Iceberg+Snowflake」の真意
こうした状況を打開すべく、ドコモが着目したのが「データメッシュ」という考え方である。データメッシュとは、データを一極集中させるのではなく、ドメインごとに責任と管理を分散しながら、組織全体で効率的に活用するための分散型データ管理のアプローチだ。
この構想を技術的に支える基盤として白羽の矢を立てたのが、オープンテーブルフォーマットである「Apache Iceberg(以下、Iceberg)」である。
Snowflakeは、ストレージと計算処理を分離したアーキテクチャで、柔軟なワークロードが実行できることが最大の特長だ。一方、Icebergは異なる計算エンジンから同一データにアクセスできるオープンフォーマットを提供し、高い相互運用性を実現する。石井氏は、Icebergの導入の決断理由を次のように説明する。
「将来の技術進化に柔軟に対応するには、データをデータウェアハウスに“腹持ち”させるのではなく、必要なときに外部からアクセスできる構成が理想です。SnowflakeとIcebergの組み合わせは、コンピュートリソースの拡張性に加え、Glueなど他のETLツールからも直接アクセスできますから、ストレージコストの最適化にもつながるのです」
選定に際しては、Delta LakeやApache Hudiといった他のオープンフォーマットも比較検討の対象となった。しかし、Icebergの技術的成熟度や活発なエコシステム、そして実運用での柔軟性が採用の決め手となったという。NTTドコモ R&Dイノベーション本部 サービスイノベーション部 ビッグデータ基盤担当 兼 ネットワーク本部 ネットワーク部技術企画部門 Principal Data Engineerの松原侑哉氏は、以下のように振り返る。
「外部にデータを置いた場合、確かに自由度は得られますが、通常はパフォーマンスが大きく低下します。しかしIcebergの場合、その性能劣化は許容範囲内であり、それ以上に『ベンダーを自由に切り替えられる』というメリットが圧倒的に重要でした」
コストの可視化と透明化が変えたデータ運用の常識
NTTドコモサービスイノベーション部がSnowflakeを導入したのは2024年6月。導入から間もないため、本格的な効果はこれからだというが、すでにデータ基盤の運用負荷は大幅に軽減されている。実は、Amazon Redshiftを中心に構築されていた従来の環境では、障害発生時の対応に多大な手間がかかっていた。これに対しSnowflakeは、可用性の高さに加え、運用負荷が「比較のしようがない」(石井氏)ぐらい低減されたという。
その背景にあるのが、「責任分界点」の違いである。従来のIaaS環境では、カスタマイズ部分の脆弱性検証やセキュリティ審査を自社で担う必要があり、運用負荷の大きな要因となっていた。一方、Snowflakeでは、プラットフォームに関するセキュリティ対策はベンダー側が責任を持つ。そのため、顧客側では煩雑なセキュリティ審査や社内承認プロセスを省略できるのだ。
石井氏は「Snowflakeに移行したことで、これまで人的対応が必要だったトラブルがほぼなくなり、運用工数は最大で5分の1になりました。月間100時間に及んでいた障害対応の負担も大きく軽減されています」と説明する。
Snowflakeがもたらしたもう一つの変化は「コストの透明性」である。クエリごとの実行コストが可視化されるため、「どの部門が」「どの程度のリソースを」「どのくらいの頻度で」を使用しているかを明確に把握できるようになった。松原氏も「可視化されたコスト情報は、社内の費用対効果に関する議論を健全化させるきっかけになりました」と語る。
「データ=資産」の徹底と、Snowflake Intelligenceが描く未来
石井氏も松原氏もデータメッシュの導入をきっかけに、社内のデータ活用文化が変化することに期待を寄せる。
石井氏は、「データ提供者が自らのデータに責任を持つ“提供責任モデル”を浸透させたいです。これまでデータの活用は、一部の分析部門や特定の担当者に任されがちでした。しかし、ドメインごとにデータの責任を明確化すれば、関係者のデータに対する意識が変わると期待しています」と語る。
この取り組みに必須なのが、社内に整備された「インターナルマーケットプレイス」である。ここでは、各ドメインが提供するデータセットがカタログ化され、利用頻度や品質に応じてスコアリングが行われている。この仕組みは、提供部門に「使われること」へのモチベーションと、品質維持への責任感が発生する。
「これまでは、データは持っているだけで評価されたり、使われなくても問題にならなかったりすることがありました。しかし今後は、使われるための品質を保ち、正確な形で届けるところまで責任を持つ必要があります。こうした変化で『データ=資産』という認識を徹底させたいです」(石井氏)
もう一つ、データ文化の改革に対し期待を寄せているのが、「データ活用の民主化」だ。その中核に位置づけられているのが、Snowflakeが今回新たに発表した「Snowflake Intelligence」や「Snowflake Copilot Inline」といった機能である。
「Snowflake Intelligence」は、企業内のデータに基づいてAIエージェントを構築・運用できる仕組みで、特定業務に特化したデータと対話することで、意思決定を支援する。一方「Snowflake Copilot Inline」は、自然言語による質問に基づいてSQLクエリの生成・修正・最適化を支援する機能で、SQLコード内で直接使用できる点が特長だ。
従来、データ分析にはSQLなどの高度なクエリ言語が不可欠だったが、全社員がそのスキルを有しているわけではない。松原氏は「SQLは得意な人もいれば、難しいと感じる人もいます。スキルの壁を越えて、誰もが直感的にデータにアクセスできる環境が必要です。実際、Snowflake Copilot Inlineは発表直後に試してみましたが、日本語でも意外なほどスムーズに動作し、直感的に操作できました。これなら、専門知識がない人でも必要なデータにアクセスしやすくなるはずです」と手応えを語る。
また、こうした自然言語による分析環境の整備は、単なる利便性の向上にとどまらず、ネットワーク運用の将来構想とも密接に関係している。最後に石井氏は「将来的には、6Gやオートノマスネットワークの時代に向けて、ネットワーク運用の自律化が必要になります。そのためには、精度の高いデータをリアルタイムで活用し、適切に制御を行うデータ基盤の強化が不可欠です。SnowflakeやIcebergを活用した今の取り組みが、その実現に向けた第一歩になると考えています」と語り、AIを活用した運用自動化に向けた基盤整備の重要性を強調した。