全日本空輸(ANA)は全社員4万人のデータ活用を支える基盤として「BlueLake」を運用している。小誌でも以前お伝えしたように、「BlueLake」を構成するデータウェアハウスとしてSnowflakeを採用している。

取材の際、SnowflakeでApache Icebergのテーブルを利用できる「Iceberg Tables」への期待を話されていたが、ここにきて、「BlueLake」においてIceberg Tablesの利用を開始するという。

Snowflakeが開催した説明会において、ANA デジタル変革部 イノベーション推進部 データマネジメントチームの井岡大氏が「BlueLake」の最新情報を紹介した。

  • ANA デジタル変革部イノベーション推進部データマネジメントチーム 井岡大氏

部門横断的なデータ活用に向け物理的にデータを統合

井岡氏によると、ANAはデータを活用することで、顧客にシームレスな体験を提供することを目指しているという。データマネジメントにおいてはデータ民主化を推進するため、「システムの進化」「人財の成長支援」「プロセスの整備」に取り組んでいる。

システムの進化における施策の一つがデータ基盤の構築だ。同社は、サービスを提供するためのデータ基盤「CX基盤」、分析を行うためのデータ基盤「BlueLake」を利用している。

  • 分析を行うためのデータ基盤「BlueLake」のアーキテクチャ

BlueLakeは以前はIT部門のみ使っていたが、現在は4万人の従業員誰もが使える。「BlueLakeにより、ワンプラットフォームで、部門横断的なデータ活用を実現しています」と井岡氏は語った。

BlueLakeはサイロ化していたデータを一元化するために構築された。データのサイロ化により、データの活用が妨げられていたという。

「BlueLakeの根本的なコンセプトはANA経済圏の活性化です。それには、各事業部のデータの連携が必要です。共通のデータ基盤を段階的に統合して機能を進化させてきました」(井岡氏)

データの一元化は物理的に行われている。その理由は、データのタイムスタンプ、会員番号の桁数、氏名の格納方法など、各事業部でデータの管理の仕方が異なっていたからだ。事業ドメインを横断してデータを活用するために、「データ断面の統一」「仮名化前に共通化処理」「共通の標準化」を実施した。

2022年に「BlueLake」のVersion1リリース

そもそも、BlueLakeは2022年にAWS上に構築していたDWHを活用して、データを2層構造にする形で利用が始まった。井岡氏によると、なんと開発期間3カ月でリリースしたという。

Version1では、「個人情報の保護」と「柔軟なデータ活用」の両立が重視された。そこで、個人情報を含む領域と含まない領域を完全に分離した。個人情報を仮名化することで、ユーザーが自由にSQLを発行してそれらのデータを活用できるようにした。

2023年にリリースしたVersion2で、Snowflakeに移行し、AI/BI機能を強化した。井岡氏はSnowflakeを導入した理由について、次のように説明した。

「Version1のデータベースには、パフォーマンスにまつわる課題がありました。この課題を解決するために、ノードを追加する方法を開発する必要がありましたが、Snowflakeなら複数のノードを構築できます。Snowflakeにより、安全性の高いアクセスが確立されました」

Snowflakeを導入したことで、「データベースの利用料金50%削減」「開発効率80%アップ」「運用効率90%アップ」といったメリットが得られたという。

  • 「BlueLake」にSnowflakeを導入したことで得られたメリット

2024年にリリースしたVersion3では、プライバシー管理およびデータ標準化処理の強化が行われた。GDPRをはじめ、各国の個人情報保護規制への対応が行われ、個人情報の削除ができるようにした。井岡氏によると、個人情報がなくてもデータの一貫性を保つ必要があることから、不整合を防ぐ仕組みをつくったという。

また、データのパイプラインも整備した。大規模なデータはSnowflakeに取り込んでいるが、メインはファイルによる管理となっている。この点について、井岡氏は「最も汎用的なフォーマットで管理するというのが一貫した思想です。これにより、データ管理をシンプルにしています」と説明した。

最新のVersion4でApache Icebergを採用

そして、2025年7月末にVersion4のリリースを控えている。Version3が抱えている課題を解決するため、Apache Icebergを導入する。Version3では、運用管理において、「障害発生時のデータ復旧が困難」「データベースのロードに余分な手間がかかる」という課題があった。また、パフォーマンスについては、「データ処理が非効率」「大容量ファイルのスキャンに時間がかかる」「マイクロパーティショニングを活用できない」という課題があった。

これらの課題の影響で、「Snowflakeの高速処理を享受できていなかった」と、井岡氏は述べた。Snowflake Managed Icebergにより、メタデータはIcebergカタログで管理することで、データストレージの効率が向上するという。データは自動的にAmazon S3に展開される。共通のカタログを参照してIcebergにアクセスできる。

井岡氏は、「Icebergカタログの多くは発展途上だが、Snowflake Managed Icebergはセキュリティの一元化、パフォーマンスの高さ、追加費用が不要といったメリットがあります」と述べた。

  • IcebergによるBlueLake V4のコンセプト

Icebergテーブルの性能を検証するため、Version3とVersion4において、ETL およびクエリの効率の性能検証が実施された。その結果、ETLの性能は3.9倍上がることが、また、クエリの性能は1.6倍アップすることがわかったとのことだ。

「BlueLake」を活用した3つの事例

続いて、井岡氏は「BlueLake」を活用した事例を3つ紹介した。

Generative AI on BlueLake

現在、BlueLakeのデータを生成AIに活用するPoCを実施している。具体的にハイ、ユーザーの要望とフライトの空き状況を考慮して、最適な目的地とフライトを推奨するアプリを開発しようとしている。

Streamlit in Snowflakeを用いて、「LLMとロジックを組み合わせること」「社内のデータと組み合わせること」などが容易に行えることを学んだというまた、シンプルなコードで実装可能で、200行未満でプロトタイプを作成できたという。「チャレンジへの敷居が低い点がよかったです」と井岡氏。

ただし、現状では精度の面で本番利用は難しいとのこと。「LLMに左右されやすいという気づきを得られました」と井岡氏は語っていた。

Custom Data Connector

また、Snowflake内でデータコネクタを完成させることで、コストと時間を短縮することにも挑戦している。具体的には、Snowflakeとdbtを使用して、取り込みから予測まで、エンド・ツー・エンドのデータパイプラインを構築。試行錯誤はあったが3日で構築でき、月額1500円の料金で運用しているという。

データ民主化のための社内ツール

4万人の従業員すべてがデータを活用できるよう、データカタログおよび抽出ツールを内製で開発した。内製化でコストを大幅に削減したという。

データカタログでは、毎日のデータ更新状況を確認できるほか、キーワードで検索するか、データマップからデータを発見できるなど、あらゆるユーザーが使えるような仕掛けが組み込まれている。

データ抽出ツールは、SQLに不慣れなユーザーでも使えるようにドラッグ&ドロップで使える画面設計になっている。データカタログとの統合により、誰でも論理的な名前でデータを簡単に利用でき、スケジュールを設定して、更新を自動化できる。

また、AWS上のSnowflakeとGoogle Workspaceがシームレスに統合されているので、データをGoogleスプレッドシートに格納できる。井岡氏は「アジリティが高い状態で、データを活用できていると思っています」と述べた。

最後に、井岡氏は次のように語っていた。

「AIを使うには根本のデータ基盤が不可欠。しっかりとした基盤があるから、AIの可能性を引き出せる。地道にデータ基盤を整備しながら、チャレンジしたい」