はじめに
こんにちは。NTTデータグループ クラウド技術部です。
AWS主催のグローバルイベント「AWS re:Invent 2023」が2023年11月27日から12月1日の5日間にわたりアメリカ・ラスベガスで開催されました。
本イベントは「学習型カンファレンス」であるため、世界各国の技術者とセッションを聞いたり、ワークショップに参加したりすることができます。
先日筆者は本イベントに初めて参加してきました!今年の技術トレンドや会場の熱気を参加報告レポートとしてまとめます。
今回はAWS re:Invent 2023参加報告レポート第4弾として、「Zero-ETL」をテーマにKeynoteやセッション内容をご紹介します。
近年、データ統合を目的とした「Zero-ETL」が注目を集めています。本記事では、「Zero-ETLとは何か」から、「注目のZero-ETLアップデート」まで紹介していきたいと思います。
※参考:AWS re:Invent 2023 - Keynote with Dr. Swami Sivasubramanian
Zero-ETLとは
Zero-ETLとは、ETL データパイプラインを排除もしくは最小化したデータプロセスのことを指します。
すなわち、データを分析・加工するために、データソースから異なるデータソースへつなげるパイプラインにおけるプロセスを最小限に抑えています。
単なるデータパイプラインと異なる点は、データパイプラインがリアルタイム実行を前提とするのに対し、ETLデータパイプラインは非同期的な実行を前提としているところです。そのため、ETLデータパイプラインがあるデータプロセスは、データのリアルタイム活用に課題がありました。そこで、ETL処理が不要なデータプロセスとして「Zero-ETL」が取り上げられるようになりました。
Zero-ETLの利点は以下の通りです。
- システムの敏捷性の向上 … アーキテクチャの簡素化により、開発者の負担軽減や迅速なデータ活用が可能になる
- コストパフォーマンス … データを重複して保管することを防ぎ、コストの最適化が可能になる
- リアルタイム処理 … ほぼリアルタイムのデータアクセスを提供し、データ駆動型の分析を実行できる
※参考: ゼロ ETL とは何ですか?
データのソースを問わず、データの抽出、変換、ロード(ETL)を必要としないデータプロセスは、システムにおけるリアルタイム処理を可能にし、
アプリケーションにおけるデータ活用の幅を広げることができるとされています。
近年話題となっている生成AIの発展とあわせて、Zero-ETLも拡大することで、さらなる生成AI活用が期待できます。
AWSのZero-ETLに関する取り組み
AWS社では、2022年同イベントのkeynoteから「Zero-ETL」の重要性を説いてきました。
ここで、同イベントの2022〜2023年keynoteからわかるAWSのZero-ETLに関する取り組みの傾向を見てみましょう。
2022年 keynote
AWSのCEOであるAdam Selipsky氏は、自身のkeynoteで「A Zero ETL future(Zero-ETLの未来)」というビジョンを掲げ、Zero-ETLに関連するアップデートを複数発表しました。なかでも、Amazon AuroraとAmazon RedshiftのZero-ETL統合等はかなり注目されるアップデートでした。
データレイクやデータウェアハウスにデータを集約するシステムにとって、データベースからETLプロセスなしにデータ統合を実現できるため、アーキテクチャの簡素化やコスト最適化につなげることができるアップデートでした。
2023年 keynote
AWSのAI/Data分野のトップであるDr. Swami Sivasubramanian氏は、自身のkeynoteで「Our ongoing commitment to a zero-ETL future(Zero-ETLの未来への継続した取り組み)」をアピールしました。2022年のCEO keynoteを意識したビジョンのようです。
Swami氏は、「強力なデータ基盤」とは、「Comprehensive(データの包括)」「Integrated(データの統合)」「Governed(データの管理)」の3つが肝要であると語り、各観点を実現するアップデートを発表しています。なかでも、Zero-ETLは、「Integrated(データの統合)」にあたります。
※参考:AWS re:Invent 2023 - Keynote with Dr. Swami Sivasubramanian
Swami氏によると、AWS社は2022年からAurora MySQL、Aurora Postgres、Redshift、DynamoDBなど、異なるデータストア間でのシームレスな統合に投資しています。
データサイロを越えて統合されたデータ基盤の構築を目指し、ETLゼロの未来に向けたコミットメントを続けています。
Zero-ETL統合により、トランザクションが多発してもリアルタイムな分析が可能となり、フォレンジック分析や生成 AIアプリケーションを含むアプリケーションに関連するデータを簡単に取得できます。そのため、観測可能性が向上し、セキュリティ・インシデントの調査が容易になるとのことでした。
2年連続で、keynoteで取り上げられたテーマ「Zero-ETL」はAWS社が大いに力を入れて取り組んでいることが伺えます。
膨大なデータを加工することなくログ分析に活用できるため、今後のシステムにおけるログ管理設計にも活用されていくことでしょう。
AWSのZero-ETLに関するアップデート
2023年keynoteでも発表された以下の3つのアップデートが注目です。一部アップデートでは、S3へのZero-ETL統合も発表されました。S3に膨大なログデータを蓄積しているシステムは、かなり多いのではないでしょうか。
Amazon Redshiftに対するZero-ETL機能の展開 を発表
Amazon RedshiftにおけるZero-ETL統合の幅が広がりました。
- Amazon Aurora PostgreSQLからAmazon Redshiftに対する統合(オハイオリージョンでプレビュー中)
- Amazon RDS for MySQLからAmazon Redshiftに対する統合(東京リージョン含む4リージョンでプレビュー中)
- Amazon DynamoDBからAmazon Redshiftに対する統合(オハイオリージョンでプレビュー中)
ちなみにre:Invent 2022の発表では、Amazon Aurora MySQLからRedshiftに対してZero-ETL統合が可能になっています。
Redshiftに対するリレーショナルデータベースおよびNoSQLデータベースのZero-ETL統合が実現されたと言えるのではないでしょうか。
DynamoDBからOpenSearch ServiceとのZero-ETL対応を発表 (東京リージョンを含む12リージョンで一般利用開始)
Amazon DynamoDBからAmazon OpenSearch Serviceに対するZero-ETL統合が発表されました。トランザクションがあるデータをDynamoDBで処理し、数秒でレプリケーションされます。
全文検索やベクトル検索をOpen Search Serviceで実行することができます。
Amazon OpenSearch ServiceとAmazon S3の Zero-ETL統合(東京リージョンを含む5リージョンでプレビュー中)
Amazon OpenSearch ServiceとS3間のZero-ETL統合を発表しました。
ETLのパイプライン構築なしに、OpenSearch ServiceとS3の間でシームレスに検索、分析、可視化ができます。インデックスやマテリアライズドビューを用いることで、高速なクエリ実行やダッシュボードによる可視化が可能になります。
筆者は、同イベントで新機能「Amazon OpenSearch ServiceとAmazon S3の Zero-ETL統合」に関連するブレークアウトセッションに参加し、AWS社のサービスチームの声を聞くことができました!
「OpenSearch ServiceにおけるベクターデータベースとZero-ETLの可能性」のブレークアウトセッションは、OpenSearch Serviceのサービスチームにより行われ、アップデートに対する想いを感じることができました。
特に学びがあった部分をご紹介します。
プライマリデータとセカンダリデータ
本アップデートに関するセッションは、「プライマリデータ」と「セカンダリデータ」の概念の説明からスタートしました。
- プライマリデータ
検索サービスに取り込まれ、頻繁にクエリ実行されるデータ - セカンダリデータ
Amazon S3等のデータレイクに存在するデータ
従来、セカンダリデータにアクセスするためには、データパイプラインの構築やETLツールが必要でした。
セカンダリデータとして蓄積したデータは、セキュリティ調査等に活用することが可能です。そのため、Open Search ServiceをS3に拡張することをねらいとして、今回のアップデートをしたそうです。
アーキテクチャ図
アーキテクチャは、OpenSearchServiceからS3に直接クエリ実行できるようにするため、AWS Glue Data Catalogの設定が必要になります。
Data Catalogを設定することにより、S3をテーブルとして参照できるようになります。OpenSearchServiceにデータをロードすることなく、S3に検索をかけることができます。
クエリの高速化
S3に膨大なデータを蓄積しているシステムも多いことが想定されるため、システムにとって迅速な検索実行は課題になります。そのため、クエリ実行高速化のための機能が提供されています。
- スキップクエリ
Amazon S3 に保存されているデータのメタデータのみにインデックスを付けることができる機能。インデックスをスキップすると、データの保存場所の特定の場所が絞り込まれ、保存されているデータを迅速に識別可能。 - マテリアライズドビュー
集計などの複雑なクエリを使用でき、ダッシュボードの視覚化のクエリや強化に使用できる機能。 - カバーインデックス
指定されたテーブル列からすべてのデータを取り込む機能。
※参考:AWS re:Invent 2023-Vector database and zero-ETL capabilities for Amazon OpenSearch Service (ANT353)
※参考:Amazon OpenSearch Service と Amazon S3 のゼロ ETL 統合 (プレビュー) を発表
OpenSearch Serviceの担当者によれば、AWSには、「Undifferentiated Heavy Lifting(他との差別化につながらない重労働)」を排除するというビジョンがあります。
「Undifferentiated Heavy Lifting(他との差別化につながらない重労働)」とは、ビジネスの価値に直接結びつかない、付加価値を生まない作業のことを指し、これを排除することで、より価値のある活動を優先できます。
今回のアップデートにより、ETLパイプラインを排除することで、より重要な作業に専念できるとされています。OpenSearch Serviceの中でデータの分析から可視化までを完遂できるアーキテクチャを実現するねらいがあるとのことでした。
おわりに
本記事では、「Zero-ETL」をテーマに、AWS re:Invent 2023の注目アップデートをご紹介しました。
筆者としては、AI/MLアプリケーションにおけるデータ利活用を促進する「Zero-ETL」のアップデートは、今後も増えていくと期待しています。
今回のre:Invent 2023参加は、アップデートに対するサービスチームの声を聞き、各アップデートにサービスチームのどのような想いが込められているかを知ることができる貴重な機会となりました。
次回の連載最終回では、NTTデータグループのAWS Ambassadorが現地での学びをご紹介する予定です。ぜひお楽しみに!
著者紹介
長澤美波 NAGASAWA Minami
NTTデータ クラウドアーキテクト
公共機関システムのシステム基盤開発に従事。
AWS Certified Solutions Architect Professional等の資格を保有。2023 Japan AWS Jr. Championsに選出。
[PR]提供:NTTデータ