米オラクルはこのほど、「MySQL HeatWave Lakehouse」の一般提供開始を発表した。同製品は、オブジェクトストレージ上のデータをMySQLのSQL文で分析するもので、昨年の年次イベント「Oracle CloudWorld 2022」で発表された。すべての商用リージョンとOracle Cloud Infrastructure(OCI)Dedicated Regionで利用可能。

「MySQL HeatWave」はクラウド版MySQLサーバ、ハイブリッド型"データベース、大規模データ分析基盤の3つの形態で利用できる。大規模データ分析基盤として利用できる製品が「MySQL HeatWave Lakehouse」となる。

HeatWave LakehouseはオブジェクトストレージとMySQLのデータを分析可能であるうえ、MySQLデータベースにデータをコピーすることなく、オブジェクトストア内のファイルに対して直接クエリを実行できる。これにより、データロードの性能向上とクエリの処理の高速化を実現している。

こうしたHeatWave Lakehouseの性能を支えている技術が、独自のアーキテクチャだ。MySQLソリューション・エンジニアリング・ディレクターの梶山隆輔氏は、競合の類似サービスに対するアドバンテージについて次のように説明した。

「競合のサービスはオブジェクトストレージに毎回データを読み込んで処理を実行するのに対し、HeatWave Lakehouseはオブジェクトストレージにデータを置いたままインメモリのデータベースで分析をするので高速」

  • 日本オラクル MySQLソリューション・エンジニアリング・ディレクター 梶山隆輔氏

  • 「HeatWave Lakehouse」の仕組み

梶山氏は、「HeatWave Lakehouse」の強みとして、拡張性が高いアーキテクチャを挙げた。最大512ノードまであらゆる台数の構成が可能であり、台数を増やすとほぼリニアで処理時間が減少するという。

オブジェクトストレージからのデータロードは、データを分割する技術「Super chunking」によって性能のばらつきの影響を抑えることで、性能を向上している。「Super chunking」によりCPUコア数以上にタスクを生成し、動的にデータをノードに割り当てている。

オラクルによるTPC-H 500TBのベンチマークテストにおいて、「HeatWave Lakehouse」のデータロード性能は、Amazon Redshiftより9.2倍、Snowflakeより2倍、Google BigQueryより8.6倍高速だったという。

一方、クエリ処理の高速化を実現している技術はMySQL HeatWaveに組み込まれている「MySQL Autopilot」だ。「MySQL Autopilot」は、機械学習ベースの自動化を提供し、クエリ実行からの学習によりクエリ実行計画を改善する。

「HeatWave Lakehouse」のクエリ処理性能も、オラクルによるTPC-H 500TBのベンチマークテストにおいて、Amazon Redshiftより15倍、Snowflakeより18倍、Google BigQueryより35倍高速だったという。なお、これらのベンチマークテストの結果は、Webサイトで公開されているそうだ。

また、梶山氏は「HeatWave」ではMySQLからロードしたデータもオブジェクトストレージからロードしたデータも同じ性能を達成していると述べた。

さらに、オラクルが提供している他のサービスと同様、「HeatWave Lakehouse」は価格設定も競争力があるものになっているという。

  • 「HeatWave Lakehouse」「Snowflake」「Amazon Redshift」「Google BigQuery」のクエリ処理性能と価格比