日本オラクルは12月16日、今年10月に開催された年次イベント「Oracle CloudWorld 2022」で発表された「MySQL HeatWave Lakehouse」に関する説明会を開催した。「MySQL HeatWave Lakehouse」は、MySQLをベースとしたクラウドデータベース「MySQL HeatWave」向けのデータレイクハウスだ。

「MySQL HeatWave」:Auroraの最大10倍のスループット性能

MySQLソリューション・エンジニアリング・ディレクターの梶山隆輔氏は、「MySQL HeatWave」の説明から始めた。同製品は、トランザクション処理、分析処理、予測処理を一つのデータベースで実行する。そのため、ETLが費用だ。

加えて、分析エンジン「AutoML」によって、リアルタイムで分析が可能になったほか、機械学習エンジン「AutoPilot」の搭載によって予測も実行できるようになった。

  • 日本オラクル MySQLソリューション・エンジニアリング・ディレクター 梶山隆輔氏

  • 「MySQL HeatWave」の概要

オラクルのベンチマークテストによると、「MySQL HeatWave」はトランザクション処理で、Amazon Web ServicesのRDBMSである「Amazon Aurora」の最大10倍のスループット性能を達成したという。梶山氏は分析処理のベンチマークテストについて、「ユーザーが実際に比較できるよう、手順とスクリプトが公開されている」と語っていた。

  • 「MySQL HeatWave」の分析性能の比較結果

「MySQL HeatWave Lakehouse」:Snowflakeの最大17倍高速

続いて、梶山氏は「MySQL HeatWave Lakehouse」について、顧客が直面しているデータ管理における課題のうち、「データの洪水」に対応するものと述べた。同製品が登場した背景について、「今や、多くのデータがRDBMの外にある。「MySQLHeatWave Lakehouse」では、オブジェクト・ストレージのデータとMySQLのデータを統合して、分析できる」と同氏は説明した。

「MySQL HeatWave Lakehouse」では、MySQLデータベース内のトランザクション・データとオブジェクト・ストア内のデータを標準のMySQL構文で、1つのSQL文で結合できる。また、最大400TBのデータのクエリを実行でき、「HeatWave」クラスタは最大512ノードに拡張可能。

梶山氏は、「MySQL HeatWave Lakehouse」についてもベンチマークテストにおける優位性を示した。クエリ処理性能は、Snowflakeよりも17倍、Amazon Redshiftよりも6倍高速だという。また、データロード性能はSnowflakeよりも2.7倍、Amazon Redshiftよりも8倍高速だという。さらに、Snowflakenに対しては、コストについても30%安いとのことだ。

加えて、複数ファイル形式のサポートをしている点も「MySQL HeatWave Lakehouse」の特徴だ。CSVやParquetなどの各種ファイル形式で保存されたデータ、AWSのAuroraおよびRedshiftのバックアップをロードして処理することができる。これにより、データがMySQLデータベースに保存されていない場合も「MySQL HeatWave」のメリットを活用できます。データの保存ファイル形式に関係なく、同じクエリ性能が提供されるとしている。

「MySQL Autopilot」の新機能

上述したように、MySQL AutopilotはMySQL HeatWaveに機械学習ベースの自動化を提供するが、「MySQL HeatWave Lakehouse」でも同機能を利用できる。

  • 「MySQL Autopilot」の概要

HeatWave LakehouseにおけるMySQL Autopilotの活用例としては、「自動スキーマ予測」「データフローの最適化」「データサンプリングの最適化」「自動プロビジョニング」「自動データロード」「自動実行計画改良」がある。

これらは、HeatWave Lakehouse発表にあたって、MySQL Autopilotに追加された機能だ。例えば、データフローの最適化にあたっては、HeatWaveがオブジェクト・ストレージの性能を学習し、データベースがデータを参照する速度を動的に調整する。データを細かな単位で分割する仕組み「Super chunking」によって、データロードの性能が落ちないようにしているという。