Microsoftは米国時間2020年6月24日、Apache Sparkのインデックスを作成する「Hyperspace」をOSS(オープンソースソフトウェア)として公開した。公式ブログによれば、Apache Sparkで扱うデータにインデックスを作成し、マルチユーザーコンカレンシーコントロールによるインデックス管理や、Apache Sparkによるインデックス活用機能を提供する。

  • Hyperspaceの特徴(画像は公式ブログより抜粋)

    Hyperspaceの特徴(画像は公式ブログより抜粋)

Microsoftが7ノードのAzure E8 V3クラスターと1TBのデータ、Apache Spark 2.4を使用してTPCベンチマーク(Test-HおよびTest-DS)を実行したところ、Hyperspaceは個々のクエリパフォーマンスが最大11倍まで向上。全体的にはTest-Hで2倍、Test-DSで1.8倍の高速化を確認している。具体的な導入方法はクイックスタートガイドを参照してほしい。

阿久津良和(Cactus)