Apache Software Foundationは2月19日(米国時間)、「The Apache Software Foundation Announces Apache Arrow Momentum : The Apache Software Foundation Blog」において、オープンソースのインメモリ・データ処理プラットフォームである「Apache Arrow」が大きな成果を挙げていると発表した。

Apache Software Foundationは、Apache Arrowが2016年1月のプロジェクト発足以来、インメモリデータ分析のデファクトスタンダード技術として成長しており、高速なデータ処理を実現したと説明している。

  • Apache Arrow - A cross-language development platform for in-memory data1

    Apache Arrow - A cross-language development platform for in-memory data1

Apache Software FoundationはApache Arrowのこれまでの成果として、以下を紹介している。

  • Apache Spark、NVIDIA RAPIDS、pandas、Dremioなど20を超える主要技術がApache Arrowをインメモリ分析用技術として採用
  • 毎月のダウンロード数が100万を突破
  • 11の異なるプログラミング言語をサポートし、C++、Java、Python、R、C#、JavaScript、Rubyなどで使用できる
  • システムメモリ、メモリマップファイル、GPU上のメモリなど複数のメモリをサポート。また、データソースとしてApache Parquet、CSV、Apache ORC、JSONなどをサポート
  • 過去1年間で300人近い開発者から3000を超えるサブミットを取得

Apache Arrowの最新版は2019年1月に公開されたApache Arrow 0.12.0。2018年第4四半期に開発された600以上の機能強化が取り込まれおり、クラスタ全体でのデータ配置がより効率的になるとされている。