The Apache Software Foundation

Apache Software Foundationは4月27日(米国時間)、「The Apache Software Foundation Announces Apache™ Parquet™ as a Top-Level Project : The Apache Software Foundation Blog」において、Apache Parquetプロジェクトがインキュベータの段階から卒業し、トップレベルプロジェクトとして認定されたと伝えた。

Apache Parquetはオープンソースで開発が進められているカラム型データフォーマット。Apache Hadoopでの利用を想定して開発が進められており、次のようなさまざまなフレームワークやデータモデルと連携して動作することが想定されている。

  • プロセッシングフレームワーク(MapReduce、Apache Spark、Scalding、Cascading、Crunch、Kite)
  • データモデル(Apache Avro、Apache Thrift、Protocol Buffers、POJOs)
  • クエリエンジン(Apache Hive、Impala、HAWQ、Apache Drill、Apache Tajo、Apache Pig、Presto、Apache Spark SQL)

Apache ParquetはTwitterをはじめCloudera、NASA、Netflix、Stripeなどビッグデータを処理する必要がある多くのベンダで実用的に活用されている。今回、インキュベータから卒業してトップレベルプロジェクトになったことで、今後Apache Parquetの活用がさらに促進されると見られる。