Apache Spark is a fast and general engine for large-scale data processing.

Apache Software Foundationは5月30日(米国時間)、「The Apache Software Foundation Announces Apache Spark v1.0 : The Apache Software Foundation Blog」においてApache Sparkの初のメジャーリリースバージョンとなる「Apache Spark v1.0」を公開したと伝えた。Apache Software Foundationでは同ソフトウェアを「Hadoopスイスアーミーナイフ」と表現している。

「Apache Spark v1.0」はオープンソースのクラスタコンピューティングフレームワーク。高いスケーラビリティ、柔軟な構造、扱いやすさ、高速な処理速度などに特徴がある。サポートしているプログラミング言語はJava、Scala、Pythonなど。場合によってはApache Hadoopよりも100倍高速に動作するとの説明もある。Apacheのほかのプロダクトとの連携性も高い。

Apache Sparkは機械学習、ストリーム処理、インタラクティブクエリなどの処理に適したフレームワーク。HDFS(Hadoop's Distributed File System)やHBase、Cassandraなどと互換性があるため、既存のこうしたHadoopストレージシステムと相性がよいという特徴もある。