The Apache Software Foundation(以下、ASF)は米国時間2019年1月8日、ビッグデータパイプラインを管理するためのワークフロー自動化およびスケジューリングシステム「Apache Airflow」を、トップレベルプロジェクトに押し上げたことを公式ブログで明らかにした。Apache Airflowは2014年10月にAirbnbが開発に着手し、当時はAirbnb Airflowと呼ばれていたが、2016年3月にASFのインキュベーションプログラムApache Incubatorに参加することで、現在の名称に至っている。

  • DAGのツリー表示(すべて公式ドキュメントより抜粋)

    DAGのツリー表示(すべて公式ドキュメントより抜粋)

Apache Airflowは一般的なジョブに相当するDAG(Directed Acyclic Graph)という概念を採用している。Pythonで記述したワークフローで、単一のサーバーから大規模クラスターまで多様なリソース管理を自動化するシステムだ。AWS S3、Docker、Apache Hadoop HDFS、Apache Hive、Kubernetes、MySQL、Postgres、Apache Zeppelinなど多くのアーキテクチャーおよびプロジェクトと統合できる。

  • DAGのコードビュー

    DAGのコードビュー

Apache Airflowは、数百ペタバイトのビッグデータ処理パイプラインをオーサリング・管理することで、柔軟かつ拡張性の高いシステムだが、ASFはトップレベルプロジェクトへの昇格について、「Apache Incubatorからの卒業は、Apache Airflowコミュニティーと製品がASFのプロセスと原則下で正しく管理されてきたことを証明している」とコメントを寄せた。また、Apache Airflow VPを務めるBolke de Bruin氏も「Apache Airflowはワークフローオーケストレーションにおける事実上の標準となった」と語る。

AdobeやGoogleなど200を超える組織で利用中のApache Airflowだが、Principal Architect of Adobe Experience Platformを務めるHitesh Shah氏は、「Adobe Experience PlatformはApache SparkやKafka、Hadoop、Stormなどオープンソース技術を活用したクラウドインフラストラクチャー上に構築している。Adobe Experience CloudにApache Airflowを活用し、KubernetesでAirflowを実行した結果を公開する予定だ」と述べた。

阿久津良和(Cactus)