The Apache Hadoop project

次世代Hadoopの初のアルファ版となる「Hadoop 0.23.0」が公開された。「Hadoop 0.23.0」は次世代バージョンのアルファ版と位置づけられており、試験や評価目的での使用が推奨されている。プロダクションユースは想定されていないため、実利用を目的としたインストールはしないように注意しておきたい。

0.23.0という番号であるためマイナーアップグレードバージョンのような印象を受けるが、 Hadoop 0.23系は現在の安定系である0.20系とは大きく異なるバージョン。現在Hadoopを使用している場合には、気軽にバージョンアップしてしまわないように気をつけてほしい。

新版では特に次の2つの新機能が注目される。

  • HDFSフェデレーションの導入。0.23.0ではブロック管理と名前空間管理が分離しており、ブロックノードと名前ノードを個別に運用可能になっている。これはHDFSのスケーラビリティを大きく向上させる。
  • 新しいMadReduceフレームワークの導入。従来のフレームワーク(MadReduce1)のうち、JobTrackerのリソース管理機能とジョブスケジューリング/モニタリング機能を2つの個別コンポーネント(セントラルリソースマネージャ、アプリケーションマスタ)へ分離。新しいフレームワークはMapReduce2またはYARNとして知られている。

0.23.0からは従来のMapReduce1ランタイムは提供されなくなる。従来のAPIは非推奨とされ、新しいAPIへの移行が推奨されることになる。互換性は確保されるため従来のコードもそのまま使用できるが、内部構造は新しいものへ変更されることになる。