The Apache Software Foundation |
The Apache Nutch PMCは7日(米国時間)、Apache Nutchの最新版「Apache Nutch 2.0」を公開した。Apache Nutchは、Javaで開発されているハイスケラーブルなWeb検索フレームワーク。Apache Solr、Apache Tika、Apache Hadoop、Apache GoraといったApacheプロジェクトで構築されており、Webクローリング機能やリンクグラフデータベース、HTML解析といった機能を備えている。
Apache Nutch 2.0は小規模なクローラから、Hadoopクラスターでデプロイされた大規模なWebクローラまで、様々なユースケースをカバーできるよう設計されているWeb検索ソフトウェア。Apache Nutch 2.0で構築されたWebクローラは、Apache Accumulo、 Apache Avro、Apache Cassandra、Apache HBase、 Apache HDFSといった大規模ストレージプラットフォームやSQLベースのストレージシステムに対して、ストレージの抽象レイヤとして追加することができる。
Apache Nutch 2.0はApache License 2.0のもとオープンソースで公開されており、Apache Download Mirrorsよりダウンロードできる。なお、The Apache Nutch PMCは1.5系のメンテナンスバージョンである「Apache Nutch 1.5.1」を10日にリリースしている。