日立製作所は9月27日、国立遺伝学研究所の協力の下、Hadoopを用いた大量ゲノムデータの分散処理環境を試作・検証を行い、従来の分散処理システムと比較して約5分の1のコストで同等のデータ処理能力が実現できたと発表した。

Hadoopとは、オープンソースソフトのコミュニティ「Apache Software Foundation」で開発・公開されている大規模データを効率的に分散処理・管理するためのソフトウェア。

検証の内容は、国立遺伝学研究所が使用しているゲノム解析フローを日立が構築したHadoop検証環境に移植し、さまざまな条件設定の下でゲノム解析を実行し、国立遺伝学研究所におけるゲノムデータ解析環境との処理性能の比較を行ったというもの。

この結果、従来システムと比較して、約5分の1のコストで同等のデータ処理性能が実現できた。

ゲノムデータ解析のイメージ

今回の検証環境には、日立のブレードサーバのエントリモデル「HA8000-bd/BD10」、ゲノム解析プログラムとしてSanger研究所開発の「Burrows-Wheeler Aligner(BWA) 」が用いられている。