EMCジャパンは、大規模データの並列・分散処理に利用されている、OSS(オープンソース・ソフトウェア)であるApache Hadoopと100%の互換性を有した「EMC Greenplum HD Enterprise Edition(以下、「Greenplum HD EE」)の国内販売を1月19日より開始した。すでに一部ユーザーには昨年から提供していたが、本格展開は19日からとなる。価格は個別見積もり。

「Hadoop」は、Apache Software Foundation(ASF)が開発・公開している、大規模データを効率的に分散処理・管理するための非構造化データの分析に適したソフトウェア基盤(ミドルウェア)。

「Greenplum HD EE」は、Apache Hadoopとの互換性を維持しつつ、ハードウェアの限界性能を引き出すためにEMCがアーキテクチャ設計・再実装した企業向けのHadoopソリューションだ。具体的には、Apache HadoopのHDFS(Hadoop Distributed File System:Hadoop分散ファイルシステム)に、C/C++により、ロック排除による並立処理の最適化、ビルトイン圧縮によりI/Oの削減、分散NameNode、RFC経由のShuffleの転送、Java GCの排除を行っている。

アーキテクチャ設計と再構築による性能の向上

その結果、Apache Hadoopの2~5倍のパフォーマンス、Apache Hadoopの弱点である単一障害点の除去のほか、NFSマウントを可能にし、他システム連携を実現している。

Apache Hadoopの2~5倍のパフォーマンス、単一障害点の除去を実現

EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェショナルサービス部 部長 仲田聰氏

EMCジャパン データ・コンピューティング事業本部 テクノロジー&プロフェショナルサービス部 部長 仲田聰氏は、「Apache Hadoopのソフトウェア成熟度は、まだまだだ。Greenplum HDは、Apache Hadoopをリコーディングすることによって、エンタープライズのユーザーのHadoopに対する期待との差を埋めており、ハードウェアの限界まで効率的に処理ができる。テストしていただいたユーザーからは、とくにNFSマウントを可能にしている点が評価されている」と述べた。

また同社は19日、Hadoop活用を促進するため、ノーチラス・テクノロジーズと協業し、「Greenplum HD EE」と、ノーチラス・テクノロジーズの基幹バッチシステム開発向けHadoop活用フレームワーク「Asakusa Framework(アサクサ・フレームワーク)」を組み合わせて販売していくことを発表した。

「Asakusa Framework」は、Hadoop上で動作する基幹バッチ処理用のフレームワーク。両製品を組み合わせることにより、Hadoopの並列・分散処理技術をエンタープライズ領域でより適用しやすくし、基幹系バッチ処理の高速化を実現する。

「Asakusa Framework」

ノーチラス・テクノロジーズ 代表取締役副社長 神林飛志氏

ノーチラス・テクノロジーズ 代表取締役副社長 神林飛志氏は、「バッチ処理におけるメインフレームからオープン系へのレガシー・マイグレーションはうまくいっていない。バッチ処理の向上は既存のテクノロジーでは限界がある」と述べ、その理由として、CPUは100-1000倍にパーフォーマンスが向上しているものの、ディスクのI/Oはせいぜい3-5倍で、パフォーマンスギャップが広がっている点を挙げた。そのため、分散I/Oを利用して、計算リソースを使い切るHadoopでのバッチ処理が有効だという。神林氏によれば、Asakusa Frameworkを導入した企業の中には、4時間のバッチ処理を20分に短縮した例もあるという。

今後は、両社で、本開発運用ソリューションを提供するパートナーのエコシステム拡大および、パートナーへのトレーニング提供、「Asakusa Framework」上で稼働する業務ソリューションの拡充を推進するという。