NTTとプリファードインフラストラクチャーは10月26日、ビッグデータと呼ばれる大容量かつ大量のデータをリアルタイムで高速に分析処理する基盤技術「Jubatus」(第1版)を開発したと発表した。同技術は、27日よりオープンソースソフトウェアとして、Jubatus OSS提供サイトで公開される。

現在のビッグデータの解析方法では、クラウド環境を構成するサーバ群にビッグデータをいったん蓄積して一定期間分をまとめて高速に処理するバッチ処理が一般的だが、この方法では新たなデータの分析が次の実行タイミングまで待たされる点で十分ではない。

これに対し、Jubatusは「大量データ」を「常に素早く」「深く解析」するためのフレームワークとなっている。具体的には、大量のデータを複数のサーバに振り分け並列かつ逐次的に処理しており、複数のサーバ間で緩やかに途中処理結果を共有することで、サーバ間の通信オーバヘッドの削減や安定性の向上を実現し、高いリアルタイム性と解析精度を確保している。

Jubatusの位置付け

同技術は「MIX計算」「MIXプロトコル制御」「メンバシップ管理機能」から構成される「MIX処理方式」が採用されている。MIX計算とは「データ解析処理のロジックに応じて、集約計算ロジックをアレンジする機能」、MIXプロトコル制御とは「サーバ間で、途中の解析結果を答え合わせする際のデータの集め方と再分配のやり方を決める機能 」、メンバシップ管理機能とは「絶え間なくデータを処理するため、サーバ障害をリカバリしたり、データが溢れるまえにサーバを追加したり、リーダを決める機能」だ。

Jubatusのアーキテクチャの概要