【５分でわかる最新キーワード解説】「超高速データベースエンジン」って何だ？

　日々進歩するIT技術は、ともすると取り残されてしまいそうな勢いで進化の速度を高めています。そこでキーマンズネット編集部がお届けするのが「5分でわかる最新キーワード解説」。このコーナーを読めば、最新IT事情がスラスラ読み解けるようになることうけあい。忙しいアナタもサラっと読めてタメになる、そんなコーナーを目指します。

　今回のテーマ「超高速データベースエンジン」は、データベースの処理速度を数百倍にまで向上する画期的なソフトウェア技術。センサネットワークを用いた大容量データを活用するために必要な、ペタバイトクラスのデータを現実的な時間で処理する手段として大きな注目を集めています！

「超高速データベースエンジン」とは？

　2011年6月、東京大学と日立製作所は、巨大データの超高速処理を目指して共同開発してきたデータベースエンジンのプロトタイプを用いて、数種類のデータ解析要求について従来型のデータベースエンジン比で約100倍（※）の処理性能を達成したことを発表した。　この研究成果は、最先端研究開発支援プログラム「超巨大データベース時代に向けた最高速データベースエンジンの開発と当該エンジンを核とする戦略的社会サービスの実証・評価」（中心研究者 : 喜連川優東京大学生産技術研究所教授、期間 : 2010年3月～2014年3月）において実施しているもの。

　最終的には2013年度中に800倍程度までデータ解析系処理を高速化し、従来のシステムでは困難であった超巨大データに対する高速な解析処理の実現を目指すと言う。

※日立のデータベース管理システム「HiRDB」に対して東大で開発した高速化技術を投入し、既存HiRDBに対して100倍程度の高速化を確認。

■超高速データベースエンジンの仕組み

　超高速データベースエンジンとは、“リレーショナルデータベースの基本的な処理はレコード集合に対する演算として規定されることから、その処理結果はレコードの処理順序に拠らない”という点に着目して、大量の非同期I/Oを発行し、このI/Oのバラバラな（非決定的）戻りに対して、関係演算処理を実行する、非順序型（Out of Order）実行原理に基づいて、設計されるものである。

図1 従来型DBエンジンと非順序型DBエンジンの違い

　従来型のデータベースエンジンは、少数しか発行されないI/Oの完了待ち時間がCPUの実行時間の多くを占めており、複数ドライブを有する大規模高速ストレージの能力を必ずしも十分に使いきることができていなかった。

　非順序型のデータベース処理では、複数のHDDを搭載するRAIDなどのストレージと、潤沢なメモリ、マルチコアのCPUといったリソースを、複数のI/Oと処理スレッドを並列で実行させることにより、無駄なく活用することが可能になる。

　超高速データベースエンジンでは、実行論理の許す限り大量のI/Oを発行し、ストレージ側もまた複数ドライブによる高速入出力能力を帯域の許す限り発揮しつつ、マルチコアCPUの潤沢な処理能力を活用することができるのだ。今回の東京大学と日立製作所による実証実験では、節電要請下で使用できるシステム規模に大きな制約があり、発行するスレッド数が限られているため、性能の向上も100倍程度にとどまっている。今後、より大規模なシステムの構築と最適化を進め、更なる飛躍的な性能向上も見込まれている。

情報爆発から新たな価値の創造へ

　超高速データベースエンジンは、「情報爆発」といったキーワードでも語られる、実世界のデジタルデータ化の急速な発展に対応するべく、開発が進められている技術である。 ■爆発的に増加するデジタルデータを活用するために

　IT領域だけでなく、ヘルスケアや農業から、電力網などのインフラ、交通（ITS）、製造、流通、廃棄物処理、地球環境まで、センサネットワークを活用した膨大な実世界観測データが蓄積できるようになってきている。

図2 サイバーフィジカルサービス(ペタバイトクラスの実世界観測データを分析して社会サービスとして還元する)

　年々増えていくことが予想される巨大データを、解析、分析して社会サービス化するために、超高速データベースエンジンが必要不可欠なのだ。こうした実世界での観測と、コンピュータによるサイバー世界とを循環させて、戦略的な社会サービスを生み出す仕組みをサイバーフィジカルサービス（Cyber-Physical-Service）と呼ぶ。図2に示されるように、世の中の多くのデバイスがネットワークに接続されるようになると、実世界の状況をクラウド上でリアルタイムに観測することができ、次々と発生する問題に対し、状況に応じて俊敏に次の一手を打てるような時代を描くことができる。

■サイバーフィジカルサービスの実証実験「情報薬」プロジェクト

　次のグラフは、サイバーフィジカルサービスに基づく社会サービスの創出のための実証実験として2009年から2010年にかけて経済産業省情報大航海プロジェクトにおいて実施された糖尿病患者に対する「情報薬」プロジェクトの成果の一例である。

図3 情報薬実証プロジェクト(実証実験が行われた2009年から2010年の年末年始だけ数値が低い)

　グラフが示しているのは3年間の実験の被験者のHbA1c（ヘモグロビンA1c）という血糖状態を知る上で重要な数値の平均値である。正常な人でのHbA1c値は　5.8％以下とされており、それ以上は高血糖状態とみなされ、8％を超えた状態が長く続くと色々な合併症を起こすと言われている（いわゆる糖尿病）。

　この実験では、3軸加速度センサを用いて被験者の運動量を継続的に記録し、そのデータに基づいて1週間の目標運動量を設定し、携帯端末を利用することにより適切なタイミングで運動を促すメッセージを被験者それぞれに提供する「情報薬」の試みが行われた。血圧、血糖値も測定している。多くの場合、被験者の運動量は増大する。グラフの点線部は、前年度及び次年度に見られる周期的なHbA1cの上昇を表しており、これは年末年始にかけての飲食飲酒機会の増加にともなうものと考えられている。

　実証実験が行われた2009年10月から2010年1月にかけての年末には、この周期的な上昇が低く抑えられていることがわかる。この有意な結果は、データベースを用いた「情報薬」のサービスが、物理的な医薬品に準ずる効果を発揮できることを示している。

　こうしたヘルスケアのサービスを一例として考えても、被験者数、実施期間、データ項目が限られた実証実験の段階では、有限の計算資源で実行できるが、膨大な人数に対して継続的な観測データ（例えば運動量、睡眠時間、体重、血圧、心拍、などの連続データ）を記録して、分析して社会サービスとして還元するには、データ量は爆発的に増加し、ペタバイトクラスのデータベースが必要となる。こうしたデータを単に蓄積するだけでなく、様々な仮説に基づく分析、複数のデータ項目の関係性分析、統計処理を行って、実世界に有効なサービスをフィードバックするためには、超巨大データを実用的な時間で処理できる、超高速データベースエンジンが必要不可欠なのである。情報薬の副作用、あるいは法制度の整備などその実施には多くの残された課題もあるが、医療分野におけるサイバーフィジカルサービスは諸外国でも多様な取り組みがなされつつある。

■2012年度中の事業化を計画

　ちなみに本研究を東大と共同で進めてきた日立では、今後更なる実証実験を経て研究成果を反映した新しいデータベースソフトウェアの開発を進め、2012年度中に事業化する計画である。

　センサネットワークを通じた巨大データベースの生み出す社会サービスの可能性が、私たちの目の前に表される日も決して遠くなさそうだ。

【関連リンク】

電気の代わりに光で書き込み！光RAMとは？

放射線を可視化！超広角コンプトンカメラ

携帯カンニング検知システムって何だ？

攻撃を無効化する「対サイバー兵器」とは？

リアルタイム分析ソフト「Jubatus」とは？