RDMSずの盞違点を知る

連茉の最終回ずなる本皿では、DWH(RDBMS)ず新しいテクノロゞヌでもあるHadoopずの特城に぀いお比范解説するこずにしたい。

たずお䌝えしたいのは、時代が進み、よりデヌタを掻甚したいビゞネス䞊のニヌズが出珟し、デヌタがビッグデヌタ化した。そのデヌタを掻甚するデヌタ基盀がRDBであり、Hadoopであるずいう点だ。

RDBは秀逞なテクノロゞヌであり、実際䜕十幎にもわたりトランザクショナルな凊理からアナリティカルな目的にたで利甚されおきた。しかし、前述のようにビッグデヌタの時代ずなっお分析やデヌタ掻甚にはRDBだけで察凊するには難しい「新しい」芁望がデヌタ基盀に求められるようになり、それに合わせた新テクノロゞヌが登堎しおきた。

それがHadoopである。ゆえに、ここで比范しおいる特城はどちらが良い悪いではなく、適材適所だずいうこずをご理解いただきたい。

いく぀かのクラむテリアがあるが、䞻なものを挙げるず以䞋ずなる。

  • コスト
  • デヌタの移動の必芁性
  • デヌタの皮類
  • スキヌマ定矩

利甚する偎で䞀番泚目するのは、デヌタ量あたりのコストだろう。「ビッグデヌタ」ずいうキヌワヌドから䞀番容易に浮かぶポむントでもある。

DWHはもずもず基幹系のシステム甚に䜜られおいるため、基幹システムを支える機胜も豊富に含たれ、か぀基幹デヌタは決しお倚くはない。よっお高䟡であるのに察し、倧量のデヌタを䜿っお利甚するこずをそもそもの目的ずしおいるHadoopの堎合はデヌタ容量圓たりのコストは圧倒的に安くなる。1テラバむト圓たりのコストは、DWHが40,000ドルなのに察し、Hadoopではわずか1,000ドル未満ず、40倍以䞊もの開きがあるずのこずだ(りォヌル・ストリヌト・ゞャヌナルがレポヌトを出しおいるので、参照されたい)。

次に、ビッグデヌタで泚目するべきポむントであるデヌタの移動に぀いおも理解する必芁がある。

埓来型は前回に述べた通り、䟋えばNASストレヌゞにログをためおDWHに移動しお掻甚ずいったデヌタの移動が䌎っおいたが、Hadoopはデヌタのあるずころでデヌタを凊理するので移動は䞍芁ずなる。TBやPBクラスになるずデヌタの移動はコストが高すぎるため、できるだけ移動させないこずが重芁だ。

もちろん、凊理できるデヌタの皮類は、DWHでは構造化デヌタのみずなるが、Hadoopではあらゆるデヌタを凊理するこずが可胜ずなっおいる。昚今泚目のディヌプラヌニングなど画像を掻甚した゜リュヌションも新しいデヌタ基盀の方が適しおいるだろう。

そしお、もう1぀重芁なポむントがスキヌマに぀いおである。

RDBはスキヌマを䜜っおデヌタを入れる、぀たりデヌタの䜿い方はあたり倉化しないこずが前提だが、分析は詊行錯誀しながら進めるため、事前のスキヌマ定矩は難しい。Hadoopであればデヌタをずりあえず入れお、埌から目的に合わせスキヌマを定矩するこずができる。

その他、実際の運甚䞊重芁ずなる既存のスキルや資産をどう新しい仕組みに䜿うかにも蚀及しおおこう。

RDBず蚀えば、SQLでのアクセスだが、Hadoopもここに来おSQLアクセスのニヌズを受けお進化しおおり、いく぀ものSQL゚ンゞンがHadoopにも揃うようになった。この進化は倧きな意味があり、埓来の技術やスキルず新テクノロゞヌを橋枡しする圹も担い、採甚ぞの敷居を䞋げおいる。

䞊列分散ぞのシフトが加速する゜リュヌションベンダヌ

Hadoop䞊のSQL゜リュヌションもさたざたなものが提䟛されおいるが、倚くの䌁業ではニヌズに応じおいく぀かの゜リュヌションを䜿い分けおいる(以䞋参照)。

ここで、ある䌁業のマヌケティング郚門でのMapRの掻甚䟋を簡単に玹介したい。

同郚門では、30億レコヌド(容量ずしおは数十GB)のPOSデヌタを利甚した集蚈凊理をしたかった。しかし、容量よりもそのレコヌド数ゆえに既存の汎甚RDBMSでは、CPUを増やし、SSDを採甚しおも、集蚈凊理がタむムアりトしおしたい、掻甚できない状態に陥っおいた。

そこで取り入れたのが新しいデヌタ基盀であるMapRである。7台のサヌバによる䞊列凊理で、お客様の芁望の1分以内に集蚈凊理を終えるずいう目暙を容易に達成するこずができたのである。

集蚈凊理や怜玢はRDBMS同様に行え、か぀それが䞊列分散で行われる䞊、同郚門はRDBMSよりも倚い量のデヌタを安䟡に凊理できるようになった。今埌デヌタ量の桁が増えおも、パフォヌマンス芁件が䞊がっおも、スケヌルアりトさせるこずで、察応もできる。これは埓来のRDBMSに固執しなかったからこそ実珟したケヌスだず蚀えるだろう。

たた、SAP HANAやHewlett Packard Enterprise VerticaずMapR (Hadoop)ずの組み合わせも泚目に倀する。

HANAやVerticaずいったスケヌルアりト型のDWHの泣き所は、x86サヌバの内蔵ストレヌゞを䜿うため、そのストレヌゞの管理にある。MapR (Hadoop)はファむルシステムであり、デヌタ圧瞮やバックアップ、スナップショットずいった䞀般的なストレヌゞの機胜を持぀ため、この泣き所を解消できる。

さらに、SAPはHANAずHadoopにあるデヌタを透過的に怜玢するために「Vora」ずいう補品を出した。これはSpark䞊で動くのだが、SparkはHadoopから提䟛されるので、より芪和性が䞊がるのである。

このような特性から、DWHベンダヌやSASずいったアドバンスド分析の老舗ベンダヌなども、今や次々ずHadoopぞずシフトしおいっおいる。これは぀たり、ビッグデヌタ化によっおディスク領域もCPUもスケヌルさせる必芁があるため、スケヌルアりト型の䞊列分散ぞずシフトしおいるずいうこずを意味する。

ビゞネスニヌズが倉わり、単なるBIレポヌトだけではなく、機械孊習やデヌタマむニングを利甚した顧客動向分析や傟向分析、さらにはディヌプラヌニングずデヌタ掻甚が進むず、それに䌎う量や、皮類、数ずいう点でもデヌタが倉わる。

ディヌプラヌニングなどはわかりやすい䟋で、画像を掻甚する。そうなるず、必然的にデヌタ基盀が倉わるのである。ビッグデヌタ時代ずはそういったビゞネスニヌズの倉化があり、それを満たすのに必芁になるHadoopずいう新デヌタ基盀が登堎したのである。

しかし、Hadoopは基本バッチ凊理である。垂堎のニヌズはバッチ型にずどたらずにリアルタむム化しおいく。そこで登堎しおきたのが、MapReduceに代わるず蚀っおは蚀い過ぎかもしれないが、新しいデヌタ凊理フレヌムワヌクであるSparkだ。

Hadoopの解説の次は、よりリアルタむムに凊理ができる、今話題の新フレヌムワヌク「Spark」に぀いお新たにご玹介しおいく。

解説者玹介

䞉原 茂 (MIHARA Shigeru)
- 株匏䌚瀟マップアヌル・テクノロゞヌズ アラむアンス&プロダクトマヌケティング ディレクタヌ /
 日本デヌタマネゞメント・コン゜ヌシアム(JDMC) セミナヌ郚䌚メンバヌ

サン・マむクロシステムズ、日本オラクル、日本IBMずいった倧手ベンダヌでプロダクトマヌケティングや新芏補品のビゞネス開発に埓事。ハヌドりェアからミドルりェア、商甚からOSSたで、倚岐にわたる補品のプロモヌションや販路拡倧を行う。

日本オラクルずファストにお怜玢やマネタむズ分野のビゞネスに関わり、EC、ビッグデヌタずいったITの新分野に興味を持ち、2014幎にマップアヌル・テクノロゞヌズぞ入瀟。