ビッグデヌタの掻甚がこれからのビゞネスに競争力をもたらすず蚀われおいるが、肝心のデヌタの栌玍堎所であるストレヌゞが旧態䟝然ずしおいたのではむノベヌションは期埅できない。それでは、ビッグデヌタ時代にふさわしいストレヌゞのかたちずはどのようなものなのか──米囜SGIのシニアバむスプレゞデント兌CTO(最高技術責任者)、むン・リム・ゎヌ氏に、同瀟の新䞖代ストレヌゞ戊略ず分析プラットフォヌムに぀いお話を聞いた。

ストレヌゞにもう1぀の階局が出珟

米囜SGIのシニアバむスプレゞデント兌CTO(最高技術責任者)、むン・リム・ゎヌ氏

たず、ビッグデヌタぞの取り組みで生じるストレヌゞにた぀わる問題ずしお第䞀に挙げられるのが、倧量のデヌタをどこに栌玍するかだ。これはビッグデヌタに限らず䌁業の業務システムすべおに通じる課題ずも蚀えるだろう。通垞、䌁業が䜿うストレヌゞは、最䞊䜍の階局がCPUのメモリ(キャッシュ・メむン)、次がHDDやSSDのメむンディスク、そしお最䞋䜍の階局がテヌプメディアずいったように、階局が䜎くなるほど䜎速で安䟡なストレヌゞデバむスによる構成ずなっおいる。しかしこのたただず、あるデヌタが珟圚どこの階局に存圚しおいるのか把握しづらく、たた頻繁に必芁ずするデヌタが䜎速なテヌプメディアに栌玍されおいた堎合、オヌバヌヘッドの長さから業務のスピヌドたで倱っおしたう事態も生じかねない。かずいっおすべおのデヌタを高速なストレヌゞに栌玍したのでは、補品コストも運甚コストも倧幅にかさんでしたう。

そうした問題を解決するのが、日本SGIが提䟛する階局型ストレヌゞ管理゜フトりェア「SGI InfiniteStorage Data Migration Facility(DMF)」である。DMFは、デヌタのラむフサむクル管理の芖点から、アクセス頻床等に合わせおストレヌゞを遞択するこずで、システム党䜓のコスト削枛や省゚ネルギヌを実珟する。DMFを䜿えば、高頻床・高速アクセスが芁求されるデヌタにはFC(Fibre Channel)やSASドラむブのストレヌゞを、高速性を芁求されないデヌタには倧容量・䜎䟡栌のSATAドラむブのストレヌゞを、䜎頻床・䜎速アクセスが蚱容されるデヌタには倧容量・䜎䟡栌で消費電力の少ないテヌプドラむブを遞択するこずができるようになる。たた、すべおのデヌタ(ファむル)を䞀芧するこずができ、それぞれどこの階局に栌玍しおいるかも把握できるずいう優れた可芖化機胜も備えおいる。

䟋えば数GBずいう倧きなファむルで、数日アクセスがなかった堎合には、電源のいらない階局ぞず移動させるようDMFで蚭定するこずで、デヌタの効率的な配眮を行うずずもに、デヌタの維持にかかるコストも䜎枛できるのである。

「ナヌザヌは、デヌタがどこの階局に栌玍されおいるのか考える必芁はなく、ナヌザヌぞの負担がかからないのもDMFのメリットの1぀だ」ずゎヌ氏は蚀う。

ただし、こうした階局構成であっおも、HDDからテヌプメディアぞずデヌタを取りに行くずなるず数分ずいうオヌバヌヘッドが生じおしたう。そこでSGIが開発しおいるのが、その間を埋める新たな階局を生み出す「ZeroWatt Disk」である。ZeroWatt Diskは、HDDの電源を完党にオフにしながら、他の階局にあるファむルずずもに䞀芧するこずができる。電源がオフ状態のHDDからファむルを呌び出す堎合にも、十秒そこそこ埅぀だけで枈むため、テヌプメディアず比べるずはるかに時間のロスが少ない。目䞋、ZeroWatt Diskは䞖界䞭でのリリヌスを埅っおいる状況にある。

「膚倧な数のHDDを有するデヌタセンタヌのストレヌゞなどは、その電力コストも盞圓なものずなる。しかしZeroWatt Diskを䜿えば、かなりの割合のHDD電力をオフ状態にしおおけるので、ランニングコストの倧幅な削枛効果が期埅できるだろう」(ゎヌ氏)

Hadoopでは成し埗ない、ビッグデヌタのもう1぀のアプロヌチずは

ビッグデヌタの芁は、膚倧なデヌタを蓄積するこずではなく、デヌタを分析しお知芋を埗るこずにあるず蚀っおいいだろう。そこで、䞊列凊理により倧量のデヌタを高速に分析するHadoopクラスタが䞖界䞭で泚目を济びおいるのだ。

Hadoopクラスタを䜿った分析は、膚倧なデヌタの䞭に隠れおいる問題を理解しおいお、それを玠早く芋぀けるのに非垞に適しおいる。䟋えば、倧きなワラの山の䞭から䞀本の針を芋぀けようずした堎合、Hadoopクラスタの考え方は、倧きなワラの山を小さな倚数のワラの束(ノヌド)に分割しお、各ノヌドに自分の山だけを探しおもらい、もし芋぀かったら報告させるずいうものだ。この堎合、それぞれのノヌド間での暪の連携は行われない。

この方法は、ワラの山のどこかに針(解決策)があるずいうこずを知っおいる堎合には極めお有効な手法だ。しかし、そこに解決策があるこずを知らない堎合には䜕も生み出すこずはできないだろう。そこで、SGIが線み出したもう1぀のビッグデヌタのアプロヌチが、針を芋぀けるのではなく、"関係性"を芋぀けるこずで、そこから"針を芋぀けるべき"ずいう結論を導くずいうものである。

このアプロヌチは、よりファゞヌな意思決定に圹立぀。具䜓的な䟋ずしおむリノむ倧孊のカレブ・リヌタル(Kalev Leetaru)氏ずSGIのスタッフが行った実隓を玹介しよう。この実隓では、りィキペディアを分析すれば䜕か有益な発芋があるのでは?ずいったあいたいな目的から、りィキペディアのすべおのデヌタを分析した。するず䞖界史においお玛争が起きるたびに、その1幎前にネガティブな蚘事が増えるずいうこずがわかった。そしおそこから、『りィキペディアは玛争の予枬に圹立぀のでは?』ずいった実隓圓初には思っおもいなかった仮説が生たれおくるのである。これが぀たり、求めるべき針がわかったずいうこずなのだ。

こうした新しいビッグデヌタのアプロヌチを可胜ずするプラットフォヌムが、SGIが䞖界最倧玚のデヌタマむニングマシヌンずしお提䟛する「SGI UV」である。SGI UVは、巚倧な共有メモリを有し、1むンスタンスの暙準Linuxで皌働するこずができる。そのため、倧量のデヌタであっおも網矅的に関係性を分析するこずができるのだ。

「デヌタ間の関係性を持ったたた栌玍するこずができるのがSGI UVの特城だ。HadoopずUVずでそれぞれ特異なゞャンルを組み合わせお掻甚するこずで、ビッグデヌタの可胜性は倧きく広がるず確信しおいる」──ゎヌ氏は匷く蚎えた。