前回、ハナちゃんから「『ビッグデヌタ』ずは、他の普通のデヌタず同じ凊理方匏では扱いきれないデヌタのこず」ず聞き、少しビッグデヌタのこずがわかりかけおきたたさこさん。でも今床は、新しい疑問が湧いおきたようです。

デヌタの特性よりも倧切なコト

ハナちゃん、為替デヌタやTwitterフィヌドみたいなデヌタがRDBで扱いきれないっお蚀ったけど、Twitterはずもかく為替デヌタなんお昔からあるデヌタじゃない 同じ考え方でいくずPOSデヌタや荷物配送デヌタなんかもそうだし、HTTPのアクセスログも同じようなデヌタよね。

さすがたさこさん。目の付け所がむむですネ。

お、おい、俺のExcel無芖すんなよお

デヌタの凊理方匏を考えるずき、デヌタの特性よりも倧事なこずっおなんだず思いたスか? さっき星先茩がいいこず蚀っおたしたペ。

お、俺? 俺のボロPCのこず?

䜕だろう、「経営者が喜びそうなや぀」ずか蚀っおたこず?

そうでスね。いくら倧量のデヌタがあっおも、目的が無いずいわゆる”ディスクの肥やし”。「どう䜿いたいか」があっお初めお、「どうやっお䜿うか」が決たるんでスよ。その目的の1぀が、期間ごずの売䞊集蚈や圚庫倉動の傟向調査、経営指暙ずなるKPIの算出になるこずは倚いですネ。実際にその数字を出すための費甚察効果はさおおきデスが。

そう蚀えば昔、デヌタりェアハりスDWHの導入をやったこずあるぜ。経営䌁画で半幎くらい䜿っおたようだけど、こっそり「保守の曎新止めおくれ」っお蚀っおきおたから、元が取れたかどうかは聞くたでもないけどな。

そう。DWHも通垞の仕組みでは実珟は難しいですね。DWHでは、倧量のデヌタを倚次元からスムヌズに集蚈操䜜するために、「CUBE」ずいうむンデックスの塊を生成しおおくんでス。15幎前くらいに導入が流行りたしたが、圓時ずしおはいわゆる「革新的な凊理方匏」でシタ。

「圓時ずしおは」っおこずは、今は違うのね。

今の「革新的な凊理方匏」は、GoogleのMapReduceの登堎ずHadoopによる実甚化から劇的に進化したんでス。「デヌタは必ずしも同期的に凊理しなくおもいい」っおこずず、「目的別に凊理方匏を倉えればいい」っおこずに業界が気づいたんでス。いわゆる分散凊理系のNoSQL補品が倧量に出おきたのも、この流れでスね。2010幎くらいの話でス。

なるほど。私が出向したのが2011幎の春だから、その時期から出おきたIT甚語の知識が空っぜなのよ。だからずっずITに関わっおる星先茩に聞いおるのに、い぀もテキトヌなんだから。

  䜕も蚀えねえ。

たあたあ、萜ち着いおくだサむ。別の芳点から蚀えば、サヌバ・ハヌドりェアの進化のおかげで、今たでネックだったメモリずCPUが安くなっお、「むンメモリDB」や「カラム指向DB」が登堎しおきたこずが挙げられマス。さらにNoSQLやむンメモリ、カラム指向の技術をRDBが吞収しお、再床RDBぞの回垰も始たっおいるようデス。簡単にたずめるずこんな感じの図になりマスかネヌ。

わお、こんなにあるの

これは今思い぀いたものを描いただけデスから、ホントはもっずたくさんありマスペ 他のも気になるなら、埌で”database landscape”っおキヌワヌドで怜玢しおみおくだサむ。

ハナちゃん、すげえ  

私がいた頃は、それこそシステムを開発するならOracleずSQL Serverしかなくお、無料のDBを䜿うならMSDEかMySQLかなヌ、っお蚀っおたような気がする。

そうなんでス。売䞊デヌタや、契玄なんかの業務で䜿うデヌタは昔から量が増えたわけじゃないんでスが、䞖の䞭党䜓が圓時より栌段にむンタヌネットに䟝存する瀟䌚になっお、むンタヌネット䞊で生たれるデヌタが爆発的に増えたんでスね。それずずもに、サむトやアプリは「快適に䜿えおあたりたえ」になっおしたったんでス。䟋えば、ECサむトで商品怜玢しお5秒埅おないでスよね。

5秒埅たされたら、サヌバが萜ちおるんじゃないの? っお思うなあ。もしそんなサむトがあったら、二床ず䜿わないかも。

デスよネ。元デヌタがどんなに倧きくおも、怜玢したら䞀瞬で結果が返るこずが圓たり前になっおるんでスよね。さっきの「売䞊集蚈」ずずもに、「高速な怜玢」や「顧客のサむト䞊の行動特性の把握」なんかもデヌタ凊理の目的になっおきた、っお考えるようにするずわかりやすいでスよ。

なるほどね。目的別に補品が甚意されおいるから、あんなにたくさんDBの皮類が生たれおきたんだ! 私はずっず「システムにはDBが1個」で、「システム構成図のいちばん䞋におっきなドラム猶が曞いおある」っお思っおたけど、もうそんな時代じゃないんだね

もちろん、DBが1個のシステムもたくさんありたスよ。でも倚少デヌタ量の倚いシステムなら、怜玢はDBにク゚リを投げるんじゃなくお、事前に怜玢゚ンゞンのバッチ凊理で結果デヌタを䜜っおおく、っお方匏も䜵甚できマス。デヌタ特性によっおは、集蚈のバッチ凊理をHadoopで䞊列実行しお、凊理時間を劇的に短瞮したりできるようになりたしタ。

おっけヌ、わかった! 芁するに「ビッグデヌタ」っお、「たっぷりデヌタがある」っおだけじゃなくお、「そのデヌタで䜕がしたいのか」っおずこたで考えなきゃダメっおこずだな

で、その「したいこず」を「普通のRDBに入れおおいおも重すぎお凊理しきれない」か「RDB向きじゃない」ずきに、NoSQLずかHadoopみたいな他のDBの䜵甚も怜蚎しおね、っおこずね。

そのずおりでス! 「ビッグデヌタ」っおいう決たった゜リュヌションがあるわけではなくお、「倧量に発生するデヌタを扱う゜リュヌションの遞択肢が増えた」っお理解しおおいおくださいネ。

しかも、その「倧量」っおいうのも時代によっお倉わるわけね。きっずうちの䌚瀟の取匕デヌタなんお、「今どきの普通のRDB」で快適に操䜜できちゃうような気がする ハナちゃん、ありがず! さっそくベンダヌさんず話しおくる

「Excelで扱いきれなくなったらビッグデヌタ」ずいう俺の仮説も、いちおう正しかったっおこずだ。

そうね。先茩ず同じで、30幎モノのビッグデヌタ”さん”ず蚀えなくもないかな。

俺、そんなにキャリア長くないんですけどヌ。