情シスドタバタトリオが行く! ITワード調査隊(1) 「ビッグデータ」はどこから"ビッグ"?（前編）

ここは、中堅出版社マイマイ出版の情報システム部。部長以下7名で会社のシステムの企画・開発・運用・保守を行っています。開発と保守は外部ベンダーにほぼお願いしているので、社員は企画～案件立ち上げと運用が主な役割です。新しい技術はできるだけキャッチアップして活用していきたいけれど、既存システムの対応でみんな正直手一杯。IT用語の正しい意味なんて考えるヒマもないまま、日々の業務をこなしています。

そんな情報システム部に2016年4月、関連会社に出向していたまさこさんが、出向先で飼われていたハムスターのハナちゃんを連れて、5年ぶりに戻ってきました。

主な登場人物

まさこさん：出向先から5年ぶりに情報システム部に戻ってきたが、ここ5年間のIT動向についていけなくて困っている。何事もはっきり白黒つけないと気が済まない江戸っ子気質。

星先輩：どんなに忙しくても頼まれると嫌とは言えない性格。面倒見がよくて情シスの皆から頼られる存在。その場の思いつきで、適当なことを言ってしまうのが玉にキズ。

ハナちゃん：まさこさんの出向先で飼われていたハムスター。出向先企業が買収されて職場で飼えなくなり、まさこさんが引き取ってきた。とてもかわいがってくれていた出入りのITコンサルタントの知識を吸収し、いつの間にかスーパーITハムスターとして成長していたことを、まだ誰も知らない。

基準は「俺のPC」?!

あーあ、ベンダーさんの提案を聞いてたら、またよくわかんないこと言われたわ。「御社クライアントの情報をビッグデータとして分析し……」ですって。要するにビッグデータって、通常のシステムでは処理しきれないくらい大量なデータのことでしょ? 一体どこからビッグになるのかしら。うちのお客さんの情報って、そんなにビッグな感じはしないんだけどなー。先輩、知ってます?

無粋な質問をするねえ。「ビッグ」って敬意を表すときに使う言葉だからな。人間ではかなわないと思った時に、「ビッグデータ」になるんだ。俺のPCのExcelで開けなくなったら、もう”ビッグデータさん”って呼んでいいと思うよ。

もう、先輩のボロPCが基準じゃ、世の中のデータは全部”ビッグデータさん”になっちゃいます! ちゃんと教えてくださいよ。

ゴメンゴメン！俺の知識を総動員しても、厳密にコレという定義はなかったと思うんだ。でも何せビッグだから、全社データを集約するようなケースが該当するんじゃないかな。分析系で使われることがほとんどで、どちらかというと経営者が喜ぶやつっていうイメージだよ。

何か、適当にそれっぽいこと言ってまとめようとしてません? まあ、私もそんな感覚なんですけど、これだけいろんなところで「ビッグデータ」って言ってるんだから、基準とか標準とか、ルールってものがあってもいいと思うんですよね。IT業界なんだから、その辺きっちりしてほしいんですよ、きっちり。

そう言われてみれば、そうだよなあ。普通のデータがどうやったら「ビッグデータ」になるんだろ。DWHもたくさんデータを突っ込むものだけど、あれもビッグデータなのかな？

まさこさん、まさこさん、また星先輩と不毛な議論をしてるんですか。業界での統一された基準とは言えないまでも、一応「ビッグデータ」の定義はあるんデスよ。抽象的なので理解しにくいんですが、ガートナーが提言したもので、通称「3V」というものデス。

Big data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.

（出典：Gartner IT Glossary「Big Data」）

意訳すると、「ビッグデータとは、大量(High-Volume)・高い流速(High-Velocity)・多様性(High-Variety)のいずれか、もしくは全てを備えた情報資産であり、費用対効果の高い革新的な処理方式を用いることで、より深い洞察や意思決定、それらのプロセスの自動化を可能とする」みたいな感じデス。

うん、ぜんぜん意味わかんない。

この定義のポイントは、「革新的な処理方式」の部分デス。”他の普通のデータと同じ処理方式では扱いきれない”データを「ビッグデータ」と呼ぼう! と言っているわけデス。

お! 俺のExcel説が急浮上!

ってことは、うちの会社に置き換えると、案件管理とか会計とか普通のシステムにはOracleとかSQL ServerなんかのRDBが使われてるわね。ビッグデータは、RDBじゃ扱いきれない量のデータ、って理解でいいのかしら。

そう、少し前まではその理解で良かったんでス。RDBは万能でとても扱いやすいんでスが、データの量や特性、例えば為替データやTwitterフィードみたいにレコード長の割にキー値が大きいデータ（これを細かい粒度のデータっていいまス）が、1日に数千万件蓄積されるようなデータを扱おうとすると、RDBのトランザクション管理やそれに伴うインデックス構築の仕組みでは負担が大きすぎて、必要な性能が出なくなってしまいマス。

なるほど、そこで「革新的な処理方式」が出てくるわけね。でも、ちょっと待って?

（後編に続く）