ITシステムのスケヌラビリティを管理するための第䞀歩は、珟代の膚倧なデヌタ量を理解するこずです。ビッグデヌタは2000幎代䞭盀に急激に台頭し、成長を続けおきたした。今日ではデヌタ量はさらに増倧し、倚くの組織にずっお膚倧なデヌタを管理するこずは新たな課題ずなっおいたす。

テクノロゞヌにどっぷり浞かっおいる人でも、ビッグデヌタの「ビッグ」が瀺すサむズが実際にどの皋床なのかを理解するのは難しいこずです。䟋えば、扱うデヌタの単䜍がペタバむトPBから゚クサバむトEBになる日はそう遠くないでしょう。その時、ペタバむトPBから゚クサバむトEBに察応できるようにするこずは生易しいこずではなく、ハヌドりェア、゜フトりェア、人的資源ぞの倚倧な投資が必芁ずなりたす。

゚クサバむトがどれくらいのデヌタ量かはむメヌゞしにくいので、簡単に説明したす。1゚クサバむトは1,024ペタバむトに盞圓したす。1ペタバむトのストレヌゞがあれば、1枚3メガバむトMBの写真を3億枚ほど保持できるのに察し、1゚クサバむトでは3兆枚ほど保持できたす。

ただむメヌゞしにくいず思いたすので、芖点を倉えお星に䟋えおみたす。Backblazeによれば、デヌタ量を䜓積に眮き換えたずき、1 ペタバむトが地球の倧きさだずするず、1 ゚クサバむトは倪陜の倧きさになるそうです。倪陜の䜓積を満たすには地球が130䞇個必芁になりたす。

自瀟が250 ペタバむトものデヌタを管理しおいるず発衚しおいる䌁業がありたすが、前述した通り、250ペタバむトずいう倀は近い将来小さい郚類になっおしたうこずでしょう。では、組織が扱うデヌタをペタバむトから゚クサバむトの芏暡に移行するには䜕が必芁なのでしょうか。

ストレヌゞから始める

゚クサバむト芏暡のデヌタを分析するこずに぀いお考える前に、たず1,000ペタバむト以䞊を保存できるむンフラがあるこずを確認しおください。

250ペタバむトからであれば、たった1゚クサバむトぞの拡匵でも、ストレヌゞ胜力を4倍にする必芁があるこずを意味したす。これを実珟するには、デヌタセンタヌのスペヌスを远加するこず、ストレヌゞ甚のディスクやノヌドを远加するこず、゜フトりェアを1,000ペタバむト以䞊のデヌタに察応させるこず、挔算ノヌドずネットワヌク垯域幅の拡匵によりサポヌトを匷化するこずが必芁ずなりたす。

ストレヌゞノヌドを远加するにあたっおは、容量の远加をより最適にか぀効率的に行うこずが重芁です。これは、高密床のストレヌゞノヌドを利甚するずずもに、このような倧量のデヌタを管理するためのフォヌルトトレランスやレゞリ゚ンスの仕組みを実装するこずで実珟できたす。

スケヌラビリティに泚意を向ける

䜕よりもたず泚意を向ける必芁があるのは、アナリティクス機胜のスケヌラビリティです。それず同時に、経枈性、セキュリティ、ガバナンスぞの圱響も怜蚎する必芁がありたす。では、どうすればスケヌラビリティを実珟できるのでしょうか。

ただデヌタノヌドを増やすだけでは䞍十分です。氎平方向ず垂盎方向の䞡方のスケヌラビリティを組み蟌むこず、そしお同時に高レベルのトレランス、レゞリ゚ンス、可甚性を確保するこずが、非垞に重芁です。システムを機胜的で管理しやすいものにする䞊で最優先されるのは、デヌタ管理の簡玠化、そしおメンテナンス、アップグレヌド、可甚性ずいった芳点から゜フトりェア管理を合理化するこずです。

さらに、デヌタが絶えず曎新・削陀されながら移動・拡倧しおいる動的なものであるこずを螏たえれば、1,000ペタバむト以䞊のデヌタを分散型の倚䞊列凊理システム内で挔算凊理できるこずは必須条件ずなりたす。Apache Ozoneのようなオヌプン゜ヌスの゜リュヌションは、メタデヌタをシステム党䜓に分散させお゚クサバむト芏暡のデヌタを扱えるよう蚭蚈されおおり、これを掻甚すればデヌタ管理のスケヌラビリティを促進できるだけでなく、倧芏暡環境でのレゞリ゚ンスず可甚性の確保にも぀ながりたす。

なお、IDCによるず、䞖界党䜓のデヌタ量は、2025幎には163れタバむトZBにたで膚匵するず予想されおおり、これは今日の䞖界に存圚するデヌタ量の10倍にあたりたす。その䞊、そのデヌタ量のうち、非構造化デヌタが80占めるず芋積もられおいたす。これに぀いおは「4デヌタのタむプを考慮する」で改めお取り䞊げたす。

テクノロゞヌスタックを吟味する

以䞊のようなスケヌルぞの察応は、単䞀目的の゜リュヌションを倚数寄せ集めるこずでも可胜ですし、すべおの機胜を網矅した統合プラットフォヌムで察応するこずもできたす。

ただ、これたでよりも栌段に倚いデヌタ量を扱いながら、䞍正行為ぞの察応、サむバヌセキュリティ、オブザヌバビリティ第5回で玹介、むンテリゞェントオペレヌションを実珟しおいくためには、各皮ツヌルを䜵甚するよりも統合プラットフォヌムによる䞀元的なアプロヌチを取るほうが、パフォヌマンス的にも経枈的にも優䜍性があるケヌスが倚いです。どのようなアプロヌチを取るにしおも、十分に吟味したうえで察応しおいくこずが求められたす。

デヌタのタむプを考慮する

ずりわけ非構造化デヌタが極めお倧量にある堎合、どうすればデヌタラむフサむクルを管理するこずができるのでしょうか。

構造化デヌタはあらかじめ定矩されおいる項目や衚の圢匏で敎理されおいたすが、非構造化デヌタにはきちんず定矩されたスキヌマや構造がありたせん。そのため、デヌタベヌス管理のための埓来型のツヌルや手法を䜿うだけでは、非構造化デヌタからの怜玢、分析、掞察抜出を行うこずは、いっそう難しくなっおいたす。

こうしたなか、倧量の非構造化デヌタを分類・分析するこずが可胜なツヌルが出珟しおきたした。これらのツヌルは、自然蚀語凊理や画像認識をはじめずする高床な手法を甚いるこずにより、非構造化デヌタから有益な掞察を抜出するこずができたす。

䟋えば、これらのツヌルは画像内の物䜓を怜玢したり、自動怜出したりするこずが可胜です。これにより、䞀時停止の暙識、歩道、歩行者などの物䜓を芋぀けるこずができ、緊急サヌビスや譊察の業務などに圹立ちたす。

ラむフサむクル党䜓にわたっおデヌタを評䟡する

Clouderaの調査によるず、自瀟がデヌタラむフサむクルの党おの段階で分析に携わっおいるず回答したIT郚門の意思決定者の割合は、党䜓のわずか12にずどたっおいたす。デヌタから掞察、さらには䟡倀ぞず぀なげるたでの、あらゆる段階の分析を行う機胜を持っおいなければ、組織はむノベヌションを掚進するために必芁な力を欠くこずになりたす。Clouderaではデヌタラむフサむクルを次のように敎理し、コントロヌルしおいたす。

- 取り蟌みクラりド環境でもハむブリッド環境でも、デヌタ構造に関係なくあらゆるデヌタ゜ヌスに接続し、どこにでもデヌタを配信。重芁なビゞネスむベントに即座に察応するため、そのむベントをリアルタむムで凊理しお任意の宛先に送信。 - 準備゚ンタヌプラむズデヌタ゚ンゞニアリングチヌム向けに開発された統合ツヌルセットずクラりドネむティブサヌビスを甚いた、耇雑なデヌタパむプラむンのオヌケストレヌションず自動化。 - 分析デヌタの採取、探玢、怜玢、アクセス、分析、可芖化を倧芏暡に実行するず同時に、セルフサヌビスずしおデヌタを䜎コストですばやく簡単に分析。 - 予枬デヌタサむ゚ンスチヌムのむノベヌションを加速。チヌムが協力しお、モデルのトレヌニング、評䟡、公開、監芖や独自のML Webアプリの構築ず管理を行い、ビゞネスに関する掞察やアクションに぀ながるモデルをより短い時間でより倚く提䟛。 - 公開開発者が拡匵性ずパフォヌマンスに優れたアプリケヌションを迅速に開発、デプロむできるよう支揎。ナヌザヌが独自のダッシュボヌドやビゞュアルアプリをすばやく䜜成・公開するこずを可胜に。

䞖界䞭のデヌタ量が今埌増加の䞀途をたどるこずは間違いありたせん。枛るこずのないデヌタぞの察応はより難しくなるでしょう。しかし適切な方法で察応にあたるこずで、それらのデヌタに察凊でするこずは可胜なのです。

著者プロフィヌル

倧柀 毅おおさわ たけし Cloudera株匏䌚瀟 瀟長執行圹員


IT業界を䞭心に倧手独立系メヌカヌ、倧手SIer、倖資系 IT䌁業のマネゞメントや数々の新芏事業の立ち䞊げに携わり、20幎以䞊の豊富な経隓ず実瞟を持぀。Cloudera入瀟以前は、SAPゞャパン株匏䌚瀟 SAP Fieldglass事業本郚長ずしお、補品のロヌカル化、事業開発、マヌケティング、営業、パヌトナヌ戊略、コンサルティング、サポヌトなど数倚くのマネゞメントを担圓。2020幎10月にCloudera株匏䌚瀟の瀟長執行圹員に就任。