6ワークロード データレイク編 【1】 CTC
Snowflakeはデータ利活用を進める人々のプラットフォームとしてさまざまなワークロードを支えている。データを集約し、整え、貯めておくためのデータウェアハウスは重要だが、一方でデータの種類も量も日々爆増していく中、すべてのデータを使いやすく整えてから貯めるということは事実上不可能になってきた。そのような中、使うときに後から変換することを前提として、まずは生成されたままのデータを貯めておくデータレイクの考え方が台頭してきた。今回はSnowflakeのサービスパートナーであり、長年に渡り多種多様なデータ分析プラットフォームの実装や移行を支援してきた伊藤忠テクノソリューションズ株式会社で、エキスパートエンジニアとして数多くのお客様の課題を解決してきた後藤 真人氏に、データレイクがなぜ必要なのか、そして果たす役割について解説いただこう。
解説者:伊藤忠テクノソリューションズ株式会社(略称CTC)エキスパートエンジニア
後藤 真人氏
企業HP:こちらから>>
ここ数年のAIやDXへの期待感の高まりに伴い、データドリブン経営の根底にある効果的なデータの活用方法に関心を持たれている方も多いかと思います。ここではそのベースとなるデータレイクについて、それが登場した背景および活用方法について解説を行います。
■レポーティングを中心としたビジネスインテリジェンスの始まり
企業の情報系システムでデータウェアハウス(DWH)とビジネスインテリジェンス(BI) ツールを用いて、基幹業務システムから収集したデータを業務で活用する流れが90年代初期頃から国内の企業でも広がり始めました。当時主流だったメインフレームの負荷をオフロードする形でDWH製品の導入が進み、消費者とダイレクトに繋がるクレジットカード会社、カタログ通販業者、金融機関、航空会社、旅行代理店等ではOne To Oneマーケティングの進展と共に利用が活発化しました。また流通業では店舗のPOSシステムから日々生成される商品の販売履歴や在庫管理のデータを用いて、高度な単品管理から生まれた無駄な在庫や欠品による販売機会の損失を減らすことで在庫回転率を高めて収益性向上を実現しました。さらにID-POS化が進むと顧客会員カードを発行して優良顧客の囲い込みのためのツールとしても利用され始めました。この時点ではまだデータレイクの概念は無く、DWHがその役割をすべて担っていました。
■データマイニングとビジュアル分析を用いたビジネスアナリティクスへの発展
それまでは履歴データを用いて過去の状況を把握するレポーティングが中心でしたが、90年代後半頃から当時データマイニングと呼ばれていた、いわゆる機械学習のアルゴリズムを用いて顧客層の分類や商品の需要予測を行うなど、より高度なデータ分析に対する取り組みが進展しました。そして、しばらく間をおいて第二世代のBIツールとして、容易な操作性と高度な可視化機能を備えたセルフサービス型のBIツールが普及し始めました。これにより従来はIT部門のサポートが必要だったレポートの開発を、利用部門のユーザー自身が現場のニーズに応じて随時行えるようになり活用度が高まりました。
■Hadoopへの期待の高まり
スマートフォンの利用が急速に拡大し、SNSなどのインターネット上のデータに対する分析ニーズが拡大すると、XMLやJSONなど半構造化データを取り扱う必要性が生じてきました。DWHは半構造化データをそのまま処理することができなかったため、データの形式に制約のないデータレイクのような新たなプラットフォームのニーズが生まれました。当時はそれにフィットするものとしてHadoopに対する期待が一時期高まりました。しかし、Hadoopが内部に実装する種々のソフトウェア間の互換性の問題などによる維持管理の難しさから、オンプレミス環境での利用は徐々に減りデータレイクの導入に対する課題は残りました。
■センサーデータや画像データを用いたDXの取り組み(AI・IoT時代の到来)
近年はAIやIoTに対する取り組みや、パブリッククラウドを中心としたデータ活用といった新たな潮流が現れ始め、スマートフォンやセンサーデバイスから生成される膨大なデータ、画像データや音声データなど従来とはタイプの異なるデータが分析対象に加わりました。これに伴いパブリッククラウドのオブジェクトストレージがデータレイクとしての役割を担うようになってきました。
■データレイクの役割と目的
データレイクには、データの容量や種類に制約がなく、性能的な拡張性も高く、長期間安全かつ安価にデータを維持管理できることが求められます。また、格納したデータを効率的に活用するために、種々のツールや分散処理基盤を組み合わせて適切な状態にデータをメンテナンスしながら利用する必要があります。いわゆるデータマネジメントと呼ばれるスキームになりますが、サイロ化したデータをデータレイクに一元的に集約し、さらにそれらを相互に整合性の取れた形に変換して、必要な時に必要な場所から必要なデータに容易にアクセスできる環境の整備を行います。これらについて以下で概説します。
1.ステージング領域
データレイクの重要な役割の一つに、収集した生データの一次格納先としての役割があります。データレイクが脚光を浴び始めたのはビッグデータという言葉が注目され始めた2000年代に入ってからですが、これは前にも述べた通りビッグデータの時代に入って直接DWHに取り込むことができない半構造化データや、DWHでは取り扱うことができない非構造化データが分析で利用されるようになったことが一因です。2.ELT処理のソースとデスティネーション
ELTとはソースシステムからデータを抽出・ロード・変換の流れで処理する手法です。ステージング領域に一次格納されたデータに対してELTツールやSpark/Hadoopなどの分散処理基盤を用いてこの処理を行います。また、従来はDWH内で行われていた構造化データの変換処理もDWHの負荷をオフロードする目的としてデータレイク側で行われるようになりました。ELT処理後の整合性の取れたデータはDWH、RDB、NoSQLデータベースなどの上位のデータ処理基盤に複製され、BIツールや業務アプリケーションで利用されます。3.AIのモデル開発のためのサンドボックス
データサイエンティストがストレスなく大量データを用いた分析モデルの開発を行うために、データレイク内のデータとSpark/Hadoopなどの分散処理基盤を用いて分析処理を行う環境を提供します。4.アーカイブ領域
DWHなどの上位のデータ処理基盤に保持する必要がなくなり、廃棄せず保存が必要なデータはデータレイクにアーカイブとして長期保存します。■Snowflakeの活用領域
先日開催されたSnowflake Summit 2021でアナウンスされたSnowparkの機能を用いることでデータレイクやDWHとしての用途だけでなく、ELTやAIの処理をSnowflake上で実行することが可能になりました。これによりJavaやScalaなどのプログラミング言語を使用したり、Snowparkへの対応を表明しているAIベンダーやELTベンダー等の製品を用いてSnowflakeに格納された大量データをIn-Database処理によりSnowflake内部で高速かつ効率的に運用することができます。
■データマネジメントの重要性
ここ数年のAIに対する期待感もありデータサイエンスの重要性が認識されてきましたが、データサイエンスを支えるデータの整備状況についてはいかがでしょうか。分析に必要なデータを集めて、お互いに出所が異なるデータを組み合わせることで、データはより高付加価値を生み出しますが、そこに至るには工場の製造工程のように素材となる生データから、部品として利用可能な形にデータ加工を施す必要があります。また、データに対するデータの意味を示すメタデータを付加して、第三者が利用する際にデータの意味を正しく把握できるようにする必要があります。さらに、データレイク内の膨大な数のデータから、利用者が必要なデータに素早くたどり着けない状態ではデータの活用度は上がりませんし、データの意味を取り違えて利用してしまうと不正な分析結果により重要な意思決定が誤った方向に導かれるリスクもあります。もしインターネットに検索サイトやポータルサイトがなかったとしたら、利用者の利便性が著しく低下して広くは普及しなかったことが想像されますが、それと同様にデータレイクにもデータカタログを整備してデータの活用度を高める必要があります。
■構想策定から実装まで一貫したサービスのご提供
ここまでデータレイクについて少し範囲を広げて概説してきましたが、いかがでしたか。CTCではお客様のITによるビジネス変革を実現するためのデジタルシフトの取り組みを、構想策定段階から実装に至るまでご支援いたします。その一環として長年培ってきた多種多様なデータ分析プラットフォームの実装経験および移行ノウハウを駆使して、Snowflakeを中心としたデータレイクの実装やデータ利活用全般に渡るお客様の取り組みをご支援させていただきます。
※本記事はSnowflake、CTCから提供を受けております。
[PR]提供:Snowflake