データレイクの未来像

今後、データレイクがどのように変化するか、最新事情から考察します。

「レイクハウス」の登場と進化

今までお伝えした通り、現在のデータレイクはパブリッククラウドのオブジェクトストレージサービスで構成することが主流となっており、構造化・半構造化データに対しては直接分析のためのクエリ(検索処理)が実行できるようになってきています。これはある意味で「データレイクがデータウェアハウスの機能を持つようになってきた」と考えることができます。

また一方で、データウェアハウスを管理するシステムも進化しています。システムのクラウド化が進んでいることで、従来の課題だった「大量データが扱えない」「分析対象のデータが限定される」といった問題を解決して、「データウェアハウスにデータレイクの役割を持たせる」ことが実現できるようになっています。

このような経緯で、データレイク・データウェアハウスそれぞれ生まれの経緯・実装形式が異なるものが、相互に相手の機能を取り込んでデータウェアハウスとデータレイクの両方の機能を提供する「レイクハウス」というサービス・製品が登場しています。

2021年現在、主にSaaS型のデータ分析プラットフォームサービス、およびそれらサービスと連携するETL製品ベンダーの数社(databricksやXplenty、Informaticaなど)が、「レイクハウス」という概念を提唱、製品やサービスとして普及推進しています。

参考:データレイクとデータウェアハウスとは? それぞれの強み・弱みと次世代のデータ管理システム「データレイクハウス」を解説 | databricks

また「データレイク」「データウェアハウス」を区別するまでもなく、元々最初からデータプラットフォームとして両方の機能を包含して提供しているサービスも現れています。たとえばSnowflakeはその急先鋒と言えるかもしれません。

参考:Selling the Data Lakehouse | Jeremiah Hansen

レイクハウスという言葉が今後定着するかはまだ分かりませんが、データレイクとデータウェアハウスの融合はますます進み、区別なく一つのまとまりとして扱われるようになるのは間違いないでしょう。

データ相互結合、「データプラットフォーム」化

社内におけるデータレイクの整備が進めば、その後は企業間、たとえばグループ企業内や取引先などとデータレイクのデータを相互に活用し合う、という利用形態に発展するでしょう。現在のところ、データレイクに格納するデータフォーマットはCSVやJSON、Parquet、AVROなどオープンな規格に準拠したものばかりです。また、クラウド上で扱う日本語データはUTF-8に揃ってきていますので、オンプレミスデータウェアハウス中心だった頃の時代と比べると、データ交換に対する技術的障壁は非常に低くなっている、と言えるでしょう。 また、データ形式が共通だったとしても共有のためにデータを転送し、受け取り側でデータを再ロードする手間はできれば避けたいものです。そのため最新のデータ分析プラットフォームサービスでは、手持ちのデータがテーブル定義を含めてデータベースごと共有先で利用できる機能が搭載され始めています。たとえばSnowflakeはAWSやMicrosoft Azureなどのパブリッククラウドサービス上で稼働しているのですが、AWSのSnowflakeで動作しているデータを、Azureで動作している別のSnowflakeのデータとして共有することが簡単な操作で実現できます。

  • Snowflakeデータ共有機能の説明図版

    Snowflakeデータシェアリング機能(Snowflake提供)

さらに、巨大なデータの相互交換が実施できたとしても、そのデータを処理する能力がなければデータ分析の精度が上がったとしても速度が上げられません。最新のデータ分析サービスは、現代のクラウドの技術をベースにして、オンデマンドで処理能力を変更し「必要な時だけ必要な処理能力を得る」ことを可能にしています。SnowflakeはCPU・メモリを使う処理能力を「仮想ウェアハウス(Virtual Warehouses)」という独自の管理単位に共通化・仮想化し、任意のタイミングで起動・停止・サイズ(処理能力)変更を可能としています。

  • Snowflake仮想ウェアハウスの説明図版

    Snowflake仮想ウェアハウス(Snowflake提供)

データレイクを相互に接続して巨大データを簡単にやり取りし、それぞれに必要な分析を実施することは遠い未来の夢の話などではなく、技術的には既に実現可能な話なのです。

まとめに代えて:今取り組むべきこと

2021年現在、企業にはデジタル化・データ化の波が押し寄せています。業務に関する情報をできるだけデータ化し、そのデータを使ってビジネスの変革を進める「デジタルトランスフォーメーション(DX)」はますます加速し、データを元にビジネスを進めることが当たり前になる時代に既に入っていると言えるでしょう。その際に必要となるのがデータ分析の要となるデータウェアハウス・データレイク等のデータプラットフォームです。

データレイクは生まれてまだ間もないものです。レイクハウスに至ってはもっと新しいものです。これらが普及するにつれてまた新たな課題が生まれ、それを解決する技術や方法論が生まれることでしょう。だからと言ってそれらが一通り収斂するまで様子見するというのは、”Winner Takes All(勝者独り勝ち)の競争”と呼ばれる※1今の時代に適した判断と言えるでしょうか。

今から少しでも自社のデータ化を始める。その取り組みが早ければ早いほどデータ活用のノウハウが社内に蓄積、ビジネスへの活用が促進され、競争に打ち勝つ可能性が高くなる。そう考えています。

※1出典:マッキンゼー緊急提言 デジタル革命の本質:日本のリーダーへのメッセージ

▼関連リンク
クラスメソッドコーポレートページ
DevelopersIO

※本記事はSnowflake、クラスメソッドから提供を受けております。

[PR]提供:Snowflake