2025年2月18〜20日の3日間、「TECH+ EXPO 2025 Winter for データ活用 データを知恵へと昇華させるために」が開催された。多くの企業がより効果的なデータ利活用を模索しているなか、本セミナーでは、データに関する意思決定迅速化や業務改善といった具体的成果に結びつけるためのさまざまなソリューション及びアプローチが示された。本記事ではDAY2である19日に行われた、デル・テクノロジーズのインフラストラクチャー ソリューションズ SE統括本部 UDS SE本部 アドバイザリシステムエンジニア、安井謙治氏による講演「データコンシューマにもデータマネジメント組織にも嬉しいデータプラットフォームとは」の内容をお届けする。

データマネジメントにおける利用者・管理者双方の課題

安井氏は冒頭、データマネジメントにおいて組織が抱える課題から解説を始めた。まずデータコンシューマ、すなわちデータを利用するデータサイエンティストやデータアナリストといった立場の悩みとして、データ分析・AI開発等を行ううえで「使えるデータがどこにあるのかわからない」「データ分析がビジネスのスピードに追いつかない」「クラウド、オンプレなど複数のデータソースからデータを収集したいがそのための仕組みがない」などさまざまな課題を挙げた。安井氏は、これらの多くの課題において「組織内に存在するデータ資産をいかに迅速に活用できるか」がポイントになると語った。

  • 安井 謙治 氏

    安井 謙治 氏

これに対してデータ基盤を管理運用する立場の課題として、「利用者からプラットフォームの性能が悪く分析に時間がかかるというクレームが入った」「クラウドとオンプレミスのデータ連携がうまくいかない」「組織内にあるデータが思うように利用されない」「プラットフォームの脆弱性やデータの持ち出し等に対するセキュリティ対策が十分に行なえていない」といったものがあるという。こちらについては、「ガバナンスとセキュリティを担保しつつ、さらなるデータ利活用を推進していく」ことが課題解決の糸口とし、一見すると利用者側と管理側で相反する課題に対して、同時に対応していく必要があると指摘した。

そのうえで、この利用者側・管理側双方の課題を組織全体で見ると「データのサイロ化」「データのアクセシビリティ」「スケールとパフォーマンス」「コンプライアンス・ガバナンス」「セキュリティリスク」「増大するコスト」の6つにまとめられるとし、これらを解決するものが“理想的なデータプラットフォーム”であると語った。

“シングルポイント オブ アクセス”で課題を解決する

続いて安井氏は理想的なデータプラットフォームの姿として、デル・テクノロジーズが描くビジョンを提示した。ポイントは、コストを可能な限り抑えながら、既存のデータソースやデータウェアハウスは基本的に残しつつ、データ仮想化のアプローチを用いて“シングルポイント オブ アクセス”の仕組みを実現すること。この仕組みにおいてはデータベースなどの構造化データだけでなく、近年利活用のニーズが高まっているログ、PDF、画像といった非構造化データにもアクセスできるというイメージだ。 「このデータプラットフォームによって、データのサイロ化をなくし、データに簡単にアクセスできると同時に、データ分析等をパフォーマンス高く実行でき、かつコンプライアンスや企業内におけるガバナンス、セキュリティといったポイントを解決。加えて、オープンなテーブルフォーマットや最先端テクノロジーも活用できるようになります」と安井氏は語った。

  • 資料

この流れで安井氏が示したのが、デル・テクノロジーズが提供する“理想的なデータプラットフォーム”としての「Dell Data Lakehouse(デル データ レイクハウス)」である。これはハードウェアとソフトウェアが一体化したアプライアンス型ソリューションで、クラウドやオンプレにある構造化データ/非構造化データに接続でき、シングルポイント オブ アクセスを効果的・効率的に実現する。 「データを利用するデータサイエンティストやデータアナリストは、Dell Data Lakehouseにアクセスするだけで、組織内のすべてのデータから必要なものを必要なときに取り出せるようになります」と安井氏。アクセス先が変わると利用者は迷うこともあるが、その点についても「Dell Data Lakehouseでは使い慣れたツールをそのまま利用できます」と利点を紹介した。

もちろんシングルポイント オブ アクセスの仕組みは利用者だけでなく、データソースの設定やアクセスコントロールをDell Data Lakehouse1カ所で一元管理できるようになるため、運用のシンプル化、ガバナンス・セキュリティ強化といった点で管理側にもメリットをもたらすと安井氏は説明した。

  • 資料

データプラットフォーム・Dell Data Lakehouseの強み

安井氏はDell Data Lakehouseに関してより掘り下げた解説を続ける。Dell Data Lakehouseはスケールアウトコンピューティングとスケールアウトストレージから構成され、スケールアウトコンピューティングにはオープンソースのアプリケーションを基に、一部で商用版のStarburstなどのソフトウェアを用いており、スケールアウトストレージにはデル・テクノロジーズ製オブジェクトストレージを採用している。オープンソースの場合、UIが充実しておらず運用が煩雑になるケースもよく聞くが、その点Dell Data Lakehouseでは独自の専用管理画面を用意。加えてソフトウェアのバージョン管理やセキュリティパッチ適用、依存関係、そしてハードウェアも含め、すべてをサポートしてくれる点も安心だと説明した。

さらに「従来の分析基盤はコンピュートとストレージが一体型の製品が多かったのですが、Dell Data Lakehouseはそれぞれを独立してスケールアウトできるため、必要に応じて性能や容量を柔軟に増やすことが可能です」と付け加えた。

  • 安井氏

また、シングルポイント オブ アクセスを実現する仕組みとして、Oracle、Snowflake、Salesforce、SAPなどのデータソース、Power BI、Tableau、Jupyter Labといったアプリケーションとのコネクタを50種類以上用意。これによりデータソースやアプリケーションがDell Data Lakehouseを経由して接続され、データエコシステムが統合される。利用者は前出のように構造化/非構造化データを問わずアクセスが可能となるうえ、データソースにデータをコピーすることなく、1回のクエリで複数データソースからデータを取得できるようになるという。 「利用者はアクセス先を従来のデータソースからDell Data Lakehouseに切り替えるだけで、既存ツールを使い、データ分析やAI/機械学習に取り組めるようになります」と安井氏は強調した。

こうしたシングルポイント オブ アクセスの仕組みで利用者側の利便性が向上する一方で、ガバナンスやセキュリティの課題はどのように解決するのか。

「Dell Data Lakehouseでは、既存認証基盤とのシングルサインオンによるユーザー認証や各種ロールによるアクセスコントロール、カラム(列)ベースのマスキング、行レベルのフィルタリングなどを集中管理できるため、管理もシンプルになり、ガバナンスやセキュリティを強化できます」と安井氏。例えばアクセスコントロールについて、アプリケーションからデータソースに一対一で接続する従来方式では設定・運用が複雑になる。利用者が増えたり人事異動が行われたりした場合、複数データソースに変更を反映するのは骨の折れる作業となるだろう。その点、Dell Data Lakehouseならそうした管理も1カ所に集約できるため、運用負荷を大きく減らせるだけでなく、ガバナンスとセキュリティの強化にもつなげられるというわけだ。

  • 資料

必要なデータの適時利用をサポートし“民主化”を実現

安井氏は、データプロダクトを使用したデータ分析とAIの民主化にも話を進める。事業部門のドメインで所有するデータを集約・整理し安全に公開する仕組みを構築できることから、データの利用者側は分析用のデータやAIの学習データ、生成AIのRAGのデータセットに簡単にたどり着けるようになると解説した。 「信頼性が低いデータからは信頼性の低い結果しか生まれないため、まずはデータ品質を向上させる仕組みが必要になります。繰り返しに使うデータに関しても、すでに決められたデータセットがあると利用者のデータ収集作業が軽減されます。これにより、利用者は本来の分析業務やAI開発に専念でき、民主化が実現されます」(安井氏)

意思決定の重要なベースとなるAI向けデータの準備についても話した。安井氏は、83%ものAIプロジェクトが失敗もしくは中止になっているとの調査結果を示したうえで、「PoCはうまくいっても本番運用に移行できないという相談をよくいただきます。その最大の要因は、本番運用に適したデータを継続した形で用意できないところにあります。データは増加・変化していくので、データを継続投入する運用が必要になります」と指摘した。

  • 資料

安井氏は社内規定集Q&AのAIチャットボット構築における生成AI(RAG)のデータセット準備を例に挙げる。Dell Data Lakehouseでは、生成AIで扱う非構造化データ、この場合は社内規定集のファイルからメタデータをエクスポートし、そのデータをDell Data Lakehouseに構造化データとして連携できる。この仕組みにより、常に最新のファイルデータを自動的・継続的に収集し、クエリを最新状態に保てるようになると解説。利用者が必要なデータをすぐさま探し出し、活用できる状態を実現できるとした。

最後に安井氏は「Dell Data Lakehouseを組織のデータプラットフォームの中心に置くことで、組織内のデータ資産を迅速に利活用すると同時に、ガバナンスとセキュリティをしっかり担保する仕組みをつくることができます」と改めて強調し、講演を締めた。

関連リンク