6ワークロード データサイエンス編【3】 Dataiku

Snowflakeプラットフォームは単にリソースが柔軟に活用できるだけではない。多様なスキルを持つ人々が多様なツールやプロダクトを経由してSnowflakeにアクセスしたいと考える。そのために、エコシステムとパートナーシップにも注力している。特にデータサイエンスの領域ではノーコードでやりたい人、コーディングでやりたい人、様々である。こうした多様なニーズに同じプラットフォームの上で柔軟に応えられるかが重要だ。 今回はSnowflakeのエリートテクノロジーパートナーであり、DataikuでSenior Sales Engineerとして活躍するかたわら、ビジュアル分析ツールTableauに関する書籍の著者として現場の分析力を向上させている松島 七衣氏に解説いただく。データサイエンスにまつわるバズワードのような言葉をひとつひとつ紐解き理解を深めた上で、現状のデータサイエンスにまつわる課題とその解決法をキレ味鮮やかな解説でご紹介いただこう。

解説者:Dataiku Senior Sales Engineer 松島 七衣氏
Twitter:@NanaeMatsushima

みなさま、こんにちは。今回は、AI/機械学習のデータサイエンスプラットフォームDataikuがお届けします。『AI』『機械学習』『データサイエンス』… バズワードとも言われる、データ活用に関わる言葉が並んでいますね。最初に、これらの言葉の位置づけから確認していきましょう。

1.データサイエンスとAIと機械学習

ここ10年程度で、膨大なデータが蓄積され、徐々にビッグデータが扱いやすくなったことで、データ分析への期待が高まっています。その結果「データサイエンス」「AI」「機械学習」といった言葉を頻繁に耳にするようになりました。

データサイエンスとは、データからインサイトや価値を見出すことやその学問を指します。最終的には、人間が分析結果を導き出します。 一方、AIや機械学習では、機械が分析結果を出力します。AIは、人間のような頭脳をもった存在のことで、その中に機械学習が含まれます。機械学習は、機械が大量データから学習して、その背景にあるルールやパターンを発見する分析手法です。数値もしくは値の予測や、似た者同士をまとめてグループ化することができます。

データサイエンティストという役割も着目されていますが、彼らはビジネスの現場でデータに基づく意思決定を支援します。よって、データサイエンスの専門家であるだけでなく、ドメイン知識(ある専門分野に特化したビジネス知識)も必要です。

2. AI/機械学習の問題

昨今、データサイエンティストに限らず、データ活用を行う幅広い役割の人がAIや機械学習を活用しています。しかし、AI/機械学習に成功する企業はわずかで、うまく導入できている企業は少ないのが現状です。では、何が成功を妨げているのでしょうか。

(1)適切な人材不足

AI/機械学習の導入における最大の障壁は「スタッフのスキル」であると、多くの調査で指摘されています。日本でも多くの企業がデジタルトランスフォーメーションに取り組み始めた結果、この問題は顕在化してきています。機械学習だけを対象としても、必要な関連技術は多岐にわたります。

しかし、このすべての技術を理解し実務に活用できる人はなかなか存在しません。いたとしても、雇用するには高額ですし、すぐに転職してしまうという問題もあります。機械学習の結果が必要になる度に外注することもできますが、結局高額になり自社のノウハウも蓄積しません。また、全社的に大きなインパクトを出すには、優秀なデータサイエンティストを数人雇うより、多くの社員の底上げによるデータ戦略を検討する方が有効とも言われます。

(2)技術の分断と、チームの分断

利用する技術分野が広いことから、技術ごとに異なるツールを選択する場合もあるでしょう。しかし、ある調査では、AI/機械学習の導入における障壁調査の結果で、ツールに関する最大の障壁に「統合の複雑さ」が挙がりました。各技術分野で最適化されていても、技術は分断されており、それらをつなげることが難しいのです。

次の図は、データ活用に関わる技術を世界地図のかたちでDataikuが図示したものです。一つの世界ではあるものの、各技術領域で分断されていることを表しています。このことからも、AI/機械学習に取り組む際、予測精度だけを極めても実務での成功は難しいとわかります。MLOps(機械学習の運用化)まで検討することが重要です。

  • 機械学習のほか、ウェアハウス、NoSQL、データカタログ、可視化、データクレンジング、統計、インフラ、分散処理、開発環境、ノートブック、オーケストレーター、リアルタイムの領域に分かれていることを説明する図

    機械学習のほか、ウェアハウス、NoSQL、データカタログ、可視化、データクレンジング、統計、インフラ、分散処理、開発環境、ノートブック、オーケストレーター、リアルタイムの領域に分かれている。

技術の分断が発生することは、必然的にチームごとに人の分断も発生します。チーム間の連携が希薄で、コミュニケーションが足りなくなると、プロジェクト成功から遠のきます。

  • それぞれの担当業務に特化した製品を使う場合の図

    左にいる各役割の人は、それぞれの担当業務に特化した製品を使うため、役割・技術ごとに閉じている環境では異なる役割のチームが何をしているか俯瞰できず、コラボレーションできない。

3. AI/機械学習の障壁を解決するDataiku(データイク)

これらのAI/機械学習の障壁を打破するプラットフォームとして、「Dataiku」は活用されています。Dataikuとは、機械学習の最初から最後までを行えるAI/機械学習のプラットフォームです。すなわち、データ接続、データ変換、可視化、機械学習、デプロイ、運用のすべてをたった1つの製品でカバーできます。

(1)人材育成の手段として活用

Dataikuはフランス創業の企業で、欧米を中心にすでに450社以上のお客様にご採用いただいています。その理由の多くに、Dataikuは「AI人材の育成に最適」とご回答いただいています。Dataikuは、データ変換や機械学習モデル構築など、各ステップをクリック操作でビジュアル的に使うこともできますし、好きな言語でコードを書くこともできます。従来、データの利用はExcelのみだった方々も、研修を受けながらDataikuでAI/機械学習のセルフサービス分析ができるようになっています。使いやすさの評価が高い製品なので、とっつきやすく習得しやすいことが特徴です。同時に、データサイエンティストが満足できるような様々な機能も提供しています。

  • Dataikuの説明図

    AI/機械学習に関する最初から最後までのプロセスをカバーし、様々な役割の人が一緒に使える。さらにその使い方はGUI操作のみ・フルコードどちらにも対応している。

(2)ツール間の橋渡しとして機能

Dataikuはプラットフォームなので、前出の世界地図にあった様々な技術領域の上に、1つのレイヤーを配置するイメージで技術間の橋渡しをして、技術のサイロ化を取り除きます。たとえば、AWS上にDataikuを構築し、Dataiku上の操作でS3からSnowflakeにデータを移し、Snowflakeのエンジンで計算し、Jupyter Notebookを開き、出力結果をSnowflakeに格納しつつ、Tableau Serverに直接パブリッシュするなど、Dataikuを中心に様々な技術を活用できます。

  • Dataikuの説明図

    Dataikuは、様々な既存技術を組み合わせてAI/機械学習のプロジェクトを進められるプラットフォームとして機能する。

AI/機械学習に関わるすべてのチームは、一箇所ですべてのデータ関連タスクを実行できるので、協力しながらプロジェクトを進められます。今後、最新の技術が出てきたときも、既存の技術やスキルを活用しつつ、新しい技術を容易に試して既存のプロジェクトに取り込むことができます。

  • Dataikuを使用した場合のプロジェクト進行の様子

    チームの分断から、チームのコラボレーションへと導く。1つのプラットフォームなので、ガバナンスや監査の面でも管理しやすい。

4. DataikuとSnowflakeの連携

Snowflakeを併せて活用すると、Snowflakeのデータや高性能エンジンを十分に活かせるので、柔軟でパフォーマンスの優れたAI/機械学習が実現します。

データソースとして、SnowflakeやSnowflakeデータマーケットプレイスに接続し、Snowflakeに出力結果を格納できます。また、Dataikuはプッシュダウンアーキテクチャーを採用しているので、Dataikuで設計したデータ変換処理や、機械学習モデルのスコアリングを、パワフルなSnowflake側のエンジンで実行できます。

  • DataikuとSnowflakeの連携 データソースとしてだけでなくエンジンとして活用可能

    DataikuでSnowflake連携をする場合、Snowflakeはデータソースとしてだけでなく、エンジンとして活用できる。

Snowflakeはデータのサイロ化を取り除くことを使命としており、Dataikuは技術や人のサイロ化を取り除くことを使命としているので、思想が近く、製品としても親和性があります。また、Dataikuは、Snowflakeから投資を受けており、SnowflakeのPartner of the Yearにも選ばれている関係性にあり、日本でもコラボレーションを始めているところです。

  • Snowflakeと連携した、Dataikuの画面イメージ

    Snowflakeと連携した、Dataikuの画面イメージ。Dataikuのプロセスは、データパイプラインのフローで表現される。

5. 最後に

Snowflakeのデータクラウドによって、組織内のデータのみならず、取得するのに手間も時間もかかる外部データまでもがすぐに手に入るようになります。コードを書かない人でも取得できるデータの範囲が大幅に広がり、ビジネスアナリストもビジネス知識を元に、価値ある分析結果を得られやすいです。

それらのデータを組み合わせて変換し、予測やクラスタリングなど機械学習の結果を出して運用するときも、Dataikuなら1つの製品上でクリックしていくだけで実現します。各処理では、ユーザーが意識することなく、DataikuはSnowflakeに計算処理を渡して、高速で結果を受け取ります。

Dataikuは、戦略的な意思決定から日常業務まで、日々の業務で自然にAIを組み込む世界「Everyday AI」を実現したいと考えています。みなさまも早速、SnowflakeとDataikuのパワフルなコラボレーションをお試しください。SnowflakeのPartner Connectから、SaaS版のDataiku Onlineが無料トライアルできます。

▼無料トライアルはこちらから

  • DataikuとSnowflakeの連携 無料トライアルの図

■関連リンク


Dataiku トライアルはこちらから
製品デモはこちらから

■松島 七衣氏 著書情報
Tableauによる最強・最速のデータ可視化テクニック ~データ加工からダッシュボード作成まで~
Tableauによる最適なダッシュボードの作成と最速のデータ分析テクニック〜優れたビジュアル表現と問題解決のヒント〜
Tableauユーザーのための伝わる! わかる! データ分析×ビジュアル表現トレーニング~演習で身につく実践的な即戦力スキル~

※本記事はSnowflake、Dataikuから提供を受けております。

[PR]提供:Snowflake