プログラミングなしでもできる機械学習(3) GUIで簡単データ分析！RapidMiner(新機能編)

「RapidMiner」は、GUI上で簡単にデータの「可視化」「前処理」「機械学習」が行えるツールです。前回の基礎編では、データの取り込みや可視化、前処理、モデル作成などの基本的な操作方法を紹介しました。

今回は新機能編として、より簡単・便利にデータ分析を可能にする新機能や、導入に適した事例を紹介します。

Auto Model：クリック操作だけでモデルを作成・比較

基礎編では、手動で分析フローを組んでいきました。これだけでもプログラミングが不要で簡単なのですが、新機能「Auto Model」を活用すると、ウィザード的なクリック操作だけで、一連の分析フローを自動的に作成し、精度の比較まで可能にしてくれます。

機械学習にあまり詳しくない方にとって大いに役立つ機能であり、また、ある程度詳しい方にとってもモデル作成時の"あたり"をつける上で便利な機能です。

(1)学習方法の選択

では具体的な操作を説明していきます。まず、実行したい学習方法を「予測」「クラスタリング」「外れ値識別」の中から選びます(図1)。例えば、"教師あり学習"で"予測"する場合は、"目的変数"となる行(予測したい値)をクリックすると、オレンジ色で目的変数が設定されます。

学習方法の選択画面

(2)説明変数の選択

次に、「NEXT」のボタンをクリックすると、"説明変数"の選択画面に移ります(図2)。

Auto Modelでは、説明変数における要素「相関性」「欠損値の割合」「値がほぼ全て異なる」「値がほぼ全て同一」などを自動的に認識し、予測に有効な変数かどうかを判断します。

その判断結果は、「Status」の項目で一目で確認できます(緑色＝有効、黄色＝中立、赤＝有効ではない)。通常の機械学習では、変数が増えると、一つ一つの変数を選択して評価する手間が必要になりますが、Auto Modelではこの作業が自動化されます。

説明変数の選択画面

(3)アルゴリズムの選択

最後に、アルゴリズム(Models)を選択します(図3)。学習方法が"教師あり学習"の"予測"であれば、分類や回帰のアルゴリズムが自動的に選択肢として表示されます。同様に、学習方法が"クラスタリング"であれば、"教師なし学習"のアルゴリズム群が自動的に表示されます。

ここでは、精度を比較するために、複数のアルゴリズムを選択できます。さらに、機械学習の中でも特に難易度の高いパラメータ調整を自動化する機能もあり、予測精度を向上させることができます。

アルゴリズムの選択画面

(4)精度の比較

Auto Modelでは、分析フローの作成を自動化するだけではなく、複数の評価指標から作成したモデルの精度を比較できます(図4) 。また、各モデルの詳細な結果も確認可能です。例えば、Tree系のアルゴリズムであれば、その決定木の構造を確認できたり、アルゴリズムによっては変数の重要度をランキングで表示できたり、予測時の変数の寄与度を確認できたりします。

(5)作成したモデルのフローの確認

なお、自動モデル作成のツールでは、作成したモデルのフローがブラックボックス化になりがちですが、Auto Modelでは、自動で作成されたモデルのフローを「Open Process」機能で確認することが可能です(図5)。中身は複雑になりますが、モデルのフローを調べるには必要な機能です。

自動で作成したモデルのフローも可視化可能

Turbo Prep：直感的操作でデータを前処理

ここまで、Auto Modelによる分析モデル作成の自動化を説明してきました。その一方で、データの前処理も重要で、データ分析工程の約8割を占めると言われています。

基礎編で紹介したように、手動で、「Design」画面の「Operator」からデータ加工方法やアルゴリズムを選択・組み合わせて前処理することも可能です。しかし、Operatorには多くの処理方法を含んでいるため、実装したい処理を探すことは、慣れない人には難しい作業です。

これに対して、新機能である「Turbo Prep」では、データを見ながら直感的にデータの前処理操作が可能です。変数同士の掛け合わせや、リネーム、マージなどのさまざまな前処理が可能です(図6)。

「Turbo Prep」機能による、直感的なデータ前処理

モデルを実装する最新機能

先日、最新機能である「Deployments」が公開されました。モデルを作成すると、実データで予測を行いたいというニーズがあります。Deploymentsは、実際にモデルを実装・運用可能にする機能です。

具体的には、データベースのデータソースに直接接続して、未知のデータに対してモデルを実装するほか、実装中の複数モデルによる予測精度の比較、複数モデルの管理、異常値を認識した際のアラート、Webサービスと連携した予測結果のフィードバックなどが可能です(一部の機能に関しては、RapidMinerのサーバライセンスが必要です)。

AI・機械学習は、モデル作成から実装のフェーズに移ろうとしていますが、これに合わせてRapidMinerも進化を続けています。

RapidMinerが"刺さった"事例

最後に、実際にRapidMinerを高く評価いただいた事例を紹介します。

製造業のお客様では、製品の不良品判定、製造品質の改善、設備保全を目的としてデータ分析するケースが多くあります。しかし、取り扱うデータが製造現場の独自のものであることから、プロジェクトを外部に委託することが困難です。そこで、データを扱える人を現場で育てたいという需要がありますが、製造現場を支えることが本来の仕事であり、データ分析のためにプログラミングを習得するにはハードルが高いという課題があります。

こうしたお客様には、プログラミングが不要なRapidMinerが深く刺さるケースが多くあります。

そのほか、同様の動機から、企業のマーケティングや働き方改革のためのデータ分析にも使われています。

ここまで、基礎編・最新機能編と、2回にわたってRapidMinerを紹介してきました。RapidMinerは、今までBIツールやエクセルでデータを可視化・活用していた方が、データ分析のフェーズに進む際に有用なツールと言えるでしょう。

著者プロフィール

伊藤千輝

ネットワンシステムズ株式会社
ビジネス開発本部第１応用技術部

2016年にネットワンシステムズに新卒で入社。学生時代に学んだAI技術・データサイエンスを生かし、産学連携の推進やデータ分析・機械学習に関連するコンサルティング・製品販売・教育に従事。他にも、製造業のスマートファクトリー実現に向けた製品の技術検証やプリセールス活動を担当している。

GUIで簡単データ分析！RapidMiner(新機能編)

Auto Model：クリック操作だけでモデルを作成・比較

(1)学習方法の選択

(2)説明変数の選択

(3)アルゴリズムの選択

(4)精度の比較

(5)作成したモデルのフローの確認

Turbo Prep：直感的操作でデータを前処理

モデルを実装する最新機能

RapidMinerが"刺さった"事例

伊藤千輝

この連載の前後回

AIが勧める、あなたのための会員限定記事

Tower、日本でシリコンフォトニクス/SiGe半導体生産投資を計画　経産省が最大約1600億円を助成

熱中症対策は「個人任せ」からデータ管理へ、マクニカが暑熱環境を可視化

富士フイルム、デジタルツインで半導体材料開発を加速　CMPスラリの売上目標を前倒しに手ごたえ

孫氏「全社が穴だらけ」と危機感　ソフトバンク、AI脆弱性診断・対策サービスを3,000社に本格提供

サムスンが龍仁での2棟の新メモリファブ稼働を2029年に前倒しへ、海外メディア報道

ゼロからLLMプロンプトエンジニアリング第13回既存WebサービスをAIエージェントで改良してみよう

編集部が選ぶ関連記事

プログラミングなしでもできる機械学習第1回プログラミングが不要な機械学習の代表的なツールとは？

シリコンバレー101 第815回物流のAI分析でウィンブルドンを制したジョコヴィッチ

ここだけは押さえておきたい！AIを有効活用するためのポイント第4回 AIは仕事を奪う? AI開発のために生まれた「新たな仕事」とは

AWSの機械学習サービス「Amazon Personalize」「Forecast」の特徴とは？

情シスのタマちゃん３第52回まずは再起動！

ソフトバンク、OpenAIの技術活かし脆弱性診断・修正する「Patching as a Service」

電通、工場特化型のエンゲージメント向上プログラムを提供開始

ソフトバンクと米Sierraが戦略的連携、対話型AIプラットフォームを国内独占販売

ソフトバンク、自社ノウハウ活用した企業向け「AIガバナンス策定支援サービス」

航空機の技術とメカニズムの裏側第546回軍用輸送機は巨大な車輪をどう収納するのか - 降着装置は複雑怪奇(2)|軍用輸送機(8)

このカテゴリーについて

GUIで簡単データ分析！RapidMiner(新機能編)

Auto Model：クリック操作だけでモデルを作成・比較

(1)学習方法の選択

(2)説明変数の選択

(3)アルゴリズムの選択

(4)精度の比較

(5)作成したモデルのフローの確認

Turbo Prep：直感的操作でデータを前処理

モデルを実装する最新機能

RapidMinerが"刺さった"事例

伊藤 千輝

この連載の前後回

AIが勧める、あなたのための会員限定記事

Tower、日本でシリコンフォトニクス/SiGe半導体生産投資を計画 経産省が最大約1600億円を助成

熱中症対策は「個人任せ」からデータ管理へ、マクニカが暑熱環境を可視化

富士フイルム、デジタルツインで半導体材料開発を加速 CMPスラリの売上目標を前倒しに手ごたえ

孫氏「全社が穴だらけ」と危機感 ソフトバンク、AI脆弱性診断・対策サービスを3,000社に本格提供

サムスンが龍仁での2棟の新メモリファブ稼働を2029年に前倒しへ、海外メディア報道

ゼロからLLMプロンプトエンジニアリング 第13回 既存WebサービスをAIエージェントで改良してみよう

編集部が選ぶ関連記事

プログラミングなしでもできる機械学習 第1回 プログラミングが不要な機械学習の代表的なツールとは？

シリコンバレー101 第815回 物流のAI分析でウィンブルドンを制したジョコヴィッチ

ここだけは押さえておきたい！AIを有効活用するためのポイント 第4回 AIは仕事を奪う? AI開発のために生まれた「新たな仕事」とは

AWSの機械学習サービス「Amazon Personalize」「Forecast」の特徴とは？

情シスのタマちゃん３ 第52回 まずは再起動！

ソフトバンク、OpenAIの技術活かし脆弱性診断・修正する「Patching as a Service」

電通、工場特化型のエンゲージメント向上プログラムを提供開始

ソフトバンクと米Sierraが戦略的連携、対話型AIプラットフォームを国内独占販売

ソフトバンク、自社ノウハウ活用した企業向け「AIガバナンス策定支援サービス」

航空機の技術とメカニズムの裏側 第546回 軍用輸送機は巨大な車輪をどう収納するのか - 降着装置は複雑怪奇(2)|軍用輸送機(8)

このカテゴリーについて

伊藤千輝

Tower、日本でシリコンフォトニクス/SiGe半導体生産投資を計画　経産省が最大約1600億円を助成

富士フイルム、デジタルツインで半導体材料開発を加速　CMPスラリの売上目標を前倒しに手ごたえ

孫氏「全社が穴だらけ」と危機感　ソフトバンク、AI脆弱性診断・対策サービスを3,000社に本格提供

ゼロからLLMプロンプトエンジニアリング第13回既存WebサービスをAIエージェントで改良してみよう

プログラミングなしでもできる機械学習第1回プログラミングが不要な機械学習の代表的なツールとは？

シリコンバレー101 第815回物流のAI分析でウィンブルドンを制したジョコヴィッチ

ここだけは押さえておきたい！AIを有効活用するためのポイント第4回 AIは仕事を奪う? AI開発のために生まれた「新たな仕事」とは

情シスのタマちゃん３第52回まずは再起動！

航空機の技術とメカニズムの裏側第546回軍用輸送機は巨大な車輪をどう収納するのか - 降着装置は複雑怪奇(2)|軍用輸送機(8)