はじめに
前回記事では、Azure Machine Learnig Studio(以下MLStudio)の基本的な使用方法をご紹介しました。モジュールを検索し、ドラッグ&ドロップしてプロパティを修正する、という一連の流れは思ったよりも簡単だったのではないでしょうか。
今回は前回作成したワークスペースと、その中に実装したサンプルデータセットを使用して機械学習のモデルをトレーニング(学習)します。またそのモデルを使って予測を行い、モデルの精度を評価します。
今回作成する機械学習の内容
前回記事で使用した「Adult Census Income Binary Classification dataset」は、年齢や学歴、性別などの属性に対して収入が5万ドル上か、以下を示すデータです。収入は「income」という名称で一番右の列に存在しています。
このデータを利用して、人の属性値を与えると収入が5万ドル以下か、以上かを分類する機械学習のモデルをトレーニングします。
今回のように、答えがわかっているデータをもとに機械学習モデルを構築することを「教師あり学習」と呼び、教師あり学習によって作成する分類のためのモデルのことをClassificationと言います。今回はこのClassificationを作成します。
前回の状態の確認
まずは前回記事で作成した状態を確認しましょう。
「Adult Census Income Binary Classification dataset」というサンプルデータセットを入力にして、「Select Columns in Dataset」モジュールを使用して不要な列を除去しました。そして「Split Data」モジュールを使用してデータを75%と25%になるように分割しました。
一度ここで全体を実行しておきましょう。画面下部の「RUN」アイコンをクリックして、実行します。正常終了すると「Select Columns in Dataset」モジュールと「Split Data」モジュールに緑色のレ点が表示されます。