こんにちは、CCCマーケティング株式会社 データベースマーケティングの森田です。今回からデータ分析や機械学習初学者向けに、今注目を集めているデータ分析の世界大会「Kaggle」に関する連載を行います。

簡単に私の自己紹介をすると、前職は機械学習とは縁が無い職種だったのですが、独学で後述するKaggleExpertになり、技術開発チームにジョインしました。そのような経緯もあり、第一回は導入パートとしてKaggleの紹介と、参加する意義について書きたいと思います。

Kaggleとは?

Kaggleは企業や団体がデータ分析や機械学習モデル作成に関するお題を出し、それに対して世界中の参加者が精度を競うプラットフォームです。

  • Kaggleのイメージ図

常時10前後のコンペが開催されており、数百人~数千人の参加者が競い合っています。(多くのコンペでは、5位以内に入ると賞金が貰えます。過去には賞金総額1億円超えのコンペも!)

1コンペの開催期間は通常1~3か月で、社会人でも業後や休日を使って参加できるのはメリットですよね。近年Google検索トレンドでも人工知能やビッグデータ等のバズワードと共に右肩上がりを続けており、日本語のKaggle本も出版されるなど日本での注目度が上がっています。

  • 「Kaggle」のGoogle検索トレンド

Kaggleに参加するメリット

1. 生のビッグデータに触れられる!

データ分析や機械学習を学ぶ上で大きな障害の1つとなるのが、「ビッグデータが身近にない」ことだと思います。業務でビッグデータを扱っていないと、本やオンライン学習等で理論やライブラリの使い方を学んでも、実際にモデルの作成や予測をすることができませんよね。

そんな人でも、気軽に実データを扱えるのがKaggleに参加する最大のメリットだと思います。例えば以下は私が参加したコンペのお題です。

  • 50万件のクレジットカード等の決済履歴から、不正取引を検出する

  • 25万件の米アメフトの試合データを使用し、未来の試合結果を予測する

  • 6000万件の米小売大手の売上履歴を使い、未来の売上を予測する

参加者はこうした実データにアクセスすることができ、本や一般的な教育プログラムにはない実践的な学びを得ることができますし、データ分析に携わる人でもKaggleで得たデータハンドリング技術は実務にも活きると思います。

2.対外的なスキルの証明になる!

Kaggleでは予測結果を投稿すると、このように自分の順位がリアルタイムに表示されます。

  • Kaggleのリーダーボード

やってみるとこれが面白くて、「1つでも順位を上げたい!」とのめり込んでしまいます。また、Kaggleには称号というものがあり、過去のコンペの実績に応じて以下の4段階に分かれています。

  • Kagglerの人口構成

機械学習エンジニアやデータサイエンティストの求人要件欄を見ると「Kaggleで上位○○%の実績」といった文言を少なからず目にします。それくらいKaggleの実績が対外的にスキルをアピールできる指標として使われ始めている印象です。また、Kaggleハイランカーの存在を自社の技術力をアピールする手段として使用する企業もあります。

現在日本人のGrandMasterは10名程度と言われていますが、「Kaggle Grandmaster」で検索すると所属企業の名前入りでインタビュー記事や講演記事が沢山出てきて、各社の実務の中でも活躍されているようです。

Kaggleに参加するメリットはビジネスインパクト上でも大きいと言えます。データベースマーケティング研究所でも、業務の一環としてKaggleにチャレンジしています。

おわりに

これをきっかけにKagglerが増えてくれたら嬉しいですね。次回はKaggleに実際に登録して、コンペに投稿する所までを解説したいと思います。お楽しみに!

本記事は、CCC MARKETING TECH BLOGを、再編集して転載したものです。

[著者]
森田岳大

CCCマーケティング株式会社
データベースマーケティング研究所
技術開発ユニット

新卒入社した都市銀行で法人営業を経験後、一念発起し機械学習を独学、現職に転向。現在はリテール企業向けのIoTデバイス開発・画像解析プロジェクトに従事。趣味は野球観戦、ラーメン巡りなど。