いまやデータサイエンスはあらゆる分野において需要が高まっています。そうしたなか、各専門領域で培われてきた知見と、最新のデータサイエンスの融合を図りつつ、双方のスキルを兼ね備えた実践的な人材の育成を進めているのが、私学の雄としても名高い早稲田大学です。同大学では、データサイエンス人材育成の一環として「早稲田大学データサイエンスコンペティション」を開催しており、初開催となる 2019 年は参議院選挙の当落予測をテーマに競いました。そして第 2 回目となるコンペティションは、2020 年 11 月 28 日、オンラインで開催され、株式会社 ADKマーケティング・ソリューションズ(以下、ADK)から提供された生活者総合調査等によるマーケティングデータをもとに、各チームが自由にテーマを設定し、分析・発表を行いました。

専門性とデータサイエンスの融合を目指した学生参加型コンペ

今回のコンペティションは、早稲田大学のデータ科学センターと商学学術院の共同主催となります。データ科学センターは、同大学におけるデータサイエンス人材育成の核となる組織であり、2017 年 12 月に設立されました。理工系・人文社会系の専門領域で得られた知見と、最新のデータ科学との融合を学部の枠を越えて図るプラットフォームを提供しています。また、商学学術院は、商学部、商学研究科、会計研究科、経営管理研究科、産業経営研究所、ビジネス・ファイナンス研究センターからなる教員組織となっています。

今回は早稲田大学のさまざまな学部・研究科から 2020 年 7 月にエントリーをした総勢 42 チームのうち、33 チームが 11 月に発表資料を提出しています。コンペティション当日、予選では 4 グループに分かれて全 33 チームがプレゼンを行い、決勝では予選を通過した 10 チームが再度プレゼンを行いました。決勝の冒頭では、商学学術院の教授、高瀬 浩一 氏が、商学学術院長の横山 将義 氏の開会挨拶を代読し、「このコンペティションが、高度なデータ分析能力を持った実践的な人材育成の一助となれば幸いです」と意気込みを語りました。

興味を抱きやすいデータが、多様な専門分野からの参加を促す

  • 早稲田大学 データ科学センター 教授 野村 亮 氏

    早稲田大学 データ科学センター 教授 野村 亮 氏

  • 早稲田大学 商学学術院 教授 守口 剛 氏

    早稲田大学 商学学術院 教授 守口 剛 氏

当日の司会も務めた、早稲田大学データ科学センター教授の野村 亮 氏は、今回のデータサイエンスコンペティションとその狙いについて次のように話します。

「前回のコンペティションは政治経済学術院との共同開催で、選挙の当落予測という 1 つの目的のために、オープンデータであれば何を使用してもかまいませんでした。しかし今回は、データは ADK から提供いただいたマーケティングデータに定まっていて、その利用目的やストーリーについては自由であり参加者が自分達で決めるため、前回とは対象的なアプローチといえます。データの親和性は商学系に近いですが、本学の全研究科が対象となり得るため、幅広い専門分野から参加者が集い、自分たちのスキルを自由に活かせるコンペとなりました。データサイエンスの理論を理解していてスキルもあったとしても、実際のデータを扱う機会というのは実は授業でもなかなか得られないので、こうしたコンペティションを通じて体験してもらうことは大いに意義があると考えています」(野村 亮 氏)。

同大学商学学術院の守口 剛 教授も「今回の対象となったマーケティングデータは、購入している製品や利用しているサービスといった一般的なものから、趣味や幸福度に至るまで、項目が非常に多岐にわたっています。そのため、たとえばどういった価値観を持ち、日常的にどのような行動をしている人は幸福度が高いのかなど、ふだんは考えもしなかった観点から分析が可能となりました。商学学術院のみならず、広い専門領域の学生にも興味を持ってもらえたと思います」と、続けます。

早稲田大学 データ科学センター 教授 小林 学 氏

早稲田大学 データ科学センター 教授 小林 学 氏

さらに、データ科学センター教授の小林 学 氏は、「興味を持ちやすいデータであるのに加えて、コンペティションに使ったデータをそのまま参加者自身の研究に引き続いて利用できるという点も大きいでしょう」とコメントしました。

参加チームの過半数が分析基盤に「Azure Machine Learning」を活用

今回のデータサイエンスコンペティションでは、マイクロソフトが提供する機械学習プラットフォーム「Azure Machine Learning」を選択できるようになっており、33 チーム中 18 チームが Azure Machine Learning をデータ分析の基盤として活用しました。中でも、Azure Machine Learning でドラッグ&ドロップ操作でデータの前処理、モデル構築、デプロイができるデザイナー機能を使ったチームもあり、ノートブック環境でプログラムを使って分析した学生ばかりでなく、データサイエンス、プログラミングの専門性が高くない学生の参加障壁も下げました。

「当初は想定していなかったコロナ禍の影響で、学生達が集って議論や作業をするのが難しい状況となりましたが、これを受けて急遽マイクロソフトが Azure Machine Learning でのオンライン分析環境を提供してくれました。学生達も感度が高いので新しいものにどんどん挑戦しようと積極的に活用し、Azure Machine Learning 自体に関する質問にはマイクロソフトの担当者が親身に応じてくれたので、とても助かりましたね」(小林 氏)。

野村 氏も「今回、実データを扱うためセキュリティ面への配慮も課題でしたが、毎回データをローカルに落とす必要なく、クラウド上で安全に活用できる環境であることも我々のニーズに合致していました。Azure Machine Learning のような最新の分析環境を学生達が自由に利用できるというのは、教育的な観点からもメリットが大きいといえるでしょう」と続けました。また、各チームが使えるコンピューティング リソースに制限を設けるなど、ガバナンスの面でもAzure Machine Learning の恩恵を受けることができたといいます。

異なる学部から集ったメンバーが示したコラボレーション力

当日は審査の結果、最終的に 2 つのチームが最優秀賞を受賞しました。そのうちの 1 チーム「”De AI” がないのは香水のせい」は、機械学習を使った人と人とのマッチングアプリを作成し、その着眼点のユニークさや、対してアプローチは学術的である点などが高く評価されました。同チームは、データサイエンス研究会というサークルのメンバーから募った学部の異なる 4 人で構成されています。

リーダーを務めた、大学院 経済学 研究科 修士 1 年の原 健人 氏は「4 人それぞれ異なる役割を担いました。自分と字井 氏は機械学習やアプリ開発の経験はあまりありませんが、他の 2 人は開発スキルがあるため、各メンバーの長所を活かせるようコラボレーションに重きを置きました」と振り返ります。

  • 早稲田大学 大学院 経済学 研究科 修士 1 年 原 健人 氏

    早稲田大学 大学院 経済学 研究科 修士 1 年 原 健人 氏

  • 早稲田大学 政治経済学部 政治学科 3 年 字井 崇晴 氏

    早稲田大学 政治経済学部 政治学科 3 年 字井 崇晴 氏

機械学習を用いたマッチングアプリを提案したのが字井 崇晴 氏です。「最近マッチングアプリが流行っているようですが、そこでマッチングの参考にする本人の価値観や趣味といった属性は、質問ベースであるため嘘をつくことも可能ですし、そもそもどこまで自分自身のことを認識しているのかも疑問ですよね。そこで、消費行動という揺るがない客観的事実から価値観を予測してマッチングすれば、より正確なマッチングアプリを実現できるのではと考えました」と同氏は言います。

開発にも携わった、人間科学部 人間情報科学科 3 年の竹内 啓人 氏は「チーム結成に当たって最初に合意したのが、とにかく“楽しむ”のを大事にしようということでした。なので字井 氏のアイデアを見て全員がこれならば楽しそうだと納得できましたね」と話しました。

こうして実際に完成したマッチングアプリでは、初回の利用登録時に日頃の消費行動に関する約 60 項目にもおよぶ質問への回答が求められます。その回答結果は主成分分析により、「上昇指向か安定指向か」「個人指向か集団指向か」「仕事指向か趣味指向か」という 3 つの軸で判断され、その人の価値観を推測しました。その結果、アプリの正答率は約 75% という高い値を示したといいます。

「目標は 80% だったので満足はしていませんが、もし実際に広く使われたらよりよいデータが取れて正答率も上がる可能性がありますし、今後につながるという意味で及第点かなと思っています。ただ、チームでの取り組みを通じて機械学習を学ぶうちに、自分と字井氏は機械学習の経験があまりなかったからこそ、当初の高い目標の“夢”を見られたのかも、と話しています」(原 氏)。

また、開発の中心となった商学部 2 年の鈴木 晟矢 氏は、Azure Machine Learning の使い勝手について次のようにコメントしました。

「ふだんから Jupyter Notebook を使っているので、今回も Azure Machine Learning の『ノートブック』で Python のコードを書きましたが、新しい操作方法を覚えなくてもすんなりと開発を進めることができました。特にチームで開発するに当たって、クラウド上でデータを共有できるのは大きなメリットだと実感しました。セキュリティ上ローカルには保存できないようなデータでもクラウド上でセキュアに共有できますし、分析結果をチームですぐに共有しながら意見を交わせるのもスピーディーな開発につながりました。ただ、今回は Azure Machine Learning ならではの機能は使わなかったので、今後はさまざまな機能も試してみたいです」(鈴木 氏)。

  • 早稲田大学 人間科学部 人間情報科学科 3 年 竹内 啓人 氏

    早稲田大学 人間科学部 人間情報科学科 3 年 竹内 啓人 氏

  • 早稲田大学 商学部 2 年 鈴木 晟矢 氏

    早稲田大学 商学部 2 年 鈴木 晟矢 氏

最後に、野村 氏は3回目のデータサイエンスコンペティションを見据えてこう締めくくりました。

「このチームのメンバーそれぞれの発言からも、やはり実データを使用して意図した結果が得られると、やる気もぐんと上がるのだと実感しました。学ぶ意欲を引き出すというのも大学としてはとても重要な役割ですので、まだ次回のテーマは決まっていませんが、ぜひ今年も開催できるよう引き続き取り組んでいきたいですね」(野村 氏)。

[PR]提供:日本マイクロソフト