今回、プログラムの前段階にあたる「データサイエンティスト数学基礎」講座にお邪魔した。「数学」とのことだが、データサイエンティストは高度な数式を使いこなせなければならないのだろうか。

「コンピュータープログラムの中は数式が基になっていますが、数学そのものがデータ分析の仕事で積極的に使われるわけではありません。プログラムの上にはソフトウェアがあるので、ソフトウェアの使い方さえマスターすれば、AIやデータを活用することはできるでしょう。しかし、このままだと、何が起きているのかはわかっていない状態。ブラックボックスのまま使っているので、完全に使いこなせているわけではありません。データ分析の道具をうまく使いこなすためには各道具のクセを知らなければならず、そのために数学が必要だというイメージですね。特に今回の講座はあくまで導入。苦手意識を持っている人が数学に慣れるために、想定されるシーンと関連する数学分野を把握しておくという内容です」(堅田氏)

今回は基礎中の基礎である数学に慣れるというステップ。高校1~2年で習う数学の復習で、泳げない人がまずは水に触ってみようというレベルだ。

  • 講義の様子

    講義の様子

では、実際に配布されたテキストの一部を見てみよう。まずは想定シーンから数学的なアプローチを把握する。

たとえば、EC会員の商品カテゴリー別購入アイテム数のデータから、購入タイプの似ている人同士をグルーピングし、そのグループごとのニーズに合致したメルマガを送りたい場合、顧客それぞれのパターンを「数値ベクトル」で表してから、分類するというアプローチが可能だ。数値データとしてまとめられたビジネス活動の過程や結果については、「行列」の概念を理解していれば取り扱いが楽になるのだという。

  • 実際に配布されたテキストの一部

    アパレルEC会員の商品カテゴリー別購入アイテム数

「関数」を活用すれば、販売実績に基づいて将来の販売台数予測と広告量の効果を予測可能だ。もちろん広告の質や種類などによっても変わってくるが、たとえば、「販売台数=広告の影響度×広告量」という方程式を作ると、これまでのデータからだいたいの影響度を数値化することができる。そこから、販売目標に対してどの程度の広告量が必要かシミュレーション可能というわけだ。

また、「微分」を使えば売上の最大化やコストの最小化などを微分係数=0のポイントから導き出すことができるのだという。

  • 実際に配布されたテキストの一部

    自動車の月別販売台数と広告量

そのほか講義では、高校生時代に見たことあるような、ないような数学の練習問題に取り組んでいた。正直、筆者にはまったく理解できなかったが、同講義はあくまで数学の苦手意識を払拭することが目的。正解できるかどうか重要ではない。

引き続き、深刻な人材不足が続きそうなデータサイエンティスト。AIは日々進化し、データ活用の重要性もますます高まっている中で、その存在は非常に価値あるものだといえよう。磨いた能力を存分に発揮できるステージは、すでに整っている。