ISC 2016で最初の基調講演を行ったのは、Baidu(百度)のChief ScientistのAndrew Ng氏である。Ng氏は、スタンフォード大学の准教授も務める人工知能関係では、有名な研究者であり、基調講演のタイトルは"How HPC is supercharging AI"というものである。

ISC 2016の基調講演を行うBaiduのAndrew Ng氏

ニューラルネットとは何かというと、例えば、入力データとなる写真を見て、それがコーヒーマグの写真かどうかをYes/Noで回答する。つまり、視神経から脳までの系と同じような機能を持たせることができる。

ニューラルネットは入力画像がコーヒマグかどうかを判定し、Yes/Noで答えを返す。○が人工のニューロンを表し、青の矢印がニューロン間の接続を表している。実際のニューラルネットでは、ニューロンの数、ニューロン間の接続の数は膨大な数になるが、ここでは模式的に簡単に描かれている (出典:この連載の図はAndrew Ng氏のISC 2016でも基調講演のスライドを撮影したものである)

最初は「Supervised Learning」と言って、マグの写真にはYes、そうでない写真にはNoが正しい答えであることが書いてある教師付きのデータを使って学習を行わせる。

最初は、Yes/Noの正解が付けられているデータを使って学習を行う

このような学習は以前から行われてきていたのであるが、あまり大きな成果はあがっていなかった。それが最近になって急速に精度が向上し、ディープラーニングが離陸し始めてきているのは、ロケットを打ち上げるエンジンが強力になり、それに加えて大量の燃料が使えるようになったことが効いているという。ここでいうエンジンは大規模なニューラルネットワークで、もう1つの燃料に相当するのは大量の学習データである。大規模なネットワークで大量のデータを使う計算が現実的な時間で行えるようになったのは、コンピュータの性能向上によるものである。また、大量の写真などの入力データが比較的容易に集められるようになったのはWebの発達によるところが大きい。

ディープラーニングが離陸し始めているのは、ロケットエンジンが強力になり、大量の燃料が使えるようになったからである。ここで言う強力エンジンは大規模なニューラルネットワーク、燃料は学習データである

1個のCPUを使って計算していた2007年ころは1M(100万)コネクション程度のニューラルネットワークしか扱えなかったが、2008年にGPUを使うようになり10Mコネクションが扱えるようになった。そして2011年にはクラウドで多数のCPUが使えるようになって1B(10億)コネクションのネットワーク、2015年にはHPCが使えるようになり、10B(100億)コネクションのネットワークが扱えるというように、コンピュータの発展で、扱えるネットワークの規模が拡大してきている。

単一CPUでは100万コネクションのネットワークしか扱えなかったが、コンピュータの高性能化で、扱えるネットワークの規模が拡大してきた

昔の音声認識では、オーディオの波形から音素を切り出し、それを言語モデルに当てはめて意味の通る文章を作り上げていた。

昔の音声認識では、音素を切り出して認識し、それを言語モデルにあてはめて修正して認識結果として出力していた

しかし、BaiduのDeep Speechでは次々と1文字ずつを推測するネットワークが並んでいる「Recurrent Neural Network(RNN)」を使い、並列処理を行っている。RNNは時系列のデータを扱うために考案されたネットワークで、各タイムスロットを担当する多数のネットワークが並んでいる。