コンピュータアーキテクチャの話(372) ディープラーニングの入力の重みの値を決める「学習」

ディープラーニングの学習

しかし、精度の高い推論を行うためには、各ニューロンの入力の重みを適切な値に設定する必要がある。現在はより複雑なネットが開発されており、AlexNetは規模が小さいのであるが、それでも、65万個のニューロンを使っており、約6000万個の入力の重みの値を決めなければならない。これを決めるのが「学習(Learning)」である。

1変数のニュートンラプソン法では、y=f(x)の微分係数のdy/dxを計算し、xを調整してy=0になるようにしていくが、CNN(Convolutional Neural Network)の場合は変数(重み)の数が膨大であるので、Stochastic Gradient Descent(SGD)というアルゴリズムが使われる。

それぞれの重みに対する認識結果の誤差(学習の場合は、ロスと呼ばれる)の偏微分を計算し、その勾配が大きい方に重みを調整していく。ニュートンラプソン法でもそうであるが、1回の修正でロスがゼロになるように修正するのは過激で、補正しすぎて振動するなどしてしまい、上手くいかないので、通常、SGDでは、計算された値の1/1000とか1/10000の補正を行なう。そして、収束に近づくとこの比率をさらに小さくしていく。

ネットワークにもよるが、この調整を数10回から100回程度繰り返して、重みの値を収束させる。ILSVRC 2012の場合、AlexNetでは120,000画像を使って学習している。NVIDIAのGTX580 GPU(単精度のピーク演算性能は約1.58TFlops)を2個使い、この学習には5～6日を要している。

調整のループ回数を80回とすると、12,000画像の学習には、100万回の推論が必要となる。

入力重みの変化でロスがどう変化するかを求める

出力層の各出力が、各入力の変化でどう変わるかは、で表わされる。出力Yがn個あり、入力Xがm個あると、この値はn×mの行列になる。各出力が、各入力の重みの変化でどう変わるかはで表わされ、これもn×mの行列になる。

しかし、Yは、Yi= W₁*X₁+W₂*X₂+W₃*X₃、…のような1次式であるので、はWjであるし、はXjであるので計算は簡単である。そして、ReLUが付いている場合も出力が正であればそのまま、負であればゼロにすればよいので、これも簡単である。

問題は、前段の重みや入力の変化に対する最終出力の変化をどうやって求めるかである。そのやり方であるが、出力層をn層目とすると、その前のn-1層の出力が、n-1層の各入力や入力の重みの変化でどう影響を受けるかを求める。このやり方は、出力層の場合と同じである。

そして、図9-3に示すように、出力層nの最終出力の入力変化に対する偏微分の行列に、n-1層の出力のn-1層の入力の変化に対する偏微分の行列を掛ければ、最終出力に対するn-1層の入力の変化に対する偏微分が得られる。

ただし、n-1層の出力は、n層の複数のニューロンに繋がっているので、その接続に従って、1つの出力を複製してやる必要がある。

そして、この作業を入力層に到達するまで繰り返せば、すべての入力と重みに対する偏微分が求まる。この作業をBackward Propagationと言う。

図9-3 前段の入力や入力の重みが、最終出力にどう影響するかを求めるやり方

この説明から分かるように、大量の計算が必要となるのは、図9-3に示したパスに従って、各層の出力の入力と重みの変化に対する偏微分の行列を掛けて行くBackpropagationの作業である。つまり、学習も計算という点では、行列の乗算を繰り返すことになる。

そして、各層の入力の重みによる偏微分が求まると、この値に通常ηと書かれる小さな値を掛けて全ての入力の重みを更新する。ただし、ロスは非線形な関数であるので、一度でロスをゼロにすることはできず、この作業を繰り返してロスをゼロに近づける。

ディープラーニングの入力の重みの値を決める「学習」

ディープラーニングの学習

入力重みの変化でロスがどう変化するかを求める

この連載の前後回

Members+ 会員限定記事

Google Geminiの活用方法第2回 Google Geminiの使い方

PagerDuty、独自開発の運用に特化した生成AIについて説明

次世代移動通信システム「5G」とは第119回ソフトバンクがPayPayドームでARの実証、先端技術より枯れた技術のBLEを選んだ理由

FinOpsを実践するメルカリ、その道のりと気づき、今後の展望 - 前編

Box Japan、2024年度の振り返りを発表‐2025年度は「Box AI 元年」を目指す

米オラクルCEOキャッツ氏、日本に対する1.2兆円の投資の狙いを説明

編集部が選ぶ関連記事

Hisa Andoのディープラーニング挑戦記第1回 NVIDIAのDeep Learning Instituteを体験してみた

コンピュータアーキテクチャの話第371回 AlexNetの構造を読み解く

NVIDIAの次世代GPU「Volta」はGTC 2017で発表

AIやビッグデータの進化を加速させる半導体はGPUか? FPGAか? CPUか?

Intel、11億5000万ニューロンを実現したニューロモーフィック・システム「Hala Point」を開発

東北大、半導体とスピン素子による融合型確率論的コンピュータの性能を実証

ソフトバンクと理研が進める量子・スパコン連携は社会に何をもたらすのか？

36個のLSIによるスケーラブル全結合型イジングプロセッシングシステム、理科大が実機検証に成功

IBM Research本部のYorktown Heightsから見る、量子コンピュータの最前線

Cerebras、4兆トランジスタを搭載した第3世代WSE「WSE-3」を発表

このカテゴリーについて

ディープラーニングの入力の重みの値を決める「学習」

ディープラーニングの学習

入力重みの変化でロスがどう変化するかを求める

この連載の前後回

Members+ 会員限定記事

Google Geminiの活用方法 第2回 Google Geminiの使い方

PagerDuty、独自開発の運用に特化した生成AIについて説明

次世代移動通信システム「5G」とは 第119回 ソフトバンクがPayPayドームでARの実証、先端技術より枯れた技術のBLEを選んだ理由

FinOpsを実践するメルカリ、その道のりと気づき、今後の展望 - 前編

Box Japan、2024年度の振り返りを発表‐2025年度は「Box AI 元年」を目指す

米オラクルCEOキャッツ氏、日本に対する1.2兆円の投資の狙いを説明

編集部が選ぶ関連記事

Hisa Andoのディープラーニング挑戦記 第1回 NVIDIAのDeep Learning Instituteを体験してみた

コンピュータアーキテクチャの話 第371回 AlexNetの構造を読み解く

NVIDIAの次世代GPU「Volta」はGTC 2017で発表

AIやビッグデータの進化を加速させる半導体はGPUか? FPGAか? CPUか?

Intel、11億5000万ニューロンを実現したニューロモーフィック・システム「Hala Point」を開発

東北大、半導体とスピン素子による融合型確率論的コンピュータの性能を実証

ソフトバンクと理研が進める量子・スパコン連携は社会に何をもたらすのか？

36個のLSIによるスケーラブル全結合型イジングプロセッシングシステム、理科大が実機検証に成功

IBM Research本部のYorktown Heightsから見る、量子コンピュータの最前線

Cerebras、4兆トランジスタを搭載した第3世代WSE「WSE-3」を発表

このカテゴリーについて

Google Geminiの活用方法第2回 Google Geminiの使い方

次世代移動通信システム「5G」とは第119回ソフトバンクがPayPayドームでARの実証、先端技術より枯れた技術のBLEを選んだ理由

Hisa Andoのディープラーニング挑戦記第1回 NVIDIAのDeep Learning Instituteを体験してみた

コンピュータアーキテクチャの話第371回 AlexNetの構造を読み解く