高速ディープラーニングが可能なWSEをCerebrasはどうやって実現したのか

ネットワークのコア利用率を高める工夫

オンチップのメッシュネットワークで送受するメッセージのサイズは非常に小さいという。このため、コア間の接続を頻繁に切り替え、通信の自由度を高めてコアの利用率を高めているという。ネットワークはパケットスイッチとサーキットスイッチの混合というようなアーキテクチャになっているという。

CerebrasのWSEは処理単位が小さく、コアを遊ばせずに使うことができるので、性能が高いという。通常のGPUベースのシステムでは学習時のコアの利用効率は30%程度であるが、WSEのコア利用効率はその2倍以上になるという。

また、GPUなどを使うAIアクセラレータでは、1つのネットワークで多数の入力を纏めて計算するサイズの大きなバッチ処理を行うことが多い。大きなサイズのバッチ処理を行うと、バッチの中では、ネットワークの接続や重みの値を変えずに次々と入力だけを変えて計算すれば良いので、効率が良い。しかし、それぞれの入力に対する中間結果を記憶しておく必要があり、そのために大量のメモリが必要となる。このためにメモリを必要とするので、大きなネットワークをチップ内に記憶して処理することができないという問題が出てくる。

これに対してWSEは大量のコアとオンチップのメモリを持っており、大規模なニューラルネットをオンチップで扱うことができ、他社の製品のように、大きなニューラルネットを分割して処理するオーバヘッドが発生しないという。

WSEの隣接コア間の通信は1クロックサイクルである。そして、WSE全体ではおおよそ600×600のコアがあるので、対角線の位置にあるコア間の通信では、おおよそ1200クロックかかることになる。

1つの計算に使うすべての入力が揃わないと計算が行なえないので、入力が揃うのを待ち合わせる必要がある。そのためのデータバッファとして、1GBを超えるメモリを持っているとのことである。ただし、このメモリはデータフロー処理を実現するためのものであり、18GBのデータメモリとは別に存在するという。

高効率を実現したデータフロー処理

GPUやGoogleのTPUでも重みや入力がゼロの場合は計算を省いて、消費電力を抑えることはできる。しかし、WSEでは演算を必要としないコアに別の入力を与えて、有効な計算をやらせることができる。

したがって、重みや入力がゼロの部分は計算を省くようにネットワークを作れば、全要素が非ゼロであると想定して固定の順序の行列演算を行うGoogleのTPUなどと比べて実行できる計算量を大幅に増やすことができる。そして、チップ全体で見ればコアのビジー率が上がり、演算効率を上げることができる。

このため、WSEはチップに搭載されているコア数に比べて高いAI演算性能を持っているはずであるが、Cerebrasは　MLPerfなどのベンチマークの性能を公表していない。Cerebrasは、現在の初期の顧客の抱えている問題を処理する実行性能を改善するのに全力を注いでいて、現在はベンチマークなどの性能を上げることには力を割く余裕は無いとのことである。

WSEの学会発表は2020年Q2～Q3の予定

これまで、Cerebrasはアーキテクチャの詳細や性能ついては発表していない。しかし、2020年のQ2～Q3ころには詳しい学術論文を出し、詳細を発表するつもりであるという。それまで、実行性能の公表はお預けになりそうである。

高速ディープラーニングが可能なWSEをCerebrasはどうやって実現したのか

目次

ネットワークのコア利用率を高める工夫

高効率を実現したデータフロー処理

WSEの学会発表は2020年Q2～Q3の予定

AIが勧める、あなたのための会員限定記事

軍事とIT 第664回なぜ戦闘機は味方を撃ってしまうのか - 戦闘識別(1)

NEC森田社長「海外利益比率50％は目標ではなく結果」　日本市場だけでは成長できない理由

Intel、AMD、NVIDIAの第1四半期決算を読み解く - AIインフラ競争は「総合力」の時代へ

触れると光り、レアアースも電源もいらない「応力発光」東北大ら世界初実現

クギを刺しても燃えないリチウムイオン電池実現へ　新たな正極材料をSELが開発

インフィニオン、NVIDIAのAIデータセンター基盤に参画　800V電源で電力効率向上へ

編集部が選ぶ関連記事

TED、CerebrasのWSEを搭載した高速ディープラーニングシステムの受注を開始

ウェハスケールAIエンジンを搭載するCerebrasのAIサーバ「CS-1」 - SC19

吉川明日論の半導体放談第97回 Hot Chipsのホットな話題「Wafer Scale Integration」

215mm角のCerebrasの巨大マシンラーニングエンジン - Hot Chips 31

関連リンク

インフィニオン、NVIDIAのAIデータセンター基盤に参画　800V電源で電力効率向上へ

Intel、AMD、NVIDIAの第1四半期決算を読み解く - AIインフラ競争は「総合力」の時代へ

imecは日本に独自の研究所を設置する計画はあきらめていない、imecの新CEOが語った日本への想い

福岡市、半導体企業向け補助を拡充　設備などの導入経費の半額支援で設計拠点誘致へ

ダイヤモンド半導体向け2インチウェハ実現へ　イーディーピーがモザイク結晶開発

2026年第1四半期のDRAM市場が前年同期比3.6倍増の970億ドル規模へ急拡大、AI需要がけん引

このカテゴリーについて

高速ディープラーニングが可能なWSEをCerebrasはどうやって実現したのか

目次

ネットワークのコア利用率を高める工夫

高効率を実現したデータフロー処理

WSEの学会発表は2020年Q2～Q3の予定

AIが勧める、あなたのための会員限定記事

軍事とIT 第664回 なぜ戦闘機は味方を撃ってしまうのか - 戦闘識別(1)

NEC森田社長「海外利益比率50％は目標ではなく結果」 日本市場だけでは成長できない理由

Intel、AMD、NVIDIAの第1四半期決算を読み解く - AIインフラ競争は「総合力」の時代へ

触れると光り、レアアースも電源もいらない「応力発光」東北大ら世界初実現

クギを刺しても燃えないリチウムイオン電池実現へ 新たな正極材料をSELが開発

インフィニオン、NVIDIAのAIデータセンター基盤に参画 800V電源で電力効率向上へ

編集部が選ぶ関連記事

TED、CerebrasのWSEを搭載した高速ディープラーニングシステムの受注を開始

ウェハスケールAIエンジンを搭載するCerebrasのAIサーバ「CS-1」 - SC19

吉川明日論の半導体放談 第97回 Hot Chipsのホットな話題「Wafer Scale Integration」

215mm角のCerebrasの巨大マシンラーニングエンジン - Hot Chips 31

関連リンク

インフィニオン、NVIDIAのAIデータセンター基盤に参画 800V電源で電力効率向上へ

Intel、AMD、NVIDIAの第1四半期決算を読み解く - AIインフラ競争は「総合力」の時代へ

imecは日本に独自の研究所を設置する計画はあきらめていない、imecの新CEOが語った日本への想い

福岡市、半導体企業向け補助を拡充 設備などの導入経費の半額支援で設計拠点誘致へ

ダイヤモンド半導体向け2インチウェハ実現へ イーディーピーがモザイク結晶開発

2026年第1四半期のDRAM市場が前年同期比3.6倍増の970億ドル規模へ急拡大、AI需要がけん引

このカテゴリーについて

軍事とIT 第664回なぜ戦闘機は味方を撃ってしまうのか - 戦闘識別(1)

NEC森田社長「海外利益比率50％は目標ではなく結果」　日本市場だけでは成長できない理由

クギを刺しても燃えないリチウムイオン電池実現へ　新たな正極材料をSELが開発

インフィニオン、NVIDIAのAIデータセンター基盤に参画　800V電源で電力効率向上へ

吉川明日論の半導体放談第97回 Hot Chipsのホットな話題「Wafer Scale Integration」

インフィニオン、NVIDIAのAIデータセンター基盤に参画　800V電源で電力効率向上へ

福岡市、半導体企業向け補助を拡充　設備などの導入経費の半額支援で設計拠点誘致へ

ダイヤモンド半導体向け2インチウェハ実現へ　イーディーピーがモザイク結晶開発