Hot Chips 29 - Wave Computingのディープラーニングチップ

Wave Computingは2010年に設立されたのであるが、最近までステルスモードで活動してきており、主要な学会での発表は、今回のHot Chips 29が初めてである。

Hot Chips 29でWave ComputingのDPUを発表するChris Nicole CTO

Wave Computingはベンチャーキャピタルから資金を得て、2010年に設立された。現在、従業員は、データフロー、データ科学、システムの専門家からなる53人のチームである。

従来のプロセサと比べると最大1000倍の学習性能を持つ「Dataflow Processing Unit(DPU)」というアーキテクチャを考案したという。DPUは粗粒度の再構成可能アレイ(Coarse Grain Reconfigurable Array)アーキテクチャである。そして、この巨大なプロセサアレイにデータフローグラフを静的にマップしてニューラルネットの学習を実行する。

これまでステルスモードであったが、現在は、DPUチップができ、先行顧客のアーリーアクセスプログラムを始めている状態であるという。

Wave Computingは2010年に設立され、現在、53人のチームで開発を行っている。従来のやり方に比べて最大1000倍の性能を持つDataflow Processing Unit(DPU)というアーキテクチャを考案し、現在はアーリーアクセスプログラムを開始している (このレポートのすべての図は、Hot Chips 29におけるChris Nicole CTOの発表スライドのコピーである)

マシンラーニングの分野では、ディープニューラルネットの学習に長い時間が掛かるのが問題となっている。エッジで発生するデータの量は増加の一途で、現在のやり方ではデータセンターの処理が間に合わなくなってしまう。

この図はGoogleの資料の引用であるが、CPUとGPUでの学習処理の様子を示している。この図に見られるように、GPUがCPUからの指示を待っている時間がかなり多く、ムダが多い。このため、学習の性能が上がらないことになってしまう。

CPUとGPUのヘテロシステムで学習を行っている様子。GPUがCPUの指示を待っている時間が多い。これはGoogleの発表資料を引用したものである

人工ニューロンの間をつないだディープラーニングネットワークは、データフローネットワークである。これをプログラムにすると、重み(Weight)と入力(Input)を掛けて(Times)、それらを集計(Plus)して、SigmoidとかSoftmaxとかの関数を適用するグラフで表すことができる。

これをランタイムと処理データなども加えたグラフに変形する。そして、それぞれの処理を実行するDPUのハードウェアにマッピングして実行する。このように、DPUのハードウェアがグラフを記憶しており、グラフにしたがってデータを送りながら処理を行っていくので、CPUの介入は必要なく、DPUがCPUの指示待ちになって遊んでしまうことがない。

GoogleのTPUなどは、入力ベクトルに重みのマトリクスを掛けてニューロンの出力値を計算する。接続が存在しない部分は重みの係数はゼロであるがこれも計算してしまう。

これに対して、Wave Computingのデータフロー方式では、接続がない部分は信号が伝わらず、計算を行わない。このため、ゼロを掛けるというムダな計算を避けて演算回路の実効性能を高めることができる。

なお、DPUのやり方で推論がうまく処理できることは分かったが、この発表では、学習のためのバックプロパゲーションをどのように行うのかについては説明がなく、どのように処理が行われ、なぜ、高い性能が得られるのかは分からなかった。

ディープラーニングを行うデータフローグラフをフレームワークでプログラムし、それをWaveFlowエージェントの接続にランタイムで変換する。そして、DPUで実行する

Hot Chips 29 - Wave Computingのディープラーニングチップ

目次

早大など、筋トレでもストレッチと同等に筋肉を柔らかくできることを実証

日本の月探査支える民間通信インフラ実証へ　ispaceとスカパーJSATが連係

九大、星の誕生につながる前恒星コアでのイオンと中性ガスの速度差を検出

製造業の“見える化・省人化”に向け、三菱電機とソニーセミコンが新会社設立

北大、南極隕石が無汚染であることを証明し宇宙由来の核酸塩基全5種を検出

Microsoft Azure、AMD HeliosをAI推論基盤に採用　次世代EPYC搭載VMも追加

編集部が選ぶ関連記事

Hot Chips 29 - ARMの新クラスタデザイン DynamIQ

Hot Chips 29 - 学生が作ったRISC-Vメニーコアチップ「Celerity」

Hot Chips 29 - 業界初のオープンソースRISC CPUコア「RISC-V」

Hot Chips 29 - バランスの取れたIntelの「Xeon Scalable Processor」

関連リンク

IBMら、量子コンピュータで核融合材料候補を計算　FLiBe中のトリチウム挙動解析へ

2026年6月版スパコンランキングTOP500、中国の「LineShine」が初登場で1位を獲得

阪大など、量子コンピュータの利用待ち時間を減らす新機能を開発

1億IOPSを見据えた新タイプSSDをキオクシアがデモ展示 - Interop Tokyo 2026

理科大、シリコン量子ビット高温動作時のゲート忠実度向上条件を特定

日立とIntelが“AX”加速へ戦略的協業 - 主要産業領域での革新加速へ

このカテゴリーについて

Hot Chips 29 - Wave Computingのディープラーニングチップ

目次

早大など、筋トレでもストレッチと同等に筋肉を柔らかくできることを実証

日本の月探査支える民間通信インフラ実証へ ispaceとスカパーJSATが連係

九大、星の誕生につながる前恒星コアでのイオンと中性ガスの速度差を検出

製造業の“見える化・省人化”に向け、三菱電機とソニーセミコンが新会社設立

北大、南極隕石が無汚染であることを証明し宇宙由来の核酸塩基全5種を検出

Microsoft Azure、AMD HeliosをAI推論基盤に採用 次世代EPYC搭載VMも追加

編集部が選ぶ関連記事

Hot Chips 29 - ARMの新クラスタデザイン DynamIQ

Hot Chips 29 - 学生が作ったRISC-Vメニーコアチップ 「Celerity」

Hot Chips 29 - 業界初のオープンソースRISC CPUコア「RISC-V」

Hot Chips 29 - バランスの取れたIntelの「Xeon Scalable Processor」

関連リンク

IBMら、量子コンピュータで核融合材料候補を計算 FLiBe中のトリチウム挙動解析へ

2026年6月版スパコンランキングTOP500、中国の「LineShine」が初登場で1位を獲得

阪大など、量子コンピュータの利用待ち時間を減らす新機能を開発

1億IOPSを見据えた新タイプSSDをキオクシアがデモ展示 - Interop Tokyo 2026

理科大、シリコン量子ビット高温動作時のゲート忠実度向上条件を特定

日立とIntelが“AX”加速へ戦略的協業 - 主要産業領域での革新加速へ

このカテゴリーについて

日本の月探査支える民間通信インフラ実証へ　ispaceとスカパーJSATが連係

Microsoft Azure、AMD HeliosをAI推論基盤に採用　次世代EPYC搭載VMも追加

Hot Chips 29 - 学生が作ったRISC-Vメニーコアチップ「Celerity」

IBMら、量子コンピュータで核融合材料候補を計算　FLiBe中のトリチウム挙動解析へ