Hot Chips 26 - MITの36コアスヌーピーメッシュプロセサ「SCORPIO」

SCORPIOのネットワークにはTime Windowというものがあり、Time Windowの長さは、その始まりに送信を開始した通知は、終わりまでには確実に全ノードに到着するように決められている。

事象が発生すると、まず、メインネットワークを使って、その事象に伴うメッセージを全ノードにブロードキャストする。この送信タイミングは任意で良い。そして、メッセージをブロードキャストしたノードは、次のTime Windowに開始時に通知フリットを通知用ネットワークに送り出す。

メインネットワークでメッセージを送り、次のタイムウインドゥの開始時に通知を送る

次の図は、時刻T1にコア11がメッセージM1をネットワークに注入し、時刻T2にコア1がメッセージM2をネットワークに注入した状態を示している。そして、次のTime Windowの開始時点であるT3で、コア1が通知N2、コア2が通知N2を通知ネットワークに注入する。N1のビットベクタはノード11に対応するビット11だけが立っており、N2はビット1だけが立っている。

メッセージのブロードキャストは、これらとは無関係に進行し、M2のメッセージは、次のサイクルにはノード2と5、その次はノード3、6、9という風に広がっていく。

2番目のTime Windowの終了する時刻T4では、通知N1、N2はどのノードにも届いており、通知のビットベクタはbit1とbit11が立っている。この時、どちらが先であったかの決め方は色々と考えられ、優先度を順番に切り替えるような方法が公平で良いと思われるが、話を簡単にするために、ノード番号が小さい方の事象が先に起こったとみなすことにする。この例では、ノード11の事象の方が先に起こっているのであるが、一つのTime Windowの中での事象の順序は、一貫して同じ順序で取り扱えば、物理的な事象の順序と一致していなくても問題はない。

ここではM2が先と決めたという絵になっており、M2を受け取っているノードは左斜め上方向の矢印でメッセージをコアに渡す。一方、M1を先に受け取っているノードは、M1をバッファに保持して、時間的に先と決められたM2の処理が終わってから、M1の処理を開始することになる。

そして、時刻T6で、アクセスされるaddr2のメモリを保持しているノード13がメモリ(実質は、そのアドレスのデータを保持するL2キャッシュ)を読んでメッセージR2で応答してノード1にデータを送り、時刻T7 でaddr1のメモリを持つコア6がメモリを読んでノード1にデータを送って、この例の動作は終わりになる。

つまり、Time Windowという考え方を導入し、その中で発生が通知された事象は、どのノードにも同じ情報が通知され、全部のノードが同じアルゴリズムでそれらの事象の順序を決めるので、ノードによって異なる順序と解釈されることがないので、スヌープによるコヒーレンシ制御がうまく行くわけである。

従来のディレクトリを使うキャッシュコヒーレンシ方式であるLimited Pointer Directory方式とAMDのHyperTransportの方式と新考案のSCORPIOの性能を比較したのが次の図である。評価に使ったのはSPLASH-2ベンチマークとPARSECベンチマークである。

LPDやHPと比べると、SCORPIOはここに上げたすべてのベンチマークで実行時間が短く、全体の平均では、LPDと比較すると24%、HTと比較しても13%高速である。

従来のLPD、HTとSCORPIOの性能比較

この発表の成果は、メッセージの伝達と順序の通知のネットワークを分離するという新しい考え方で、スヌープを使うスケーラブルにコヒーレンスを実現する方法を考案したことである。この方法は、前述のように、従来のLPDやHTと比べて、それぞれ24%と13%高い性能を示している。

また、開発された45nm SOIプロセスを使った36コアのSCORPIOチップのチップサイズは11mm×13.5mmであり、833MHzクロックで動作し、消費電力は28.8Wと報告されている。

この研究の成果のまとめ

なお、発表の時点では、チップは出来ているが、3種の方式の性能の比較はシミュレーションの結果である。

Hot Chips 26 - MITの36コアスヌーピーメッシュプロセサ「SCORPIO」

目次

Members+ 会員限定記事

Copilot in Windowsを使ってみよう第16回同じプロンプトは違う答えを返す

「チョコザップ」はどこへ向かっているのか? RIZAP 瀬戸社長に直撃

イノベーション都市・横浜の“今”を追う第2回完全個室ベビーケアルームで子育て環境改善を進めるTrim

軍事とIT 第556回システムの統合化(3)モデルベースのシステム工学(MBSE)その1

航空機の技術とメカニズムの裏側第432回航空機とセンサー(13)B-52などに見るセンサー追加による空力的な影響

ジャック・ドーシー氏がBlueskyの取締役を退任

編集部が選ぶ関連記事

Hot Chips 26 - ビットコインのマイニング用プロセサ「Goldstrike 1」

Hot Chips 26 - 進化を続けるFPGA

Hot Chips 26 - Applied Microの第2世代ARMv8プロセサ「X-Gene 2」

Hot Chips 26 - HynixのHBMとThruChipの磁気結合3D実装技術

関連リンク

千葉工業大学と東大、リザバー計算の一種「ESN」の性能向上の鍵を確認

Intel、11億5000万ニューロンを実現したニューロモーフィック・システム「Hala Point」を開発

東北大、半導体とスピン素子による融合型確率論的コンピュータの性能を実証

ソフトバンクと理研が進める量子・スパコン連携は社会に何をもたらすのか？

36個のLSIによるスケーラブル全結合型イジングプロセッシングシステム、理科大が実機検証に成功

IBM Research本部のYorktown Heightsから見る、量子コンピュータの最前線

このカテゴリーについて

Hot Chips 26 - MITの36コア スヌーピーメッシュプロセサ「SCORPIO」

目次

Members+ 会員限定記事

Copilot in Windowsを使ってみよう 第16回 同じプロンプトは違う答えを返す

「チョコザップ」はどこへ向かっているのか? RIZAP 瀬戸社長に直撃

イノベーション都市・横浜の“今”を追う 第2回 完全個室ベビーケアルームで子育て環境改善を進めるTrim

軍事とIT 第556回 システムの統合化(3)モデルベースのシステム工学(MBSE)その1

航空機の技術とメカニズムの裏側 第432回 航空機とセンサー(13)B-52などに見るセンサー追加による空力的な影響

ジャック・ドーシー氏がBlueskyの取締役を退任

編集部が選ぶ関連記事

Hot Chips 26 - ビットコインのマイニング用プロセサ「Goldstrike 1」

Hot Chips 26 - 進化を続けるFPGA

Hot Chips 26 - Applied Microの第2世代ARMv8プロセサ「X-Gene 2」

Hot Chips 26 - HynixのHBMとThruChipの磁気結合3D実装技術

関連リンク

千葉工業大学と東大、リザバー計算の一種「ESN」の性能向上の鍵を確認

Intel、11億5000万ニューロンを実現したニューロモーフィック・システム「Hala Point」を開発

東北大、半導体とスピン素子による融合型確率論的コンピュータの性能を実証

ソフトバンクと理研が進める量子・スパコン連携は社会に何をもたらすのか？

36個のLSIによるスケーラブル全結合型イジングプロセッシングシステム、理科大が実機検証に成功

IBM Research本部のYorktown Heightsから見る、量子コンピュータの最前線

このカテゴリーについて

Hot Chips 26 - MITの36コアスヌーピーメッシュプロセサ「SCORPIO」

Copilot in Windowsを使ってみよう第16回同じプロンプトは違う答えを返す

イノベーション都市・横浜の“今”を追う第2回完全個室ベビーケアルームで子育て環境改善を進めるTrim

軍事とIT 第556回システムの統合化(3)モデルベースのシステム工学(MBSE)その1

航空機の技術とメカニズムの裏側第432回航空機とセンサー(13)B-52などに見るセンサー追加による空力的な影響