Hot Chips 27 - メッシュネットワークでコアをつなぐKnights Landing(3) なぜKNLのネットワークは6×9の2次元メッシュながら38ノードに留まるのか?

KNLではチップ内ネットワークは6×9メッシュになった

KNLのメッシュネットワークは、次の図に見られるように、6×9の2次元メッシュになっている。したがって、ノードは全部で54ノードあるが、MCDRAMの接続に8ノード、DDRメモリの接続に2ノード、IOの接続に4ノード、その他の接続に2ノードが使われており、プロセサタイルに使えるのは38ノードである。

しかし、KNLは72コア、36タイルであるので、2タイルが余る計算となる。この2タイルはスペアとして、不良タイルを置き換えて製造歩留まりを改善するなどの目的で使われると思われる。

メッシュによる通信は、まずY方向に進み、目的ノードと同じY座標のところまで進んだら方向を90°変えてX方向に進んで目的ノードに到着するというやり方でパケットを運ぶ。

このネットワークは、データの転送だけでなく、キャッシュのコヒーレンシプロトコルのパケットの伝送にも使われている。キャッシュコヒーレンシプロトコルはXeon CPUでも使われているMESIFで、分散ディレクトリで管理を行っている。

KNLのメッシュインタコネクト。全体では6×9のメッシュになっている

メッシュの使い方であるが、チップ全体を6×9の1つのネットワークとして使うのがAll-to-Allというモードである。(1)でL2キャッシュのアクセスミスが発生すると、ミスの情報はアクセスしたアドレスのメモリを管理するディレクトリをもつ(2)のノードに送られる。

(2)のノードはディレクトリを見て、そのアドレスの最新のデータを持つ(3)のノードにデータに転送要求を送る。そして、(3)のノードはそのデータを要求元のノードに送るというふうにメモリアクセスが行われる。

全体を1つのネットワークとするAll-to-Allモード

このAll-to-Allモードではチップの全域を1つのネットワークにしているので、赤線で示した伝送の経路が長くなってしまう。次に示すQuadrantモードではチップを仮想的に4つの領域に分割する。そして、あるメモリアドレスを分担するメモリと、そのメモリアドレスを管理するディレクトリは同じ1/4領域に入るように割り当てを行う。このようにすると、ディレクトリの読み出しからメモリアクセスまでの経路が短くなり、ネットワークの遅延を減らし、メモリバンド幅を大きくする事ができる。

全体を仮想的に4つの領域に分割するQuadrantモード

第3のSub NUMA Clusteringモードでは、チップ全体を4分割し、あたかも4ソケットのXeonシステムのように領域内に閉じたメモリアクセスを行わせる。このように1/4領域に閉じた通信を行うので、遅延はさらに小さく、メモリバンド幅も大きくなる。しかし、1/4領域以外のアドレスのメモリをアクセスする場合は、Quadrantモードと同じでありアクセス時間は長くなる。このため、アプリケーションソフトウェアは、メモリアクセスができるだけ1/4領域内に閉じるようなNUMA最適化を行うことが必要になる。

4分割した各領域をNUMAドメインとして扱うSNCモード

大規模システムを構成する場合はOmni Pathを使う

KNLの大規模システムは基本的に1チップがシステムの構成単位で、構成単位同士をシステムレベルのインタコネクトで接続するという形態になる。Intelは、このインタコネクトとしてOmni Pathを発表している。Hot Chips 27ではOmni Pathの詳細は発表されなかったが、直後に開催されたHot Interconnectという学会でOmni Pathが発表された。EDR InfiniBandと同じ100Gbit/sの伝送路を持ち、InfiniBandよりレーテンシが短く、コスト的にも有利とのことであり、現在はスパコンのインタコネクトの標準となっているInfiniBandの強力なライバルになりそうである。

KNLでは、このOmni Pathのインタフェースチップをプロセサチップと同じパッケージに搭載し、 x16 PCIe 2リンクで接続する。ただし、これは1つの製品形態で、Omni Pathのインタフェースを搭載しない製品も作られる。

Omni Pathのチップを同一パッケージに搭載し、2リンクのx16 PCIe 3.0で接続

KNLの性能は?

肝心のKNLの性能であるが、今回の発表では、Xeon E5-2697 v3 2ソケットのシステムの性能を基準として、KNL 1ソケットの性能を相対値として表している。KNLのTDPは200W、Xeon E5-2697 v3は2×145Wであり、消費電力的にはXeon CPU 2個の方が大きい。

この性能比較では、最初の2つの棒グラフではrate_baseと書いてあって紛らわしいが、CINT2006_rateとCFP2006_rateを使っていると考えられるので、KNL側は72コアを使い、Xeon側は2チップ合計で28コアを使用する状態での比較と考えられる。性能を表す左のグラフでは、KNLはCINTでは0.6倍程度、CFPでは0.9倍程度の性能である。ということはXeon 2ソケットの方が実行時間は短いことを示している。右のグラフは性能/Wで、CINTでは1.0で同等、CFPでは1.3倍程度で若干KNL有利という結果であるが、CINTやCFPのベンチマークプログラムのようなプログラムを実行する場合は、並列度が大きくても、KNLを選択する理由はほとんど無い。

しかし、Deep LearningのAlexNetのトレーニングのような大量の浮動小数点演算があり並列度が高い負荷を実行する場合は、性能で2.5倍、性能/電力では3.8倍程度の性能が得られている。この結果を見る限りは、KNLを使えば何でも性能が上がるという訳ではなく、自分のところで使うアプリケーションに対して、性能や性能/電力がどの程度改善できるのかをよく見極めて採用を決める必要がありそうである。

Xeon E5-2697v3 2ソケットと比較すると、KNLはCINT2006_rateでは60%、CFP2006_rateでは90%程度の性能。電力あたりのCINTはほぼ同等、CFPでは1.3倍。FP演算性能が効くDeep Learningや、メモリバンド幅が効くStream Triadでは性能、性能/電力の両方でXeonを大きく上回る

なぜKNLのネットワークは6×9の2次元メッシュながら38ノードに留まるのか?

KNLではチップ内ネットワークは6×9メッシュになった

大規模システムを構成する場合はOmni Pathを使う

KNLの性能は?

この連載の前後回

AIが勧める、あなたのための会員限定記事

「実装技術ロードマップ」最新版を読み解く　PLPの需要拡大、光電融合とガラス基板に注目

NTT西の自治体DXイベントで、アバターが乗客見守る“L4自動運転EVバス”を見た

SILITHとUMC、AIインフラ向けにシリコンフォトニクスの大量生産達成へ

2025年のMEMSサプライヤ売上高ランキングトップ30、日本企業は4社がランクイン　Yole調べ

DMP、東京ロボティクス・イノベーションセンターを開所　フィジカルAIの社会実装を加速

Intel、2026年第2四半期売上高は前年同期比25％増の161億ドル　AI需要でDCAIが59％成長

編集部が選ぶ関連記事

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」第1回 3種類の製品形態での提供が計画されている次世代Xeon Phi

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」第2回 3D積層メモリ「MCDRAM」との1パッケージ化でメモリバンド幅を大幅に向上

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」第3回 DDRとMCDRAMの2種類のメモリを使い分けできるKNL

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」第4回スカラとベクトル両方の性能向上を目論む今後のXeon Phiの方向性

関連リンク

日立、インテル・産総研と協力しシリコン量子コンピュータ開発を開始

IBMら、量子コンピュータで核融合材料候補を計算　FLiBe中のトリチウム挙動解析へ

2026年6月版スパコンランキングTOP500、中国の「LineShine」が初登場で1位を獲得

阪大など、量子コンピュータの利用待ち時間を減らす新機能を開発

1億IOPSを見据えた新タイプSSDをキオクシアがデモ展示 - Interop Tokyo 2026

理科大、シリコン量子ビット高温動作時のゲート忠実度向上条件を特定

このカテゴリーについて

なぜKNLのネットワークは6×9の2次元メッシュながら38ノードに留まるのか?

KNLではチップ内ネットワークは6×9メッシュになった

大規模システムを構成する場合はOmni Pathを使う

KNLの性能は?

この連載の前後回

AIが勧める、あなたのための会員限定記事

「実装技術ロードマップ」最新版を読み解く PLPの需要拡大、光電融合とガラス基板に注目

NTT西の自治体DXイベントで、アバターが乗客見守る“L4自動運転EVバス”を見た

SILITHとUMC、AIインフラ向けにシリコンフォトニクスの大量生産達成へ

2025年のMEMSサプライヤ売上高ランキングトップ30、日本企業は4社がランクイン Yole調べ

DMP、東京ロボティクス・イノベーションセンターを開所 フィジカルAIの社会実装を加速

Intel、2026年第2四半期売上高は前年同期比25％増の161億ドル AI需要でDCAIが59％成長

編集部が選ぶ関連記事

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」 第1回 3種類の製品形態での提供が計画されている次世代Xeon Phi

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」 第2回 3D積層メモリ「MCDRAM」との1パッケージ化でメモリバンド幅を大幅に向上

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」 第3回 DDRとMCDRAMの2種類のメモリを使い分けできるKNL

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」 第4回 スカラとベクトル両方の性能向上を目論む今後のXeon Phiの方向性

関連リンク

日立、インテル・産総研と協力しシリコン量子コンピュータ開発を開始

IBMら、量子コンピュータで核融合材料候補を計算 FLiBe中のトリチウム挙動解析へ

2026年6月版スパコンランキングTOP500、中国の「LineShine」が初登場で1位を獲得

阪大など、量子コンピュータの利用待ち時間を減らす新機能を開発

1億IOPSを見据えた新タイプSSDをキオクシアがデモ展示 - Interop Tokyo 2026

理科大、シリコン量子ビット高温動作時のゲート忠実度向上条件を特定

このカテゴリーについて

「実装技術ロードマップ」最新版を読み解く　PLPの需要拡大、光電融合とガラス基板に注目

2025年のMEMSサプライヤ売上高ランキングトップ30、日本企業は4社がランクイン　Yole調べ

DMP、東京ロボティクス・イノベーションセンターを開所　フィジカルAIの社会実装を加速

Intel、2026年第2四半期売上高は前年同期比25％増の161億ドル　AI需要でDCAIが59％成長

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」第1回 3種類の製品形態での提供が計画されている次世代Xeon Phi

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」第2回 3D積層メモリ「MCDRAM」との1パッケージ化でメモリバンド幅を大幅に向上

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」第3回 DDRとMCDRAMの2種類のメモリを使い分けできるKNL

ISC 2015 - Intelが語った次世代Xeon Phi「Knights Landing」第4回スカラとベクトル両方の性能向上を目論む今後のXeon Phiの方向性

IBMら、量子コンピュータで核融合材料候補を計算　FLiBe中のトリチウム挙動解析へ