8月26日のHOT CHIPSのPC Chipsのセッションで、IntelのアーキテクトのRonak Singhal氏がNehalemに関する発表を行った。但し、使用された発表スライドは、殆どが、前の週のIntel Developer Forumのものと同じであった。

Intelの次世代プロセサNehalemの発表を行うRonak Singhal氏

45nm半導体プロセスで製造されるNehalemは、現在のCore 2(Meromアーキテクチャ)から進化した次世代アーキテクチャのプロセサであり、それに続いてNehalemを32nmプロセスにシュリンクしたWestmere、そして更に次次世代アーキテクチャのSandyBridgeへと進化していくというロードマップが示された。

また、マルチコア化の進展から、Nehalemアーキテクチャは、用途に応じてコア数を可変しやすいようにモジュラーに作られており、2コアから8コアまで対応可能である。そしてuncore(アンコア)と呼ぶ共通部分は、共用のL3キャッシュとQPIインタフェース、メモリインタフェース、電源管理などの共通部分を含んでおり、その上に、必要数のコアを載せていく。そして、これらのL3キャッシュの容量、QPIインタフェースやメモリインタフェースの数なども、必要な機能や性能に応じて容易に変更できる構造となっている。

Nehalemのモジュール構造設計(出典:Intelの発表資料)

なお、このHOT CHIPSの図は、右下のロゴが標準のIntelロゴになっているが、IDFで使われた図は、右下のロゴがIntel Developer FORUMになっているという点が違うだけで、その他の内容は同じである。

今年の4Qに発売と言われるBloomfieldという開発コードネームで知られる4コアチップは、8MBのL3キャッシュを搭載し、チップ全体では731Mトランジスタを集積している。なお、Nehalemは開発コードネームで、正式名称はCore i7である。

Nehalemの最大の特徴は、Intelの従来のFront Side Bus(FSB)から決別し、AMDのHyperTransportと同様な高速シリアルバスでCPUチップ間を接続するようにしたことである。QPIは2バイト幅の伝送路を6.4Gbpsで信号伝送を行うので、両方向を合計すると25.6GB/sの転送性能をもっている。従来のFSBでは、もっとも高性能な1600MHzのものでも転送性能は12.8GB/sであったので、2倍になっている。また、デスクトップ用のBloomfieldではQPIは1本であるが、2チップのサーバ用のNehalem-EPチップではQPIの本数は2本であり、ハイエンドの Xeon系のサーバチップでは、更に多くのQPIが実装されると予想される。

そして、CPU間の伝送が高速になったことにより、各CPUチップにメモリインタフェースを内蔵し、DDR3メモリDIMMを直結できるようになっている。しかし、ご存知のようにAMDのOpteronは既にこのQPIと同様な構造を採用しており、技術的には新規ではない。

もともと、このような考え方はDECアルファに端を発しており、DECからAMDに移った現AMD社長のDirk Meyer氏らがAMDでいち早く採用し、正式にはDEC社を買ったIntelの採用がここまで遅れたのは皮肉である。

なお、QPIは20信号+1クロックという伝送であり、高速シリアル伝送と呼ぶべきではないという意見もあるが、筆者は、CPUコア、あるいはCPU間伝送のインタフェース部のロジックの動作クロックより高速の伝送であり、伝送に当たってパラレル - シリアル変換が必要になる場合は、高速シリアルと呼んでよいと思っている。

このQPIの採用とメモリコントローラのCPUチップ内蔵により、メモリ性能を大幅に改善している。Stream Benchmarkで測定したメモリバンド幅は、現状のCore 2プロセサであるHarpertownでは、クロック3.0GHz、FSB 1600MHzのチップに800MHzのDDR2メモリをつけた場合は約9.8GB/sであるが、2.66GHzクロックのNehalemに1066MHzのDDR3メモリを接続した場合は33.4GB/sと3.4倍の向上を示している。

また、メモリをアクセスするのに必要な時間(レーテンシ)もHarpertownを1.0として、Nehalemは、自分のチップに直結されたローカルなメモリを読む場合は0.6、そして、QPIを経由して隣のチップの接続するメモリを読む場合でも0.95程度とHarpertownより速い。