8月25日、26日にスタンフォード大学のメモリアルオーディトリアムで開催されたHOT CHIPS 20では、IntelのTukwila、富士通のSPARC64 VII、そしてSunのRockの3種のサーバプロセサが発表された。HOT CHIPS全体の最後のセッションであるServer Chipsセッションの最初の発表はIntelのTukwilaである。

Tukwilaについて発表するIntelのEric Delano氏

IntelのTukwilaは、Itaniumラインの次世代プロセサであり、PC Chipsセッションで発表されたNehalemの共通のQPIをサポートしている。TukwilaとNehalemベースのXeonの大きな違いは、対象とするサーバの規模の違いである。Xeon系は、どちらかというと1~4ソケットのサーバに主力を置いているが、Itanium系は8CPU以上の大きなサーバに主力を置いている。まあ、これは、Xeonがあまりに成功してしまい、Itaniumは大規模サーバだけに追いやられてしまったという面もあるが、この棲み分けは、プロセサの設計思想や構造に大きな影響を与えている。

Tukwilaは、今年2月のISSCCで発表されており、65nmプロセスを使用して700平方mmという巨大チップであり、このチップに4コアと、合計30MBにのぼるキャッシュを集積している。また、QPIもNehalemベースの2ソケットサーバ用のチップであるNehalem-EPでは2本であるが、Tukwilaではフルバンド幅のQPIを4本とハーフバンド幅のQPIを2本装備している。この4本フルバンド幅のQPIを使い、4ソケットのシステムでは、CPUチップ間を完全結合で結び、更にIOHにもフルバンド幅のQPIで接続することが出来る。

Tukwila 4ソケットシステム

HOT CHIPSの発表では言及されなかったが、ISSCCの発表から、各Tukwilaチップは4チャネルのFB-DIMMをサポートすることが判明している。更に、ハーフバンド幅のQPIも動員すると、次の図のように8ソケットシステムを構成できる。なお、この図では、FB-DIMMのメモリ接続は省略している。

8ソケットのTukwilaシステム。実線はフルバンド幅、破線はハーフバンド幅のQPI

もう一つのItaniumとXeonの違いは、RAS(Reliability Availability Serviceability)と呼ばれる高信頼機構である。従来のMontecito、Montvaleの時代からキャッシュなどの大容量のSRAMアレイはECCで保護されていたが、Tukwilaでは、保護を強化した。特に、新設計のシステムインタフェースと呼ばれる4個のCPUコアとQPIの間を接続するユニットでは、SRAMのECCやパリティーチェックを小規模なSRAMまで拡張し、ラッチやレジスタには耐アルファ線や耐中性子特性を通常のラッチと比較して80倍から100倍改善したDICEという方式のラッチを採用している。

システムインタフェース部では99%がこのDICEラッチであり、プロセサコアのラッチも33%がこのDICEラッチを使っているという。TukwilaはDIMMのエラーに対しても対策を強化しており、 CRCエラーを検出した場合には一定回数までリプレイを行い回復を図る。中性子などが原因の一過性のエラーであれば、このリプレイで回復できる。それでも回復しないエラーの場合は、チャネルリセットを掛けて正常動作に回復するかどうかを見る。それでも回復しない場合は、エラーの残るレーンを切り離す。

また、一般のサーバでは1個のDRAMチップの故障には対処できるが、2個のDRAMチップが故障するとクラッシュしてしまうものが多いが、Tukwilaは、DDDC(Double Device Data Correction)と呼ぶ機能を装備しており、各チャネルのDIMMの内の2個のDRAMチップの故障までは耐えられ、さらにその状態で発生する一過性の1ビットエラーの訂正機能を維持できるという。普通のサーバでは1個のDRAMチップが故障すると、エラーにはならないものの、直ぐにDIMM交換を行わないと危険であるが、Tukwilaサーバでは1個のDRAM故障ではあわてる必要はなく、次の定期保守の時に故障しているDIMMを交換すればよい。従って、保守の頻度、引いては、保守コストを低減することができる。

また、DIMMの交換も、ホットプラグが出来るので、システムの動作中に新しいDIMMを差込、Memory Migration機能を使って、DRAM故障のあるDIMMに記憶されている情報を新しいDIMMにコピーし、構成を切り替えて、故障のあるDIMMを取り外すという手順で、システムを止めることなく、修理が出来る機能を提供している。さらにTukwilaは、DIMMの温度センサーを監視しており、温度が高くなりすぎるとメモリへのコマンドの発行頻度を抑えてDIMMが過熱しないように制御する機能を備えている。

そして、QPIに対しては、前述のような回路的な耐アルファ線対策に加えて、メモリと同様なエラー対策を行っている。QPIもCRCエラーの場合はリトライし、リトライで回復しない場合は、チャネルのリセットを行う。リセットで復旧しない場合は、故障した物理レーンを切り離すという機能をもっっている。また、QPIもホットプラグになっており、システムの電源を落とすことなく、故障したノードを交換することが可能である。但し、この場合は事前に、ソフトウェア的に故障ノードを切り離しておく必要がある。そして、Tukwilaの開発状況であるが、Linux、Windows、HP-UXなどのOSの動作が確認されており、既に複数のOEM先でサーバがテスト中であるという。