8月20日、21日の両日、Stanford大学のMemorial Auditoriumで開催されたHot Chips 19において、SunのStephen Phillips氏が「Victoria Falls」プロセサについて発表を行った。Victoria Fallsに関しては、その開発プロジェクトの存在は知られていたが、技術的な内容が発表されるのは、今回が初めてである。

「Victoria Falls」プロセサを発表するSunのStephen Phillips氏

Sunは8コア×4スレッド=32スレッドのNiagara(正式名称はUltraSPARC T1)プロセサを開発し、サーバに組み込んで商品化しており、その後継となる8コア×8スレッド=64スレッドのNiagara 2プロセサに関しても8月7日に発表を行っているが、これらのプロセサはシングルチップの構成しか取れず、小規模なサーバへの適用に留まっていた。今回発表されたVictoria Fallsは、端的に言うと、Niagara 2プロセサ 4個を接続し、共有メモリシステムで使用できるように拡張したプロセサであり、中規模サーバまでSunの滝シリーズの超マルチスレッドプロセサの適用範囲を拡大する製品である。

近年のマイクロプロセサが、発熱の制約からクロックは低めでコア数増加という方向で総合性能を改善する方向に進んでいることは周知の通りであるが、それを更に押し進めて、他社がデュアルコアの時代に、各コアの性能は若干低下するが、小規模なコアを8コア搭載したのが初代Niagaraプロセサである。Niagaraでは、更にハードウェアの利用率を上げるために、各コアで4つのハードウェアスレッドをサポートし、OSから見ると32個のプロセサコア(ハードウェアスレッド)が存在する。これにより、それぞれのハードウェアスレッドの性能は低いが、32個の合計性能では他社のシングルやデュアルコアより高性能で、電力あたりの性能が高いサーバを実現することができた。

パソコンでは同時に走るスレッド数が多くないので、単一スレッドの性能が低いプロセサはマッチしないが、毎秒、何百、何千ものリクエストが来るウェブサーバでは、単一スレッドの性能はそれほど高い必要はないが、一つのリクエスト処理あたりのサーバコストや消費電力が低いことが重要である。Niagaraベースのサーバは、このような用途に良くマッチしており、発売以来、SunのNiagaraベースのサーバの売り上げは4半期あたり$100Mを超えるヒットとなっている。

このような用途に対して、更に適用規模を拡大するのが、このVictoria Fallsプロセサである。Victoria Fallsでは、Niagara 2と同様に、8個のコアが4MBの共有2次キャッシュに接続されているが、Niagara 2ではこの2次キャッシュからメモリコントローラに繋がっているのに対して、Victoria Fallsではその間にCoherence & Link Controller (CLC)と呼ぶユニットが挿入されている。そして、このCLCから他のチップとのキャッシュコヒーレンスを維持するSerial System Interface(SSI)が出ている。コヒーレンス制御はアドレスでストライプされた4つのプレーンに分割されて行われ、SSIの各チャネルはそれぞれのプレーンに対応していると考えられる。

8コアを持つVictoria Fallsの構成図。(Sunの発表の図を基に作成)

SSIは、物理的には送受ともに14レーンの高速シリアル伝送バスであり、各チャネルの片方向の物理伝送速度は8.4GB/s、プロトコルオーバヘッドなどを除いた正味のデータ伝送速度は6.4GB/sである。Victoria Fallsはこのチャネルを4チャネル持っており、最大データ転送速度は25.6GB/s×2方向である。また、各チップは2chのFB-DIMMをサポートする2個のMemory Control Unit(MCU)を持ち、最大16枚のFB-DIMMを接続することができ、ピークで21GB/sのリードと10.5GB/sのライトバンド幅を持っている。

2チップ構成のシステムの場合は、2つのチップの対応するSSIチャネルを直接接続するだけで、内蔵のコヒーレンスハブにより、16コア128スレッドのメモリ共有システムが出来上がる。そして、OLTP(On Line Transaction Processing)やHPCの行列演算のケースで、2チップ構成の場合は、1チップの場合の1.8倍の性能が得られるというデータが示された。

一方、4チップ構成の場合は、AMDのOpteronのように直結は出来ず、External Coherence Hubと呼ぶチップが必要となる。External Hubはコヒーレンスプレーンごとに存在する図が示されたが、これが物理的に4チップであるかどうかは不明である。

Victoria Fallsを4チップ用いる64コア256スレッドシステムの構成図。接続のために4個のExternal Hubを使用する。(Sunの発表資料を基に作成)

この構成では、4CPUチップ、64プロセサコア、256スレッドをサポートし、FB-DIMMは最大64枚(1GB DIMMを使用して64GB)のシステムであり、総合メモリバンド幅はリードが84GB/s、ライトが42GB/sという高スループット性能を実現することができる。