Hot Chips 21 - 3次キャッシュを内蔵したIBMの8コアプロセサ「POWER7」

今回のPOWER7コアの設計がPOWER6から大きく変わったのは、制御がOut-of-Orderに戻った点である。IBMはPOWER4ではOut-of－Orderを採用していたが、POWER5になってクロックを大幅に引き上げ、制御をIn-Orderに変更した。そして、POWER6、POWER6+でも高速クロックのIn-Order実行を踏襲したのであるが、それをPOWER7ではOut-of-Orderに戻している。この理由を発表者のRon Kalla氏に確認したところ、「POWER7ではコア数を4倍にして、なお、消費電力もPOWER6と同程度に抑える必要があったから」という答えであった。IBMはPOWER6および同7の消費電力を発表していないが、POWER6ベースのマシンを今、買ってもPOWER7にアップグレードできるというキャンペーンをやっており、4チップ乗りのMCMとメモリを搭載する大型のブレードのような、Bookと呼ぶユニットの交換でアップグレードができるようである。この場合、Bookの消費電力が大幅に増えることは許容できないと考えられ、プロセサの消費電力も同程度に抑えることが要求されたと思われる。

パイプラインを細かく刻んで高クロックを実現する設計は、クロックに比例して消費電力が増えるだけでなく、電気を食うパイプラインラッチの数が増えるため、性能あたりの消費電力の点では不利な設計である。ということで、POWER5の設計は、Intelが高クロックのPentium 4を止めてコアアーキに移行した時代の流れに逆行し、いずれ破綻するのではないかと思っていたのであるが、案の定、POWER7ではOut-of-Order実行とマルチスレッドでIPC(Instruction Per Cycle)を稼ぎ、クロックは落としても全体としての性能を向上するという方向に舵を切りなおしたようである。

コアあたりの性能は、POWER6と比較すると、FP Workloadでは1.6倍、Integer Workloadでは1.4倍、Comm Workloadでは1.3倍程度というグラフが示された。

従来のPOWER6までは浮動小数点の積和演算器が2個で64ビット幅のレジスタが32個であったが、POWER7は2009年3月10日に公開されたPOWER ISA V2.06の準拠しており、積和演算器を4個とし、従来のベクトル処理用レジスタと合体させて128ビット幅に拡張したレジスタを64個持つ構成となっている。これが FP Workloadでの性能向上の倍率が高いことに寄与していると考えられる。

これは完全に筆者の推測であるが、FP Workloadの場合は、マルチスレッドはあまり効かず演算器がネックとなることが多いが、演算器の数が倍増しているのにFP Workloadの性能が向上が1.7倍にとどまるというのは、クロックが0.85倍程度に下がっているのではないかと思っている。そうすると、POWER7のクロック周波数は3GHzから3.5GHzあたりでは無かろうか?。また、Ron Kalla氏は消費電力の削減とIPC向上のため、パイプラインの段数を減らしたと述べており、Out-of-Orderで制御が複雑になり論理段数が増加し、さらに、パイプライン段数を減らすと、パイプ1段に含まれるゲートの遅延が増加する。これに対して45nmプロセス化によるゲート遅延の高速化があるが、やはり、クロックは落としているとみるのが妥当である。

ただし、我が国の次世代スパコンの対抗馬の1つと見られるBluewatersのような本格スパコンの場合は、水冷などを使って高い消費電力を許容し、一部の報道で言われている4GHzクロックを実現する可能性はあると思われる。