米Intelは6日(米国時間)、"Broadwell-EX"(開発コード名)こと、Intel Xeon E7 v4ファミリを発表した。Xeon E7 v4(以下Broadwell-EXと表記する)は、"Haswell-EX"(Xeon E7 v3)の後継であり、技術的には、すで発表済みの"Broadwell-EP"ことXeon E5 v4ファミリとほぼ同じ特徴を持つ。

Xeon E7系は、2015年5月のE7 v3からほぼ1年ぶりの更新となる。Broadwellは、開発が遅れ、出荷のタイミングがSkylakeとかなり接近した。このためXeon E5では、v3(Haswell-EP)とv4(Broadwell-EP)の間が1年以上空いてしまったが、E7系列は、そもそもE3/E5よりもあとに更新される予定であり、結果的にBroadwell-EXの出荷タイミングは、大きな影響を受けずに済んだ。

ここでは、発表されたBroadwell-EXについて解説するが、基本的な特徴や、v3とv4の違いなどについては、先に発表されたXeon E5 v4と重複する部分があるため、その解説記事をご参照いただければと思う。ここでは、簡単にBroadwell-EXの特徴を列挙しておく。

Intel Xeon E7 v4ファミリの概要。前世代のIntel Xeon E7 v3ファミリとの違いは、マイクロアーキテクチャ、コア数とスレッド数の増加、サポートメモリの追加など。最大24コアでマルチプロセッサ構成が可能だ

  • マイクロアーキテクチャ(HaswellからBroadwellへ)
  • 最大コア/スレッド数(18コア/36スレッドから24コア/48スレッドへ)
  • Last Level Cache/LLC(45メガバイトから60メガバイトへ)
  • メモリ(RDIMM/LRDIMMに加え3DS LRDIMMへの対応)
  • DDR4 Write CRCへの対応
  • Intel RDT(Resource Director Technology。キャッシュやメモリバンド幅などのソフトウェア制御)
  • 仮想マシン機能強化(Posted Interrupts、Page Modification Logging)
  • CoD(Cluster on the Die。後述)

最大コア数やLLCサイズ、そして最後のCoD以外は、すべてXeon E5 v4系に実装されている機能なのでここでは繰り返さない。Broadwell-EXは、Bricklandプラットフォームでの利用が想定されている。この場合、メモリバッファ(Intel Scalable Memory Buffer。接続は、SMI Gen2)に最大6つのDIMMを接続できる。Broadwell-EXは、SMIを4チャンネル持っているため、最大24個のDIMMを接続できることになる。

Broadwell-EXでは、128GBBの3DS LRDIMM(DDR4。メモリダイを縦に積み上げた方式のDRAMチップ)を利用できるため、4ソケットシステム(最大96DIMM)では、最大12TBのメモリ(128GB×96DIMM。1ソケットあたり3TB)を搭載可能だ。

Broadwell-EXは、Bricklandプラットフォームでは、メモリバッファを介して最大24DIMMを接続可能。128GBの3DS LRDIMMを使うと4ソケットシステムでは最大12TBのメモリを利用できる

実際のSKUは、前世代と同様にBasic、Standard、Advancedの3つのクラスと「エンタープライズ/データベース」、「HPC」の2つのセグメント向けに分かれており、合わせて11SKUとなっている。

CoDを実装

2つのリングバスにCPUコアとLLCを対にして接続、リングバスにメモリコントローラーやホームエージェントなどを接続するという構造は、Haswell-EXと同じだ。

Broadwell-EX(Xeon E7-8890 v4)のブロック図。CPUコアとLLCの対は、2つのリングバスに12個づつ接続しており、その間を2つの双方向バッファが接続している。メモリコントローラー、QPIエージェントはそれぞれのリングに接続している

違いは、リングバスに接続しているCPUコア/LLCの数。これが18コアから24コアへと増加している。Haswell-EXは、14ナノメートルプロセスでの製造だったが、Broadwell-EXは、10ナノメートルプロセスの製造である。製造プロセスが進化し、微細化した分、コアとLLCを増やしている。LLCは、合計サイズは増えているが、各コアあたりの量は、2.5メガバイトとこれもHaswell-EXと同じである。

Broadwell-EXのみの改良点には、CoD(Cluster on the Die)がある。これは、一般的にいうハードウェアパーティショニングで、1つのCPUパッケージ内にあるコアを分割して、仮想的な複数のCPUパッケージ(別の言い方をすればソケット)として運用する技術だ。

CoD(Cluster on Die)は、Broadwell-EXをバッファの部分で2つにわけ、独立したプロセッサとして動作させるモード。ソフトウェア側からみると2ソケット分のプロセッサに見える

CoD自体は、Haswell-EPで導入されたが、Haswell-EXには導入されていなかった。Intelによれば、複雑な機能であり、検証なども必要なため、Haswell-EXでの導入は見送り、Broadwell-EXで導入することにしたのだという。

Broadwell-EXのCoDは、2つのリングを接続するバッファでプロセッサの内部を2つに分け、両方を独立したプロセッサとして動作させる。このため、ソフトウェア側からみると、2つの独立したプロセッサのように見える。

もともと、メモリコントローラーは、それぞれのリングに接続しているため、原則、両方のプロセッサは独立して動作できる。ただし、I/OやQPI接続に関しては、片側のリングにしかないため、分割されて動作する。もっとも、CoDを使う場合でも、電源投入直後は、1つのプロセッサであり、ファームウェア(BIOS)で、CoDを有効にした場合に、OSへ報告されるプロセッサ構成情報(Affinityテーブル)が変更される。

これにより、OS側は、1つのBroadwell-EXを3つのプロセッサと認識する。以後、これをどう扱うかは、OSやハイパーバイザー(仮想マシンモニター)側の設定となる。

Xeon E7 v4のパフォーマンス

Intelが公開した資料によると、一般的な性能指標として、Broadwell-EXは、前世代のHaswell-EXと比べて1.3倍の性能があるという。これは、4ソケットのBricklandベースのサーバーによる比較となる。

総合的な性能比較では、Broadwell-EXは、前世代のHaswell-EXの1.3倍の性能があるとする。動作クロックはHaswell-EXの2.5GHzに対し、Broadwell-EXは2.2GHzと低いが、コア数が18コアから24コアと増えた分、性能が向上している

また、Broadwell-EXのすべてのSKUの製造が開始されているわけではないので、論理的な計算値として、クラス別/セグメント別での性能比較も資料として公開されている。Broadwell-EXでは、コア数が増えたが、クロックが下がっているため、最大でも2割程度の向上にとどまる。なお、各SKUのSPEC Intの推定値は最後のスライドのようになる。

論理的な性能差から推定したv3とv4系の製品クラス別、セグメント別での比較。SPECint、OLTPでの比較値

Broadwell-EXの各SKUのSPECint値を推定したもの。SPECfpについては、未定となっている