Hot Chips 29 - HBM2を搭載し、CCIXを装備するXilinx UltraScale+ FPGA

Hot Chips 29においてUltraScale+ FPGAを発表するXilinxのGaurav Singh氏

Hot Chips 29において、Xilinxは3次元積層メモリ「HBM2」を搭載し、高速のアクセラレータ接続インタフェースであるCCIXをサポートするFPGA「UltraScale+」を発表した。

XilinxのVirtex UltraScale+ HBMファミリは、同社の第4世代の3次元LSIであり、FPGA自体が3チップで構成されており、これらのチップをシリコンインタポーザに搭載して接続して大きなチップとしている。XilinxのハイエンドFPGAでは、これまでもこのやり方が使われていたが、今回は、そのシリコンインタポーザに2個のHBM2メモリを搭載している点が新しい。

FPGAの製造は、TSMCの16FF+プロセスを採用し、 2.8M個のシステムロジックセル、9024個のDSPブロック、合計341Mbitのオンチップメモリを集積している。さらに、このFPGAは2666MHzのDDR4インタフェースを4チャネル、32.75GbpsのSerDesを96個、8チャネルの100G Ethernet、4チャネルの150G Interlaken、6チャネルのx8 PCI Expressポートを持っている。なお、この内の4チャネルのPCI ExpressはCCIXポートとして使うことができる。

そして、シリコンインタポーザには2個のHBM2メモリが搭載され、メモリインタフェースは、1024bitのデータとECC用の128bitの信号を1.8Gbpsで転送する。HBM2メモリの容量は、2個合計で8GBである。

VIRTEXと書かれたチップは3チップをつないだFPGAである。その下に2個のHBM2チップが見える。TSMCの16FF+プロセスで製造されている (このレポートのすべての図は、Gaurav Singh氏のHot Chips 29での発表資料のコピーである)

次の図に、UltraScale+ HBMファミリの製品の一覧とその諸元を示す。ファミリにはFPGAチップが1、2、3チップのバリエーションがあり、さらに、1チップの製品にはHBM2が1個の製品がある。

Virtex UltraScale+ HBMファミリは4種類の製品がある。この表に、それらの製品の諸元を示す

次の図にVirtex UltraScale+ HBM(VU＋HBM)の主要な特徴が書かれている。16nmプロセスで製造されるFPGAチップにはハードウェアのHBM2コントローラが搭載されており、HBM2コントローラは230GB/sのバンド幅を持つ。そして、ハードのAXIスイッチを持ち、2個のHBM2の間で統一されたメモリアクセスを可能としている。

FPGAチップにはハードIPのPCIeのコントローラが搭載され、このハードIPはCCIXプロトコルをサポートしている。

16nmプロセスで製造されるFPGAチップには、HBMコントローラ、CCIXプロトコルをサポートするPCIeポートが搭載されている。また、2個のHBM2メモリが搭載されており、FPGA本体とはシリコンインタポーザで接続されている

DDR4 DRAMを使うVU7PF FPGAの場合は、メモリバンド幅は85GB/sで消費エネルギーは約27pJ/bitであったが、HBM2 DRAMを使うVU37P FPGAでは、バンド幅は460GB/s、消費エネルギーは約7pJ/bitである。つまり、バンド幅は5倍に増加し、消費電力は1/4に減少している。消費電力の減少は、FPGAとの間の配線が短く、信号線の寄生容量が減少したことと、信号振幅が小さくなったことが効いている。

ただし、HBM2は1対1接続しかできず、VU37Pの場合8GBの容量になってしまう。これに対してDDR4 DIMMを使えばもっと大きな容量のメモリを接続できるという違いがある。

前世代のVP7PとVU+HBMファミリのVU37Pの比較。メモリバンド幅は5倍に向上し、消費エネルギーは1/4に減少している。

HBM2あたり8チャネルのメモリコントローラ(HBM MC)が設けられており、コントローラは2つの64bit幅のスードチャネルを持っている。2つのスードチャネルはコマンドとアドレスバスをシェアしている。

各チャネルの信号は128bitであるが、それぞれのスードチャネルは256bit幅であるので、HBM2との1.8Gbpsの1/4の速度でAXIインタフェースに接続される。

HBM2に対応して、VU+HBMは8つのメモリコントローラを持っている。各メモリコントローラはアドレスとコマンドバスを共用する2つのスードチャネルを持っている

次の図は、4つのマスタがHBM2の4つのチャネルを使うという使用状況でのHBMメモリのインタフェースの効率を測定したものである。5組の棒グラフがあるが、UNRと書かれた3番目の組は4つのマスタがどのチャネルにもランダムにアクセスするというもので、PTPと書かれているその他の4つの組は、マスタとHBMチャネルが1対1に対応するPoint-to-Point接続の場合である。

そして、最初の2つの組はメモリアクセスのアドレスがリニアに変わるアクセス、最後の2つの組はアドレスがランダムに変わるアクセスである。そして、PTPはマスタとチャネルの対応が一番近くなる対応で、PTPWは一番遠くなる対応となっている。

各組の3本の棒グラフは、左からReadWrite、ReadOnly、WriteOnlyアクセスとなっている。

マスタとチャネルの対応がランダムに変化するUNRのケースはインタフェースの効率が60%～70%に低下している。PTPの場合はReadOnlyの場合は90%を若干超える効率となっているが、ReadWriteが混在すると70%から80%の効率に低下している。

マスタとHBMチャネルの対応やアクセスするアドレスのシーケンスを変えた場合のインタフェース効率の違い

Hot Chips 29 - HBM2を搭載し、CCIXを装備するXilinx UltraScale+ FPGA

目次

AIが勧める、あなたのための会員限定記事

Miroが生成AI搭載、ホワイトボードからイノベーション創出の場に

軍事とIT 第582回 JA2024ホットトピックス(3)BAEシステムズのHMDやRTXなどのセンサー機器

MicronのデータセンターSSDがNVIDIA GB200 NVL72の推奨ベンダーリストに認定

東大など、光合成活性を持った葉緑体の動物の細胞への移植に成功

なぜ2024年5月に発生したオーロラは日本各地で見えたのか？　極地研などがマゼンタ色に見えた理由も含め解明

鳥とは何か？　ゲノム解析から知ることができる特別展「鳥」が科博で開幕

編集部が選ぶ関連記事

Hot Chips 29 - ThinCIのグラフストリーミングプロセサ「GSP」

Hot Chips 29 - Wave Computingのディープラーニングチップ

Hot Chips 29 - ARMの新クラスタデザイン DynamIQ

Hot Chips 29 - 学生が作ったRISC-Vメニーコアチップ「Celerity」

関連リンク

日本で省エネを武器に環境保護の推進を目指すデルタ電子 - CEATEC 2024

NICTなど、外部磁場を必要としない新型超伝導磁束量子ビットを開発

AIネットワークについて知っておくべき5つのこと

AMD、最大192コアを搭載する第5世代EPYCを正式発表

AMD、CDNA 3ベースのAIアクセラレータ「Instinct MI325X」を発表

鴻海とNVIDIAが台湾最速AIスパコンを構築へ、鴻海はメキシコでのAIサーバ製造も計画

このカテゴリーについて

Hot Chips 29 - HBM2を搭載し、CCIXを装備するXilinx UltraScale+ FPGA

目次

AIが勧める、あなたのための会員限定記事

Miroが生成AI搭載、ホワイトボードからイノベーション創出の場に

軍事とIT 第582回 JA2024ホットトピックス(3)BAEシステムズのHMDやRTXなどのセンサー機器

MicronのデータセンターSSDがNVIDIA GB200 NVL72の推奨ベンダーリストに認定

東大など、光合成活性を持った葉緑体の動物の細胞への移植に成功

なぜ2024年5月に発生したオーロラは日本各地で見えたのか？ 極地研などがマゼンタ色に見えた理由も含め解明

鳥とは何か？ ゲノム解析から知ることができる特別展「鳥」が科博で開幕

編集部が選ぶ関連記事

Hot Chips 29 - ThinCIのグラフストリーミングプロセサ「GSP」

Hot Chips 29 - Wave Computingのディープラーニングチップ

Hot Chips 29 - ARMの新クラスタデザイン DynamIQ

Hot Chips 29 - 学生が作ったRISC-Vメニーコアチップ 「Celerity」

関連リンク

日本で省エネを武器に環境保護の推進を目指すデルタ電子 - CEATEC 2024

NICTなど、外部磁場を必要としない新型超伝導磁束量子ビットを開発

AIネットワークについて知っておくべき5つのこと

AMD、最大192コアを搭載する第5世代EPYCを正式発表

AMD、CDNA 3ベースのAIアクセラレータ「Instinct MI325X」を発表

鴻海とNVIDIAが台湾最速AIスパコンを構築へ、鴻海はメキシコでのAIサーバ製造も計画

このカテゴリーについて

なぜ2024年5月に発生したオーロラは日本各地で見えたのか？　極地研などがマゼンタ色に見えた理由も含め解明

鳥とは何か？　ゲノム解析から知ることができる特別展「鳥」が科博で開幕

Hot Chips 29 - 学生が作ったRISC-Vメニーコアチップ「Celerity」