セカンド・オピニオン(241) RAMBUSのTBI(2)

面白いのはここからだ。従来だとC/A、つまりCommand/Address線はShared Busの構成であり、またベースクロックに同期(つまりデータ転送速度とは一致しない)ものだったのだが、TBIではC/Aもデータ同様の構成に切り替わった(Photo11)。本来C/Aでは当然Row/Columnのアドレスを送ったりするから、最大12bit程度のデータ幅が必要になる。しかしながらTBIではデータが32倍速で送られるから、ベースクロックの1Cycle未満でコマンド/アドレスが転送できることになる。もっと言ってしまえば、こうなるとバス幅が関係ないから、Row/Columnで多重化の必要性すらなくなることになる。このあたりのコマンドをどうするのかは今回発表が無かったが、FlexLink C/Aはメモリのプロトコルそのものを変えてしまえる可能性があることがお解かりいただけよう。ちなみにRAMBUSでは、Command/Address線を1対にすることで、配線面積を大幅に削減でき、かつCommand/Address線の帯域をスケーラブルに出来る(必要ならC/A Linkを複数使う)と主張している。


Photo10:例えばBase Clockが500MHzだとすると、1 Laneあたりの転送速度は16Gbpsという事になる。		Photo11:結果としてC/AもPoint to Pointの構成となり、しかもデータと同じレートで転送されることに。

さて、C/Aをデータと同じ配線方式にすることで、結果として全ての配線がPoint-to-Pointの差動式に切り替わった。RAMBUSはこれをFDMA(Fully Differential Memory Architecture)と称している(Photo12)。当然C/Aを含む全ての信号線にFlexPhaseをベースとしたスキュー吸収メカニズムが採用されており、メモリと接続する全ての配線が差動式で、しかも非等長配線で接続できるようになった訳だ。加えて言えば、FlexPhaseは1個のメモリチップのみならず複数個のメモリチップでの同期を取ることも可能になっており、TDIではこのFlexPhaseをEnhanceしたものを搭載することで、よりスケーラビリティを確保しやすいとしている。

Photo12:XDRの場合ですら、Command/Address線はSingle Endedだった。勿論こちらは実転送速度の8分の1の速度だったからこれで良かったわけだが。尤もRAMBUSによれば、このCommand/Address線の速度が、性能を上げる上でのボトルネックとなっており、FDMAによってこの制限が無くなったので、今後はスケーラブルに性能が上げられるとしている。

さて話しを戻すが、1 Laneあたり16Gbps=2GB/secの帯域が確保できたことになる。では1TBにはどうするか? というと、これを512Lane用意すれば実現できることになる。例えば32 LaneのDRAMモジュール(DRAMチップ? を作り、これを16個並べると、32×16＝512となり、1TB/secが実現できる、というのがRAMBUSの主張だ(Photo13)。

Photo13:というわけで多少無理な感じは無くもないが、あくまでもこれは構成例であって、現時点で難癖をつけるのもアレであろう。ちなみに32bit幅の場合、DQが32対、C/AとClockが各1対で合計34対、68本の信号線となる。電源とGNDを入れて、メモリチップ(モジュール?)は120pin強といったところか。SO-DIMMと同程度のサイズでも実現の可能性がある程度の規模で、これで64GB/secの帯域だから、ちょっと恐ろしいものはある。

RDFにおいてはまずTBIへの第一歩として、実際に16Gbpsで動作するテストボードが展示され、TBIの主張が空論でないことが示された(Photo14～19)。


Photo14:TBIの要である32倍速の実現方法に関しては、今回詳細は発表されなかった。ただ何かしらのEqualizerがキーである事がここから判る。Test boardの設計には4層を想定、うち2層でルーティングを行わせている筈との話だった。		Photo15:テストボード。中央がTDIのコントローラで、その上の2つのものが、Memoryの動作を模したシリコンチップだそうである。このシリコンチップ、パッケージにはXDR DRAMのものを使い、チップそのものは片面がFlip Chip、もう片面がWirebondで実装を行っており、既存のDRAMと同じテクノロジーを使うことに留意した、としている。


Photo16:チップへの配線の拡大図。チップへは各々16対(2チップで合計32対)の信号線が接続されている。合計転送速度は64GB/secに達する。		Photo17:Photo14に出てきた"Equalized TX Eye"の様子。まだEye Sizeの実測値は時期尚早のためか、表示されていなかった。


Photo18:もう一つのデモの内容。		Photo19:意外に波形が乱れていないというか、到底16Gbpsの信号に見えない。

ちなみにこのTDI、現時点ではあくまで技術的なInitiativeであり、これを利用した製品がでてくるまで3～5年は必要で、現実的には2010年～2011年といった頃になるであろうというのがDonnelly氏の見解であった。またFlexPhaseのEnhancementについては、現行のものよりGranularityを小さくすることで、よりきめ細かなタイミング調整を可能にするという話であった。もっとも信号転送速度が8倍速→32倍速に増えるから、Granularityに関しては最低でも4倍以上小さくしないと現在と同程度のきめ細かさは確保できない計算になるので、考えてみればこれは当然かもしれないが。

ちなみにQ&Aのセッションでは、例えばSilicon Throughholeを使ったチップ積層などとの優劣を問われて「我々のSolutionは、現在のInfrastructureを使い、同程度のcostでより高いBandwidthを実現できる事を重要視しており、かつ確実にこれを実現できることを目指している」との返事が返ってきた。ただ、2010～2011年といえば、そろそろStackingが現実的に出てきそうな頃合であり、その時点での優劣がどうなっているか、は微妙な感じではある。勿論実装まで考えると、現在の部品実装装置とかリフローがそのまま使えるTBIの方が安くあがりそうに見えるのは事実なのだが、このあたりはもう少し時間が経過してみないと何とも言えないところだ。

RAMBUSのTBI(2)

この連載の前後回

「Radeon Software Adrenalin 24.4.1」公開 - 『Manor Lords』対応

Intelの1〜3月期決算、弱いガイダンスで株価下落、AI PCに明るい見通し

「Micron 2500 NVMe」発表 - 232層QLC NAND採用PCIe 4.0 SSD、読み取り性能24%改善

NVIDIAもCOMPUTEX 2024にあわせて基調講演実施！国立台湾大学総合体育館で登壇

ASUS ROG Allyがついに「AMD Fluid Motion Frames（AFMF）」機能に対応 - パフォーマンス向上へ

Zen 5シリーズは「Ryzen 9000」と呼称？ GIGABYTEが言及

このカテゴリーについて