信号を伝送するために必要なエネルギーが問題
図4.16は、計算処理のための回路の消費エネルギーとブロック間を接続するグローバルな配線を駆動するための消費エネルギーが、微細化でどのように変化したかを示すものである。回路の消費エネルギーは45nmプロセスから7nmまでに1/6に減少しているが、配線の駆動エネルギーは、60%にしか減少しない。結果として、微細化に伴ってグローバル配線を駆動するエネルギーの比率が大きくなる。このため、グローバル配線のエネルギーを減らすことが重要となる。
図4.17は計算処理を行うループを大まかに描いたものである。右側の演算部分では、演算の実行のためにレジスタから8バイトのオペランドを2個読み出し、8バイトの結果を1個書き戻す。この図ではDRAMからチップ上の2次(あるいは3次)キャッシュに読み込まれるのは1ビットとなっているが、これは1回に64バイトをDRAMから読み込むとしても、キャッシュミスによるメモリの読み込みは平均的には512演算に1回程度と見ているからである。
この図は2012年頃の22nmプロセスを想定しているが、右の演算部にデータを用意し、演算結果を格納するというデータの移動に掛かるエネルギーが82pJで、右側の実際に演算命令を実行する部分は14pJしかエネルギーを使っていない。
この演算に必要なエネルギーが微細化によってどのように変化するかを示したのが、次の図4.18である。7nmまで微細化すると演算エネルギーは1/3程度になるが、トータルのエネルギーは38pJとなり約0.4倍にしか減っていない。
DRAMアクセスのエネルギーを見てみると、読み出すアドレスを作り出して供給し、読み出したデータを受け取るというCPU側の作業に必要なエネルギーは0.8pJであるが、CPUへのデータ転送とDRAM内部で合計4pJを消費している。そして4pJの大部分はDRAM内部のデータを選択して送り出す部分で消費している。
これに対して、DRAMのメモリ部分の消費電力は比較的小さくなっている。
図4.20はDRAMのアクセス時間の内訳を示すものである。CPU内部では18ns、CPUとDRAM間に転送には6nsであり、別チップのDRAM内部では約40ns掛かっている。しかし、eDRAMの場合は、この時間は20ns程度となる。この差の20nsは同一チップ上のeDRAMのアクセスとDIMMアクセスの差であるので、信号を伝送するインタコネクトの差であるとすれば、まあ、アクセスタイムの大部分はインタコネクトという図4.20のコメントは正しい。
一方、eDRAMの場合はインタコネクトが大部分というのは多少無理があると思われる。
メモリテクノロジの選択
SRAM、DRAM、Flash、PCM、STT、FeRAM、MRAM、RRAMと言った各種のメモリテクノロジを比較したのが、次の図4.21である。図4.21の6つのグラフは、上段左からハーフピッチ(nm)、メモリセルサイズ(F2)、密度(Mb/mm2)。下段左からRd/Wrサイクルタイム (ns)、Rd/Wrエネルギー(pJ/bit)、書き変え可能回数となっている。
現状では、密度が比較的高く、アクセス速度もかなり速いという特性を持つDRAMが第1レベルの大容量メモリ、速度や書き換え可能回数などに難点はあるが、高密度といいう点で大きなメリットがあるNAND FlashやPCM(Phase Change Memory)が第2レベルとして使われる。
ここで興味深いのは、DRAMとNAND Flashはすでに実用化されているが、Borkar氏がNANDと並んでPCMを挙げている点である。ISC 2015の終了後の7月28日にIntelとMicronは連名で3D Xpointと呼ぶ新型の高密度NVRAMを発表している。筆者は、これはPCMではないかと考えており、Borkar氏の発表はこれを匂わせた記述になっていたのではないかと思っている。





