横浜で開催されたCOOL Chips XIVの最終日に、AMDのシニアフェローのDenis Foley氏がAMDのFusion APUである「Zacate(商品名はE-350)」について基調講演を行った。

AMDのZacateに関して基調講演を行うFoley氏

Zacateは2個のBobcatプロセサコアとグラフィックスやビデオ機能を1チップに集積したチップで、AMDではこのようなCPUとGPUを集積したチップをAccelerated Processing Unit(APU)と呼んでいる。

Zacateは40nmのバルクCMOSプロセスで製造され、チップ面積は75平方mmである。プロセサのクロックは1.6GHzでありL2キャッシュは半分の80MHzクロックで動いている。そして、GPU部分のクロックは492MHzとなっている。

Bobcatコアのクロックの1.6GHzはIntelのAtomと同じであるが、AtomコアがIn-Order実行であるのに対してBobcatはOut-of-Order実行をサポートして性能を上げている。また、グラフィックス部は80個のSP(Streaming Processor)を持ち、ピーク演算性能は78GFlopsに達する。これはIntelのSandy Bridgeの内蔵グラフィックスよりも大幅に強力であると思われる。

次のフロアプランの図にみられるように、左辺にBobcatコアと512KBのL2キャッシュが2組配置され、75平方mmのチップの中央部分の35平方mmの面積をグラフィックス(GFX)部が占めている。そして、右辺にはDDR3メモリインタフェース、上辺はPCI Express、下辺はディスプレイインタフェースという配置になっている。

Zacateチップのフロアプラン

このように、Zacateの概要を説明した後、Foley氏は消費電力削減技術について詳しく説明を行った。

2個のBobcatコアは同一のVDD電源から高VtのPMOSトランジスタで作られた低リーク電流の電源スイッチを経由して電源が供給されており、それぞれのコアがアイドルの場合には電源を切ってリーク電流も無くすことができる。

Bobcatプロセサコアの電源供給系

SOIプロセスで作られるLlanoやBulldozerコアではVSS側にNMOSトランジスタで作った電源スイッチを入れているが、40nmバルクプロセスで作られるBobcatではスイッチは電源側に入っており、PMOSトランジスタで構成されている。

グラフィックス側の電源も同様の造りで、GMC(Graphics Memory Controller)、UVD(Universal Video Decoder)とグラフィックスコアにはそれぞれのPMOSの電源スイッチが設けられている。なお、AONと書かれたノースブリッジ部分は常に動作する必要があるので電源スイッチが無く、常にオンとなっている。

グラフィックス側の電源供給系

そして、これらの電源スイッチのPMOSトランジスタは、次の図に示すように、8層目の金属配線(M8)と7層目の金属配線(M7)の交点部分に設けられ、チップ上で分散配置されている。

グラフィックス側の電源スイッチの配置

PMOSトランジスタのチャネル幅の合計は、Bobcatコアと512KBのL2キャッシュのペアの方は約1m、GPU側全体では1.93mであり、チップ全体では4mにのぼる。

そして、このM8とM7の交点のPMOSトランジスタを詳細に書くと、次の図のように大小2種類のトランジスタから構成されている。

電源スイッチPMOSトランジスタは2種類のペアで構成されている

電源がオフの状態からオンにすると、オンになった回路の容量を充電するために大きなラッシュカレントが流れる。これにより電源電圧が瞬間的に低下すると、同じ電源レールから電力を供給されている動作中のブロックの電源にノイズが載り、誤動作してしまう恐れがある。このため、PMOSスイッチは、まず、Wakeと書かれた小さい方のトランジスタをオンにして、少ない電流で電源電圧近くまで充電を行い、その次にRunと書かれた大きい方のトランジスタもオンにして大電流を流せる状態にして動作を始める。

また、Wake、Run側ともにゲートに供給するエネーブル信号は直列に接続して、エネーブル信号の伝搬につれてPMOSトランジスタが順次オンして行くようになっている。そして、Wakeのエネーブルが端まで到着すると、その信号をパワーマネージャに入れ、Delayの時間だけ遅らせてRunのエネーブルを生成している。Zacateでは、このように電源オン時のラッシュカレントを抑えて電源ノイズを減らして安定に動作するように工夫されている。

Zacateが対象とする小型のノートPCでは液晶モニタのバックライトの消費電力がかなり大きな比率を占める。このため、Zacateのディスプレイコントローラでは、新たな画面が表示されると、その後、時間が経つにつれて徐々にバックライトの輝度を落とし、その分、画像のピクセルの輝度を上げるAdaptive Backlight Modulationという技法を使い、人間の感覚的には画面の変化を感じないようにしてバックライトの電力を下げている。

また、画面のリフレッシュのためにメモリから表示データを読み出す動作もかなりの電力を消費するので、圧縮によりメモリから読むデータ量を減らし、DRAMのバースト転送を使うなどの方法で表示のリフレッシュに必要な電力を削減している。

そして、最後にZacateの性能に関して、次の図を示した。

Zacateと他のプロセサの性能比較

右上の3本の棒グラフは左からZacate、ARMのCortex-A9、IntelのAtomのCoreMark/MHzの性能比較である。これによると、同一クロック周波数の場合、Zacateを100%とするとCortex-A9は60%弱、Atomは50%強の性能となっており、Out-of-Order実行のZacateがAtomより高性能であることを示している。

下の棒グラフはSiSoftのMultimedia FP性能の比較で、左が1.0に正規化されたIntelのN550 Atomで右がE350 Zacateの性能である。左側の赤い棒の性能比ではZacateは5倍、右側の性能/Wでも2.3倍の性能となっている。

また、Zacateのグラフィックス部の性能としては、同社のRadeon HD 4270M GPUと比較しても高い性能が得られているというデータが示された。