8月17日から19日に開催されたHot Chips 23の一番最後の発表がAMDのLlano APU(Aシリーズプロセサ)とBulldozerコアベースのプロセサ(今年の夏から来年にかけて製品化予定)に関する2件の発表であった。

AMDのLlano APU

AMDのLlanoは、AMDがAPUと呼ぶCPUとGPUを統合した製品であり、Aシリーズは、ネットブックなどの低電力小型ノートPC用のEシリーズに続く第2弾のシリーズである。

AMDのLlanoについて発表するDenis Foley氏

AMDのLlanoは次の図のようにStarsと呼ぶプロセサコアを4個とRADEON GPUを内蔵し、2チャネルのメモリコントローラや合計24レーンのPCIExpressもCPUチップに内蔵しているということで、全体的な構造はIntelのSandy Bridgeと変わらない。発表者のFoley氏は、「Intelと同じだが、こことここが違う…」と説明した方が簡単と冗談を言っていた。

AMDのLlanoチップの概要(以降の図は全てHot Chips 23の発表資料から転載)

Sandy Bridgeとの構造上の違いは、リングバスではなくクロスバでコア、GPUやメモリインタフェースなどを接続している点である。また、Llanoは、次のチップ写真に示すようにCPUの4コアとほぼ同程度の大きな面積をGPUが占めている。Sandy BridgeとLlanoのチップサイズはほぼ同じであるが、Sandy BridgeのGPUはプロセサ4コアと比較して半分程度の面積しか占めておらず、AMDとIntelのGPUに掛ける比重は大きく異なっている。

Starsコアは従来のK10コアの改良型であり、EシリーズAPUに使用されているBobcatコアや、後に述べるBulldozerコアよりも前の世代のマイクロアーキテクチャであり、AVXなどの新命令はサポートしていないが、全般的にはEシリーズのBobcatコアよりも高性能である。

Llanoに搭載されたGPUコアはVLIW-5と呼ばれる4個のStream Coreと1個のSFU(Special Function Unit)と分岐ユニットを持っている。4個のStream Core全体で毎サイクル4回の32ビット精度の浮動小数点の積和(FMULADD)演算が実行でき、SFUも1回のFMULADDが実行できるので、全体では5回の掛け算と5回の加算ができる能力をもっている。

Llanoに搭載されたRADEON GPUの演算コア

そして、16個のStream Coreが同じ命令で並列に動作するSIMDユニットを構成する。最上位のA8プロセサのGPUは5個のSIMDユニットを集積している。つまり、合計では80個のコアがあり、毎サイクル800回の32ビット浮動小数点演算を実行できる。GPUのクロックは600MHzであるので、これは毎秒480GFlopsのピーク性能ということになる。

次の図の中央部分に書かれた5行16列に並んだ部分がVLIW-5コア群で、命令の処理部とグラフィックス処理の専用機能部分が図の上側に書かれている。図の下側にはGPUの2次キャッシュとメモリコントローラという構成になっている。

LlanoのGPUのブロック図

Llanoの4組のCPUコアと2次キャッシュは同じ電源に接続されているが、それぞれ別個に電源をオン/オフすることができる電源スイッチを持ちパワーゲートを行えるようになっている。これもIntelの4コアのSandy Bridgeとまったく同じである。

また、GPU側にもCPUとは別個の電源を持ち、内部のブロックごとに電源スイッチをもっている。

LlanoのGPU部分のパワーゲート構造

ちょっと面白いのはCPU+L2キャッシュ部はVSS(グランド)側にNMOS-Trのスイッチを入れてグランド側を切る構造になっているのであるが、同じチップのGPU側ではVDD(電源)側にPMOS-Trを入れている点である。LlanoはGlobal Foundriesの32nm SOIプロセスで作られているので、Starsコアはそれに合わせて最適なVSS側のスイッチで設計されたが、GPUは伝統的にバルクプロセスを使っており、SOIのLlanoでもVDD側のスイッチを使う設計を流用することになったのではないかと思われる。

省電力のための電源制御は、AMDもIntelもほとんど同じである。Llanoはプロセサ各部の動作をカウントし、それに重みを掛けて消費電力値を集計するデジタルパワーモニタを装備している。

AMDのLlanoのデジタルパワーモニタリング

そしてCPU側のCACモニタとGPUのCACモニタの電力情報を使ってTurbo CORE Managerと書かれたブロックがPboostからPminまでの状態の移行を制御している。

AシリーズAPUの性能として次の図が示された。

Aシリーズ(Llano)APUの性能

3DMark Vantageで測定されたグラフィックス性能では、EシリーズのE-350は670であるのに対して、Llano APUは、A4-3300Mでも1863、最上位のA8-3510MXでは2841と4倍以上の性能を持っている。そして、左下のPCMark Vantage ProductivityベンチマークではAシリーズAPUはE-350の1.5~2倍程度のCPU性能を持っていることが分かる。また、右下の計算能力の比較では、E-350が100GFlopsであるのに対してAシリーズAPUは240~415と2倍以上の性能を持っている。

GPUがフルに動作してグラフィック性能や計算性能の高い状態ではより多くの電力を消費するのは当然であるが、右上のWindowsがアイドルの状態のバッテリライフの比較では僅かではあるがE-350より長い電池寿命を実現しているという優れものである。