FTF Americas 2011 - 28nmとMulti-Threadingで性能を4倍にしたQorIQ AMP

さて、Su氏の説明はこのあたりで終わりなのだが、これとは別にTechnical Sessionで"QorIQ AMP Series - A look Inside"というセッションが用意され、こちらでは同社FellowでDirector of ArchitectureのJohn Arends氏が説明を行った。このスライドを元にもう少しだけディテールを紹介したい。

まずラインナップ(Photo11)である。先のPhoto10と似ているが、こちらのほうがやや判りやすいと思う。従来だとQorIQ P3が15W、QorIQ P4が30WのTDPで動作しており、今回明言はされていないが、QorIQ AMPも概ねこの枠を守る形になると見られる。

Photo11:今回発表されたQorIQ T4240という製品は、これまで同社のハイエンドコアが投入されてきたセグメントの新製品、ということが良くわかる

次のPhoto12はPhoto08に近いが、異なるのは物理コアの構成である。QorIQ AMPでは4コアを超えるものについては4コアごとに1つのCPU Clusterを構成し、このClusterあたり2MBのL2 Cacheが搭載されるという形になることがここから判る。

Photo12:Photo08とのもう1つの違いは、Memory Controllerの数である。Photo08では4つあるように描かれているが、こちらでは3つである。この後のスライドを見る限り、3chが正しいようだ

さて最大4倍以上という性能であるが、今回具体的な数字として示されたのがこちらである(Photo13)。さすがに4倍を超えているのはDhrystoneのみで、純粋なCPU性能比較に近いSPECint 2000で3倍ちょい、EEMBCの各種ベンチマークで概ね3.5倍前後といった数字である。もちろん現時点ではまだT4240の実物が存在しないので、これはシミュレーションを基にした予測値と思われるが、そうしたことを考慮しても十分高い数字といえる。

Photo13:さすがに4倍というのはピーク値で、実効性能では3倍強といったところ。T4240の主戦場はNetworkingとかTelecomで、そこで3.5倍近い性能を出しているのは優秀と言えよう

ちなみに内部構造はこんな感じ(Photo14)で、CoreNetを核に、主要なコンポーネントがぶら下がる格好である。ちなみにP4080の構成はこちら(Photo15)で、対比していただければわかりやすいかと思う。詳細は不明だが、おそらくCoreNet Fablicの帯域そのものも、P4080に比べて大幅に引き上げられていると思われる。また、P4080ではコア毎に独立して128KBのL2だったのが、T4240では4コアごとに共有L2が2MB用意されており、このあたりも性能改善にはかなり寄与していそうだ。


Photo14:DPAAは"Datapath Acceleration Architecture"の略で、4種類のアクセラレータ全体をまとめたもの、CPCはCoreNet Platform Cacheで要するにL3キャッシュである	Photo15:"QorIQ P4080 Communications Processor Product Brief"のFigure 1より抜粋

さて、次がAltiVecである(Photo16)。Freescaleでは、古のPowerPC G4ことMPC7400、およびe600コアを使ったMPC8640/8641で搭載されているが、これらはいずれもPowerPC Classicベース。PowerISAベースとなったe200/e500ではAltiVecは搭載されていなかった。

Photo16:New Instructionの詳細は不明である。PowerISAの最新版のVersion 2.06 Revision Bにも、video analyticsに使えそうな命令が見当たらないからだ。もっともVideo analyticsはいわゆるSADの計算とかはしない気もするので、どんな命令が用意されるのかはちょっと気になるところ

もっともPowerISAそのものは、VSX(Vector-Scallar Extention)という形でAltiVecの上位規格をすでに定めている。そもそもAltivecにはいろんな実装があり、オリジナルのAltiVec以外にIBMがPowerPC G5で定めたVMXや、その拡張版でXBOX360に搭載されたXenon CPU実装されたVMX-128、それと今説明したVSXがある。いずれも命令はAltiVec互換なのでソフトウェアはそのまま利用できるが、たとえばVSXではレジスタが64個に増やされた(オリジナルのAltiVecは32個)というように、細かいところでは違いがある。今回確認はできなかったが、オリジナルのAltiVecではなくVSX準拠のSIMDエンジンが搭載されたのは間違いない(というか、いまさらオリジナルのAltiVecを搭載するメリットがない)と思われる。とはいえ、相変わらず240GFlopsの数字の計算が良くわからないのはここでも同じである。

最後が省電力周りである。今回、明確な形でT4240のTDPは明確にされていないが、おそらくフル稼働時の消費電力は大きくは変わらないと思われる。ではこの50%の削減は何か? というと、もっぱら待機時の消費電力を差しているものと思われる。CPUコアそのものも6ステートの省電力動作モードを持ち、ほかにClock Gating/Power Gatingを積極的に施しているからで、こうした方策はStatic Power、つまり待機時のリーク電流などの削減には効果的でもDynamic Power、つまり動作電流削減には大きく影響しないからだ(もちろん無駄なユニットの消費電力を削減するという効果は多少期待できるが)。Dynamic Powerの削減では28nmプロセスへの移行は間違いなく効果的だが、おそらくこれはコア数の増加+SMTの搭載で相殺されていると思われる。