IDF 2012 - 次期Intel Core「Haswell」の内部構造を探る - Uncore(GPU/Media Block)編

前回のレポート(記事はこちらのリンク)に引き続き、今回はUncoreの部分について、これもわかる範囲でご紹介したい。

■「Haswell」の内部構造、前回までのレポートはこちら
・IDF 2012 - 次期Intel Core「Haswell」の内部構造を探る - 拡張命令(AVX2/TSX)編
http://news.mynavi.jp/articles/2012/09/18/idf03/
・IDF 2012 - 次期Intel Core「Haswell」の内部構造を探る - マイクロアーキテクチャ編
http://news.mynavi.jp/articles/2012/09/18/idf02/

GPU

既に広く知られている話であるが、Haswell世代では、GPUに関してはGT1/GT2/GT3という3種類のSkewが用意される(Photo01)。このうちGT1とGT2は2コアのままで、GT3のみが4コアとなる形だ。ただキャッシュサイズや動作周波数はスケーラブルとなっており、具体的にどんな性能で出てくるか? というのは最終的に製品発表を待つ必要がある。


Photo01: ポジション的には、従来ハイエンドだったものがメインストリームのGT2扱いとなり、トップエンドに新たにGT3が追加された感じになる。ちなみに"Entry-Level Cards are Dead"と言い切れるほどIvy BridgeのGPUが高性能だったか? と言われると「?」ではあるが。	Photo02: ちなみにGT3はMobile向けのみで、Desktop向けSkewはGT2までとなる。理由は後述。

そのGPUコアであるが、大雑把に言えばこんな形に6つのDomainから構成される(Photo03)。大きな構造はIvy Bridge世代のIntel HD Graphics 4000とそれほど変わらないが、細かい部分がいろいろと手が入っている。まず全体を通してみると、DirectX 11.1やOpen CL 1.2/Open GL 4.0への対応が主なところであるが、Ivy BridgeのIntel HD Graphics 4000と比べると全体に随分強化されている事が判る。ちなみにハイエンドのGT3の場合は、Photo05の様にシェーダ部とL3キャッシュが倍増されているのが判る。


Photo03: ちなみにこれはGT1/GT2の構成である。	Photo04: これはIDF San Francisco 2011で公開されたHD 4000の内部構造。

Photo05: Intelの用語では、Slice CommonとSub-Sliceのみが倍増された形。面白いのは、追加されたSlice CommonやSub-Sliceは、Global Assetに直接繋がるのではなく、ディジーチェーン式に繋がる事だ。これがPhoto03で言うところの"Scale-up"への対応なのだろう。

さて、まずGlobal Assetと呼ばれる描画命令を管理・発行する部分である。変更点としては、Command Streamer(CS)の仲に、新たにResource Streamerと呼ばれる機能が追加されたこと(Photo06)、及びGT3に向けてVertex Fetch→Clip/Setupの処理性能を倍増したこと(Photo07)が挙げられている。


Photo06: 資料を見る限り、Resource Streamerは描画命令フェッチというよりは描画命令に伴って必要となるデータのフェッチを事前に行うための機能に見える。	Photo07: ちなみにPhoto04と見比べていただくと判るが、前世代ではL3キャッシュから直接データが戻るパスが残されていたが、Haswell世代ではこれがなくなっている。もっともこれは、本当に無くなったのか、単に図を描く際に省略したのかは不明。

一方Slice Commonに関しては、複数のSub-Sliceをサポートすると共に、Slice Commonそのものも複数設けられるようになった(Photo08)事と、Sub-Sliceも複数もてるようになったこと(Photo09)、またTexture Cacheからのサンプリング性能を大幅に引き上げた(Photo10)が違いとして挙げられている。


Photo08: この追加したSlice Commonはスクリーンの別々の場所をそれぞれ保持できる(つまりSLIとかCrossFireの様に、同じテクスチャやスクリーンデータを保持する訳ではない)。	Photo09: これはPhoto04と対比するとわかりやすい。ちなみに1つのSlice CommonがいくつのSub-Sliceを保持できるのかはうっかり聞き損ねた。

Photo10: 逆に言うと、各Sub-Sliceの機能強化はこのテクスチャサンプリング性能の強化程度で、あとはほぼHD 4000のものを踏襲していることが判る。

性能に関しては今回あまり明確にされていない。勿論基調講演レポートにあるように、消費電力が同じなら性能はIntel HD Graphics 4000のほぼ倍、性能を同じにすると消費電力はほぼ半分になるという目安は示されているが、実際にはあまり細かい数字はTechnical Sessionでは出てこなかった。それでも、従来に比べてより精密な描画が出来る(Photo11)とか、より長い時間遊べる(Photo12)としている。


Photo11: フレームレートがHD 4000程度でよければ、あまった性能をモデリングの精度向上やLODの改善に当てられる、という話であるが、さてHD 4000程度のフレームレートで十分か、というのは微妙なところ。	Photo12: これも例えばフレームレートを60fpsとかに固定すれば、より消費電力が減る分、バッテリー駆動を長く出来るという話だが、問題はDeep Blackをバッテリーのみで運用というケースはどこまであるのだろう?

問題はマーケット規模であるが、Intelの分析では、GT3などで不足するようなゲームは全体からするとごくわずか(Photo13)であり、ここはあきらめてDiscrete Graphicsを使うと割り切るというのがIntelの方針である。逆に、このEnthusiast向けをあきらめれば、Mobile GPUやGDDR5メモリに費やしていた空間を他の用途に使える(Photo14)というのは、これだけ見れば正しいが全体として筋が通っているかどうかちょっと微妙なところ。ちなみにPhoto15とPhoto16は、消費電力との絡みであるのだが、パネルサイズを小型化し、薄型に突き進んでゆくと、どうしても消費電力的に厳しくなるのは当然の事で(Photo15)、今のトレンドが薄型化/軽量化であることを示して(Photo16)HaswellのGraphicsの優位性を示した。こうしたマシンでも、幅広い範囲のゲームが利用できるようになる、というのが同社の説明であった(Photo17)。


Photo13: なんか30m(3千万本)のゲームタイトルがそのまま下のPerformance & MainstreamとかCasual-Web-F2Pにも出ているような気がするのは、きっと気のせい。	Photo14: この話そのものは筋が通っているが、むしろ差別化のためにOEMベンダーがDiscrete Mobile GPUを搭載しているのが現状な気がする。


Photo15: パネルサイズ13.3inch、厚み12mmとかになるとシステムの消費電力は12W以内に収めねばならず、こうしたところでは当然Discreteはありえないわけであるが。	Photo16: 縦軸は「余分に$50/$150/$250を払っても良い」という人数で、どのスクリーンサイズでも薄型なら余分に払っても良いという人数が、厚型でも余分に払っても良いという数字を上回っている、というのが同社の主張。

Photo17: 先ほどのPhoto13をひっくり返したような構図であるが、実は既存のEnthusiast向けの規模はどんどん縮んでおり、むしろWebサービスなどを使ったゲームの方が今後は伸びる、というのはIntelだけでなく他も指摘するところ。レポートはまだ書いてないのだが、AFDS 2012におけるDavid Perry氏(CEOfficer兼Co-Founder, Gaikai)の基調講演もまさにこういう話で、こうしたトレンドがある程度起こりつつあるのは事実ということを伺わせる。とはいえ、既存のユーザーにはあまり面白くない話かもしれないが。

次ページ：Media Blocksについて