Intelは8月13日(米国時間)、オンラインにてIntel Architecture Day 2020を開催、ここで様々な製品についてのロードマップのUpdateを行った。この模様はビデオでも参照できる(トータル2時間42分)が、本稿では取り急ぎプロセスとプロセッサ/GPUのパートだけ要点をかいつまんで、まずはご紹介したい。

Process

既存の10nmプロセス(Photo01)に対し、トランジスタの改良(Photo02)やInterconnectの改良(Photo03)により、10nm++は10nm+と比較して18%近い性能改善が出来た、とする(Photo04)。この新しいFinFETとSuperMIM(新しい配線層)を組み合わせたものはSuperFinと呼ばれ、2021年の製品に投入されるとの事だ(Photo05)。更にその後(2022~2023年?)には、更に改良したEnhanced SuperFinが投入される予定とされている(Photo06)。

  • SAQPによるパターニングとかInterconnectへのコバルトの採用、更にCOAG(Contact Over Active Gate)の利用など、技術的には随分難易度が高いもののオンパレードであった。

    Photo01: SAQPによるパターニングとかInterconnectへのコバルトの採用、更にCOAG(Contact Over Active Gate)の利用など、技術的には随分難易度が高いもののオンパレードであった。

  • Photo02: やはりゲートピッチは少し緩められる事になったそうだ。また、プロセスにも若干改良があるようだが、詳細は不明。

  • Photo03: 層間接続(VIA)の抵抗を3割減らしたとするが、具体的には不明。Hi-K材料の厚みを更に減らしたのも改良点とされる。

  • Photo04: ちなみに筆者はCannon Lakeを10nm、Ice Lakeを10nm+、Tiger Lakeを10nm++としているが、Intel的に言えばCannon Lakeは無かったことになっていて、Ice Lakeが10nm、Tiger Lakeが10nm+らしい。

  • Photo05: Rajaの着ているシャツがなかなかいい(笑)

  • Photo06: Interconnect Innovationsが気になるところだが、今のところヒントはない。EUVを使うつもりなら色々方法はあるのだろうが。

次にPackage。既にEmbedde Bridgeまでは実用化されている(Photo07)。ここで利用されているAIB(Advanded Interface Bus)であるが、AIB 2.0の開発が進んでおり、より広帯域かつ高密度な実装が可能とされる(Photo08)。またSRAMへTSVを利用した積層という新しいパッケージオプションも開発中(Photo09)との事だ。将来は、バンプピッチを10micron未満、転送エネルギーを0.05pJ/bitに抑えるものを提供予定としている(Photo10)。更にGNA 2.0を新しく搭載したとされる。

  • Photo07: Embedded BridgeはAgilex FPGAで実用化されている。また、2021年に投入予定のPonte Vecchioにも利用されるだろう。

  • Photo08: 帯域が大幅に増えるほか、密度も上がる。またI/O Voltageとして0.4Vをサポートし、これを利用すると転送エネルギー節約になるとされる。

  • Photo09: DRAMではなくSRAMなのがポイント。

  • Photo10: もっとも「提供予定」というよりは「目標」あるいは「願望」かもしれないが。

CPU

さてこの10nm SuperFinを採用する最初の製品がWillow CoveベースのTiger Lakeである(Photo11)。Willow CoveではMLC(Mid Level Cache:要するにL2キャッシュ)が1.25MBに拡大されたほか、分岐制御の高速化が図られたとしている。またSuperFinの採用で、従来よりも動作周波数の引き上げが可能であり、また同じ動作周波数なら低い電圧で動作する、としている(Photo12)。実際WebXPRT3を実施した場合、Willow CoveはSunny Coveよりも高い動作周波数で動くことがデモで示された(Photo13)。

  • Photo11: DecoderとかIssue PortそのものはSunny Coveと同じ様に見える。

  • Photo12: 縦軸が絶対値としての動作周波数かどうかは不明。

  • Photo13: 下が動作周波数のグラフ。黄色のWillow Cove(というかTiger Lake)の方が動作周波数が高い。

これに組み合わせるFabric/Memoryであるが、Fabricの帯域を倍増化したほか、LLC(L3キャッシュ)を12MBに引き上げている。またIce LakeのDDR4-3200/LPDDR4X-4267に加え、LP5-5400もサポートすることが明らかにされた。さらにGNA 2.0を新しく追加している(Photo15)。またDisplay Engineにも改良が施されたほか、ISPはIPU6という名前になり、最大6つのImage Sensorに対応できる様になったとする(Photo16)。

  • Photo14: まだRing Busを捨てるつもりは無い様で、ただしDualにして帯域を2倍以上に引き上げたらしい。

  • Photo15: Neural AcceleratorはSunny Coveにもあったが、Gaussianに関してはTremontで実装されていたもののSunny Coveには実装されていなかった。これをCPUコアの外に搭載した形だ。

  • Photo16: Display Engineはメモリバスに対してQoS的な形で帯域確保が可能になった模様。

GPUに関しては16EUのクラスタ×6でトータル96EU、更に専用の3.8MB L3キャッシュが実装されるとする(Photo17)。

  • Photo17: Ice Lakeが最大64EUなので、1.5倍に性能が引きあがった計算になる(まぁこれは最終的にはメモリ帯域とのご相談であるが)。

Photo18がTiger Lakeの全体の構成だが、他にPCI Express Gen4の対応とかUSB 4.0の実装なども行われた。

  • Photo18: この図ではCPUコアが4つになっているが、8コア製品のうわさも聞くだけに、このあたりはどうなるのか判らない。

さて、CPUではもう一つ、Alder Lakeの存在も明らかにされた(Photo19)。ただ現状は"Alder Lakeはパフォーマンスとバッテリーライフの両方を狙ったものだ"という以上の説明はなかった。とりあえずLake Fieldの後継であるHybrid構造になることだけは明らかであるが。

  • Photo19: 現状では、単にそういう製品が予定されているという以上の情報はない。

GPU

Raja Koduri氏の指揮の元に開発されているX^e GPU(Xe GPU)であるが、今回そのブランディングが公開された(Photo20)。最初に投入されるのはTiger Lakeに内蔵されるX^e LP(Xe LP)であるが、先に触れたように96EU構成(Photo21)で、また動作周波数もGen11に比べて大幅に向上&高効率になっているとする(Photo22)。

  • Photo20: 統合GPUがX^e LP、Discrete GPUがX^e HPG、AI向けがX^e HP、HPC向けがX^e HPCということになる。

  • Photo21: 全体が3つのSliceに分かれ、各々が2つのSubsliceから構成されるという構造になっている。

  • Photo22: 先ほどのPhoto12と併せてみると興味深い。やはりこれも10nm SuperFinの効果が大きいのだと思われる。

各々のEUは8wideのFP/INT ALU(32bit×8 or 16bit×16。他にINT 8もサポートするそうだ)構成となっている(Photo23)。また先にPhoto17でGPUのL3は3.8MBと書いたが、これはTiger Lakeの場合の話で、技術的には最大16MBまでのL3が実装可能だとする。

  • Photo23: EMというのはExtended Math ALUの略で、これは特殊演算向け。これはFPU/INTのパイプラインとは並行して動作するそうだ。

Media Codecは従来比で2倍のスループットになっているとする(Photo24)。Display Engineは最大4出力に対応した(Photo25)。このX^e LPはTiger Lakeの他、今年1月にお披露目されたDG1、更にサーバー向けのSG1という製品も用意されることが明らかにされた(Photo26)。このSG1はサーバー向けの顧客の中で、Media Encoderを使いたいといったニーズがあり、こうしたものに応えた製品ということだそうだ。

  • Photo24: 12bit end-to-endのビデオパイプラインが実装された。またHEVCのScreen Content Codingもうまく使えれば効果そうである。

  • Photo25: 最大360Hz出力とかDual eDPとかは結構使い出がありそうである。

次がX^e HP(Xe HP)だが、こちらは1/2/4 Tileの構造の製品が用意される(Photo27)。Koduri氏が6月25日にTwitterに投稿したものは、この4 Tileのサンプルと思われる。今回、このサンプルを利用してのピーク性能が示された(Photo28)。ラフに言って1Tileあたり10.5TFlops。4Tileで42TFlopsとなる。

Photo27: この4 Tileのものが人間の手のひらと同程度のサイズである。

  • Photo28: デモそのものはあくまでスケーラビリティを示すものだが、性能も同時に公開された形だ。

Photo29は先に示した4つの製品のパッケージ技術をまとめたものである。ここでExternal、とあるのはおそらくTSMCの5nm/6nmと思われる。

  • Photo29: 気になるのはPonte VecchioのRAMBO Cache Tileが10nm Enhanced SuperFinでの製造になっている事だが、間に合うのだろうか?

ということで

説明はこの後ソフトウェアやFPGA、メモリなどもカバーするものであったが、まずは興味をそそられるであろうプロセスとCPU/GPUについて簡単に速報をお届けした。このうちTiger Lakeとか(今回は触れられなかった)Ice Lake-SPについては、来週から開催されるHot Chips 32で詳細な説明が公開される予定なので、こちらのレポートという形でまたお届けしたい。