次世代のプレミアムモバイル向けIPを発表

英Armは5月26日(英国時間)、モバイルデバイス向け新IPとしてCPU「Cortex-A78」、GPU「Mali-G78」、NPU「Ethos-N78」などを発表した。これに先駆け、事前説明会が行われたので、その内容を基にご紹介したい。

本来この発表会は、5月末に開催予定だったCOMPUTEX TAIPEIにあわせて行われる予定だったのだろうが、COMPUTEX TAIPEIそのものが今年は流れそう(5月26日時点では9月28日~30日に開催予定だが、台湾への海外からの入国は10月1日から段階的に解禁という話であり、しかも展示会であるためWebで開催するのもなかなか難しいだろう)とあって、単独での発表となった形だ。

まず今回発表されたのは、2021年のプレミアムモバイル機器向けCPU/GPU/NPUスイートである(Photo01)

  • Arm

    Photo01:NPUもプレミアムモバイル向けスイートに、普通に加わる様になった

ラフな性能向上率はこんな感じである(Photo02)。

  • Arm

    Photo02:後でも話が出てくるが、これはアーキテクチャの改良に加え、プロセスの微細化による性能改善も含まれている。ちなみに前世代品は7FF、今回の製品は5FFを想定しているとの事

Cortex-A77の後継となるCortex-A78

まずCortex-A78であるが、これは現在のCortex-A77の後継となる製品、以前のロードマップで言う所の「Hercules」に相当するコアである。引き続きCortex-A55と対になる形でbig.LITTLE/DynamIQが構成できるとする(Photo03)

  • Arm

    Photo03:今回は命令パイプラインの詳細などは一切明らかにされていない

具体的な性能であるが、コアあたり1Wという同じ消費電力枠で言えば、Cortex-A78は20%ほど高速であり、その一方でエリアサイズは15%ほど節約できるとしている。ちなみにこれはCortex-A55まで含んだ8コアでの構成でのエリアサイズの比較なので、実際にCortex-A78とCortex-A77のエリアサイズを比較すると20%以上の節約になるとみられる。

難しいのは、これがプロセスの微細化も含んで実現されるという点だ。TSMCのN5で言えば、2019年のArm TechConにおける発表では、

  • 同じ消費電力なら15%高速化
  • 同じ動作周波数なら30%省電力化
  • 同じVddで動作周波数25%アップ
  • ロジック密度1.8倍
  • SRAM密度1.35倍
  • アナログ部密度1.2倍

とされており、おそらく2.6GHz→3GHzが最初の「同じ消費電力なら15%高速化」の効果である。一方で、ロジック密度は最大1.8倍としつつ、キャッシュなどは1.35倍とされるので、平均すると50%程度の密度向上と見なすべきだろうか? ここから見ると、8コアで15%の節約、というのはおそらく「同じプロセスで製造すると30%以上エリアサイズが増えるが、5nmに移行することで15%節約することに成功した」というあたりではないかと思う。

  • Arm

    Photo04:動作周波数の比で言えば15%ほどの差になるので、+5%がアーキテクチャ面での向上という事になる

Mali-G77比で25%の性能改善を果たしたMali-G78

次はMali-G78である。Mali-G77比で25%の性能改善とされている(Photo05)

  • Arm

    Photo05:ちなみにMali-G77と同じ、Valhallアーキテクチャに基づく製品の第2世代品となるそうだ

Mali-G77が7コアから最大16コアまでの構成なのに対し、Mali-G77は最大24コアまでの構成をサポートする。25%、というのは先ほどのCortex-A78と同じく5nmプロセスを使っての数字であるが、同一プロセスを利用し同一条件でMali-G77と比較して、6%~17%のゲーム性能改善がみられる、としている(Photo06)

  • Arm

    Photo06:煙とかガラス、ツリーなどの表現能力を向上、という事はパーティクルの処理とか割と細かい所の改良が追加されたのかもしれない

また、AI性能に関しても15%ほど向上としている(Photo07)

  • Arm

    Photo07:15%というのはちょっと中途半端な数字で、具体的にどんな形で改良を施したのか興味あるところ

さらにゲーム開発者向けに新しく「Performance Advisor」が提供されることも明らかにされた(Photo08)

  • Arm

    Photo08:要するにPerformance Profilerを核にボトルネックを分析するツールとみられる。Arm Mobile Studioの一部として無償で提供される模様だ。ただArm Mobile Studioではすでにstreamlineというプロファイルツールが提供されており、これとどう違うのかは現状不明

ところでMali-G88はプレミアムモバイル向けGPUだが、その下のグレード向け(Photo09)として、Mali-G68も同時にアナウンスがあった(Photo10)。こちらは最大6コアまで、という事になっており、1~6コアがMali-G68、7~24コアがMali-G78という使い分けになる模様だ。

  • Arm

    Photo09:例えばMediaTekだと、プレミア向けというのは「DImensity 1000+」とかになる訳だが、その下にゲーミング向けの「Helio G85」などがラインナップされており、こうしたところ向けと思われる

  • Arm

    Photo10:同一条件でMali-G78とどの程度の性能差があるのかは不明

前世代比で性能を2倍にしたEthos-N78

3つ目がEthos-N78である(Photo11)

  • Arm

    Photo11:ただしEthos-N77もN78も、コア数によってピーク性能が変わるので、要するにEthos-N78では最大コア数を2倍(=32コア)に拡張した可能性もある

最大性能で2倍、効率25%アップ、DRAM帯域40%アップといった数字が並んでいる。こちらはさらに細かい情報が出てきていないので推察するしかないのだが、Performance Efficiencyが25%以上向上というのは、内部のコアの動作周波数そのものは据え置きにしており、プロセスの微細化により25%の省電力化が可能になった、という可能性が高い。

DRAM帯域については、これは何かしらアクセスの最適化を図るような仕組みが加わった様にも思えるが、こちらも詳細は不明のままだ。先も書いたように、5nmに移行することでエリアサイズは平均して50%ほど削減できる。その分、コア数をEthos-N77より増やすことは難しくない、という発想ではないかと思われる。

実際、Ethos-N77の世代では最大4TOPsが実現可能だったのが、Ethos-N78では10TOPsが視野に入っているとする(Photo12)

  • Arm

    Photo12:大分Ethosのカバーする範囲が広がった感じになってきている

なおEthos-N78にもPerformance Advisorが提供される様になったそうである(Photo13)

  • Arm

    Photo13:これまではArm Mobile StudioではEthosがサポートされていなかったらしい

機能特化型のArmコアのカスタム開発が可能に

さて、今回の発表ではOne more thingがあった。それが「Cortex-X Custom Program」である(Photo14)

  • Arm

    Photo14:「このCustom Programに参加すると、Standard Cortex-A IPを自由にカスタマイズできるのか?」と確認したら、そうではない、という返事であった。またArm Cotex Technology ProgramをEvolveしたもの、という事だが具体的に何をどうEvolveしたのかはよく分からない

ちょっと古い話であるが、2016年にArmはCortex Technology License「Built on ARM Cortex Technology」を発表している。これはLead Licenseを取得しているパートナーのうちの一部に提供されるもので、あくまでも「Armと共同で」内部構造やマイクロコードのカスタマイズを行う事が出来るというものだが、このCortex Technology Licenseを一歩進めたのが今回のCortex-X Cusom Programとなる。

これを利用することで、例えばエリアサイズを犠牲にして性能を大幅に引き上げる、といった事も可能になる。もともとArmはPOP IPを提供する際には割とバランスの取れたPPA Optimizationを施しているが、当然ここで「突き抜けたパフォーマンスが欲しい」といったニーズには対応できない。もちろんPOPを使わずにRTLから物理実装を掛ければ、それなりに偏った構成にも出来るが、さらに性能が欲しいといったニーズに対応できるのがこちらということになる。

そのカスタマイズ版の最初の製品が「Arm Cortex-X1」で、Cortex-A77世代と比較して30%もの性能アップが可能になった、としている。

  • Arm

    Photo15:比較対象は3GHzのCortex-A77だそうで、別に4GHz駆動を可能にした、という話ではない様にも思える

面白いのはこのCortex-X Custom Programで生成されたコアはCortexブランドを名乗る事が可能で、またDynamIQを構築することも可能、という点だ(Photo16)

  • Arm

    Photo16:要するにInterconnectその他は標準的なArmのIPそのままに、セミカスタムコアを組み入れる事が可能になるという訳だ

最近で言えば、SamsungがArmコアの自社開発継続を断念してArmの標準プロセッサコアに回帰する(元々両方使っていたため、単に自社でのコア開発を断念、という方が正確か)動きを見せているが、そうなると今度は差別化が難しいという話が出てくる。そうしたニーズに応えるのがこのCortex-X Custom Programということになる。

従来プログラムとCortex-X Custom Programの違いは?

ではCortex Technology LicenseとCortex-X Custom Programの違いは? という話になる訳だが、説明によればCortex Technology Licenseの元で可能なカスタマイズは、設計の中で変更可能な比較的小さな領域に留まっており、性能への寄与もそれほど大きくはなかったという。ところがCortex-X Custom Programは、例えばそれが望まれるならNeon Unitの数を倍増させるといった、かなり性能へのインパクトの大きな変更も可能なのだそうだ(Photo17)。つまるところPPA Optimizationの新しいポイントを、顧客とArmで共同で決められるというのが、Cortex-X Custom Programの主眼なのだという。

  • Arm

    Photo17:後追いの形で示された、Cortex-X1の詳細。ついに5命令同時デコード/8命令同時発行に達した

このCortex-X Custom Programはまだ詳細が良く見えない部分もある。それを言えば、Cortex-A78についてもMali-G78/Ethos-N78についても、まだ不明確な点は多い。このあたり、もう少し詳細が判り次第レポートさせていただく予定だ。