Armが自社設計のCPU「AGI CPU」を発表

英Armは現地時間の3月24日にハイブリッド形式で「Arm Everywhere」と題するイベントを開催し、同社として初のCPUシリコン製品である「AGI CPU」を発表した。今回は、その発表を踏まえて、その内容をご紹介したい。

AGI CPUは2つのダイからなるチップレット構成となっており、TSMCの3nmプロセスで製造される(Photo01)。

  • 最初の製品という事もあってか、あまり冒険はしていない印象

    Photo01:最初の製品という事もあってか、あまり冒険はしていない印象をうける

内部構造の話は今回ほとんどなされなかったが、現時点で仕様として示されているのはこんな感じである(Photo02)。

  • L3があるのかどうか不明

    Photo02:L3があるのかどうか不明。無い可能性もありそうである。あとDDR5-8800となっているが、SOCAMM2(=LPDDR5x)を利用する事も可能かもしれない

ひとつ気になるのは、パッケージに「2013ARM」とある事で、なんで2013年なのか謎である(Photo03)。

  • どうみても2013年

    Photo03:サムネイルだとあまりはっきり読み取れないので、大写しのスナップを。どうみても2013年である。あとA1N1というのは最初のエンジニアリングサンプルかもしれない(というか、単なるメカニカルサンプルなのかもしれないが)

なぜArmがCPUを提供するのか?

さてそもそも何でAGI CPUを提供するかであるが、1つには同社のCSS(Compute Subsystem)の売れ行きが好調であることが挙げられるようだ(Photo04)。

  • 12.5億個のNeoverseコアが販売された

    Photo04:累計ですでに12.5億個のNeoverseコアが販売されたとしている

つまりコア単体よりもサブシステムのセットの方が好調というのは、要するにNeoverseを採用する顧客にとって、自分であれこれコアの最適化をするよりも、最適化済みのコアを買って製造する方が楽という話である。そしてNeoverseが売れる先は、Ampere ComputingとかNVIDIAなどの半導体メーカーよりも、むしろAmazonやGoogle、Metaといったハイパースケーラが自社利用のために購入して利用しているケースの方が多い。こうしたメーカーは、別に自分でチップを作りたい訳ではなく、自社のニーズが満たせるならチップを買った方がトータルのコストは下がる事になる(し、チップ開発のリソースを他に回せる)。Armとしてもハードウェアを売る事で、IPを売るよりも利益を大きくできる。すでにCSSは同社のロイヤリティ収入の20%を占めているそうで、今回チップ販売に乗り出すことでさらなる収益性向上が期待できる、という訳だ。

CPUに要求される電力効率の向上に対応するAGI CPU

そのAGI CPUであるが、従来の消費電力枠を変えずに4倍の数のコアを搭載する事を目的としたとする。これはパートナー企業からも要望されている事で、例えばMetaは同社のインフラが数年以内に5GWの消費電力に達するとした(Photo05)上で、性能を犠牲にせずに電力効率を追求するというMetaの要望に応えられるのはAGI CPUと説明。またOpenAIは昨今のAIモデルの計算需要の増加が指数関数的になってきており、CPUの電力効率を高める事で浮いた電力を推論に割り当てられる、説明した。

  • Prometheusは1GW強

    Photo05:Prometheusは1GW強だが、Hyperionは5GW越えで、これはパロアルト市の10個分だとか

この背景にあるのは、エージェントAIの普及とする。エージェントAIはワークフロー全体を処理するので、人間に比べて15倍以上のトークン生成を必要とする。トークン生成はもちろんGPUなどのアクセラレータの仕事だが、そのデータの移動やPythonスクリプトの処理などはCPUが担う。結果的にCPUバウンドとなる状況が発生しているため、よりCPUの性能を高めると共に、消費電力を減らす工夫が必要、という訳だ(Photo06)。

  • GPUだけ高速化してもダメという話

    Photo06:ここまで極端にCPUバウンドになる瞬間はそう多くはないとは思うのだが、GPUだけ高速化してもダメという話でもある

空冷、水冷両対応のラック構成

AGI CPUのスペックは先程Photo02で示した通りだが、ラック構成として想定されているのがこちら(Photo07)、x86と比較してCompute Densityを2倍に出来るとしている(Photo08)。

  • 1Uあたり2CPUで、各々136コアだと30Uの合計で8160コア

    Photo07:200kWの方はともかく、36kWの空冷ラック、本当にこの密度でブレード詰めて大丈夫なのだろうか? 1Uあたり2CPUで、各々136コアだと30Uの合計で8160コアである

  • x86の方は具体的な製品が不明

    Photo08:x86の方が具体的な製品が不明なので、なんとも言い難い

ちなみにラックの構造はOCPの標準的なものが利用できるとしている(Photo09)。

  • low latency memory

    Photo09:“low latency memory”の定義が謎だが、要するに通常のDDR5 Memoryの事である。CXL Memoryあるいはネットワークの先のMemory PoolよりLatencyが少ないの意味だろうか?

第3世代AGI CPUまでのロードマップを公開

講演の最後ではCPU性能の比較(Photo10,11)というかx86が不利であるとしたうえで、今後のロードマップも提示(Photo12)した。

  • x86は“技術的な負債(過去との互換性)の縛り”があると指摘

    Photo10:x86は“技術的な負債(過去との互換性)の縛り”があるから性能が制限されるといった説明もあった

  • どのx86と比較しているのかは不明

    Photo11:これもどのx86と比較しているのか判らないので、何とも言い難いものがある

  • CSS V4/AGI CPU 2は恐らく2nm世代

    Photo12:CSS V4/AGI CPU 2は恐らく2nm世代だろう。さてその先はどうなるのか? 1.4nm世代は2028年かどうか、ちょっと怪しそうではある

ArmはこのAGI CPU(とNeoverse CSSの合計)で、100億ドルのCAPEXが節約できるとしており、ハイパースケーラを中心に導入が進むとみられる。

ただこの話については、そのハイパースケーラ向けに製品を出していたAmpere Computingや、これからそこに向けての製品を予定していると言われるQualcommやMediaTekには結構なインパクトになるかと思われる(NVIDIAに関しては、NVLinkという切り札があるので、Vera Rubinとかには影響は案外なさそうであるが)。ちょっと動向が気になるところだ。

最後に1つだけ余談となるが、そのAGI CPU搭載のブレードの説明スライドに記載されている「AMBA extension link」とは何か? についての説明がなく、気になるところである(Photo13)。

  • まさかAMBAの信号がコネクタに出てくる訳でも無いと思いたい

    Photo13:まさかAMBAの信号がコネクタに出てくる訳でも無いと思いたいのだが、ありえるのかも?