米Xilinxは米国時間の3月19日、「Project Everest」の名前で開発を行っていた次世代の製品群である「ACAP(Adaptive Compute Acceleration Platform)」の概略を発表した。これに先駆け、同社の新しいCEOとなったVictor Peng氏より説明があったので、この内容をご紹介したい。

Peng氏はまず、同社の製品が現在直面している問題として、データ爆発(Photo01)、AI対応(Photo02)、After Moore(Photo03)の3つを挙げた上で、"Adaptive"なソリューションが必要であると説明した(Photo04)。

  • 現在のテクノロジー業界における3つのトレンド

    Photo01:実はPhoto01~03は必ずしもこの問題は同社の製品だけの話ではなく、一般的な話というコンテクストで説明されたのだが、現実問題として同社の製品がまさにこうした問題を抱えているマーケットに使われており、しかも今後もよりアドレスしてゆく、という事からこれが重要な課題となっているわけだ

  • AIをリードする存在である半導体

    Photo02:ちなみにAIについては、あくまでも同社は推論側にフォーカスしており、学習はまた別というスタンスであった

  • ムーアの法則の限界が見えてきた一方、さらなるコンピューティングパフォーマンスを実現する方策が求められている

    Photo03:一番問題はこれかもしれない。デザインサイクルをさらに短縮したい、という動きは、ますます加速しているとする

  • Xilinxの新製品は「Adaptive」がキーワード

    Photo04:どうもこの"Adaptive"(適応性)が新製品群のキーワードとなるようだ

さて、そのAdaptiveに向けた基本戦略として掲げたのは、"Data Center First"である(Photo05)。これは必ずしも驚くべきことではないが、現在の同社の製品の使われ方を示唆している気がする。その同社の現在の製品に関するサポート状況がこちらである(Photo06)。

  • xilinxの戦略としてはハイエンドニーズへの対応が優先事項となる

    Photo05:Edge側や組み込み側は、少々、後回しということになる。これに関しては「まずミドルレンジからハイエンド製品を投入し、ついでローエンド」という形の、従来と同じラインアップ展開を行うという説明もあり、そうなるとデータセンターや基地局向けが優先になるのは理解しやすい

  • ソフトウェアエンジニアもFPGAが手軽に活用できる環境が整ってきた

    Photo06:左下はまるでAMDのGPUカードに見えるが、Virtex UltraScale+ VCU1525を搭載した「開発ボード」である。

要するに、Verilogをゴリゴリ書かなくてもFPGAを使える環境の構築を以前から用意しており(例えばこれ)、それがある程度形になってきた、ということだ。

すでにエコシステムもある程度形になってきており(Photo07)、実際に高い性能を発揮しているとする(Photo08)。

  • AWSをはじめとする多くのクラウドサービス(データセンター)でFPGAが活用されている

    Photo07:AWSは「Amazon EC2 F1」として、すでにFPGAのインスタンスを提供している。また、「テクノロジおよびシステム」にさらっとCCIXが含まれている点にも注目しておきたい

  • FPGAのアクセラレータとしての有用性

    Photo08:この数字は現在の同社の製品によるもの。例えば機械学習(ML)の40倍は、XilinxのKintex UltraScale KU060とXeon Core i7-5930(Xilinxの資料による表記:おそらく"Xeon"が余分)を比較した場合、「Deephi」のLSTM inferenceの実行の際の性能/消費電力比が43倍高かった、というものである。数字はいずれも異なる環境とテストによるので、一概には判断しにくいものであることは否めない

実際に、新生児のゲノム解析を1日から20分まで短縮した(Photo09)という記録もあるとする。また計算(Computation)以外にも、ストレージやネットワークでも幅広く利用されているとする(Photo10)。

同社がこれまで重要市場と位置づけて来た市場(Photo11)に幅広く利用されている、というあたりまでが現状の説明である。

  • XilinxのFPGAが狙う重要市場

    Photo11:これはこれまでも出てきた話である

さて、こうした市場に向けて今回投入されるのがACAPである。Photo12がその概略であるが、UltraScale+ MPSoCに良く似たプログラマブルロジックとアプリケーションプロセッサ、リアルタイムプロセッサ、RFやDAC/ADC、SerDes、I/F各種といった構成は従来のままであるし、一部の製品にはHBMも搭載されているから、このあたりまでは既存の延長にある。

  • XilinxのACAPの機能ブロック図の概要

    Photo12:もちろん、これらがすべて、ACAPの製品群に搭載されるという訳ではないと思われる

異なるのは一番上で、HW/SW Programmable Engineなるものが搭載されている。また説明にもあるように、内部結合がNoC(Network on Chip)になった事も明らかにされた。もっとも現状ではHW/SW Programmable Engineの詳細は一切明らかにされておらず(「今後数か月以内にもう少し詳細を公開するから、それまで待て」がPeng氏の返事だった)、ただしこれとNoCを組み合わせることで、より臨機応変に対応(Adaptive)できるという点がACAPの特徴であるとする(Photo13)。

  • XilinxのACAPのメリット

    Photo13:何かを説明してるように見えて、実際には何も語っていないスライド。おそらく肝になるのはプログラマブルエンジンと思われるのだが、単なるオフローディングアクセサレータ(Offloading Accelerator)の類ではなさそう

このACAPの開発には4年の歳月と1500人のエンジニアを費やしたそうで、10億ドル以上のコストが掛かっているとする。これを利用することで、現在のUltraScale+製品と比較してより大きく性能が改善する、という(Photo15)。内部構造の概略はこんな感じ(Photo16)で、プロセッサとプログラマブルロジック、プログラマブルエンジン、周辺回路が全部NoCで接続される構図になっている。

  • ACAPは500億トランジスタを搭載する巨大デバイスとなる

    Photo14:トランジスタ数の500億個はなかなか壮絶である。非公式な情報だが、XilinxのUltraScale XCV440が概ね200億個という試算があるので、これの2.5倍ということになる

  • ACAPの性能は、AIの演算の場合、Virtex UltraScale+ VU9Pと比較して20倍となる見通し

    Photo15:まだシリコンが無いので、あくまでもシミュレーション上の試算。AI演算性能の20倍は、Virtex UltraScale+ VU9Pとの比較である。ちなみにこれが現在もっとも広範にデータセンター向けに使われているFPGAだそうだ

  • ACAPの機能イメージ

    Photo16:112GのSerDesの搭載は、400Gを睨んだものだろう。またProgrammable I/Oのコアそのものは最大600Gで駆動するようで、かなり広帯域で利用できると思われる。さらにHBMとDDR(おそらくDDR4)が別になっているのも興味深い

それより重要なのは提供時期である。すでにに一部の顧客には開発ツールのアーリーアクセス版を提供しており、またテープアウトも年内に予定、2019年にはシリコンの出荷を開始予定としていることだ。この世代がTSMCの7nmプロセスを使うという話は2015年にアナウンス済であるが、EUVベースかどうかを確認したところ「7nmのEUVにはアドバンテージがあることは理解しているが、製品の量産に使うにはまだ現状ではちょっとクリティカルである」という返事であった。という訳で、少なくともここに記載された「2019年に出荷開始」される製品については、TSMCの7FF(ArF+液浸)を利用して製造されると予想される。

なお、今回の発表はあくまで概要程度に留まっており、より詳細な内容は今後改めて公開される予定である。