Esperanto社は、これまで製品の概要しか公表しないステルスモードで開発を行ってきたが、サーバCPUのサンプルが完成し、実チップでの性能測定やデバグが行なえる状況になったことから、公表モードに移行し、2021年8月に開催された「Hot Chips 33」にて発表を行った。
「ET-SoC-1」という名前で呼ばれるEsperanto社のメニーコアSoCは、8コア×4の「Shire」と呼ぶ単位に纏められている。Shireに使われている計算コアはRISC-Vアーキテクチャの「Minion」と呼ぶ、シンプルでエネルギー効率の高いコアで、ET-SoC-1の消費電力は20Wと小さい。一方、通常はXeonなどが使われる制御用コアとして、Esperantoは「Maxion」というスーパスカラコアを独自開発している。ET-SoC-1チップはMaxionコアを4個搭載しているので、別チップの制御用コアを接続する必要が無く、コストや消費電力の面で有利である。
そして、ET-SoC-1チップにはこれ以外に1個のMaxion Shire、8個のメモリShire、8チャネルのPCIe4.0のShireなどが集積されている。
ET-SoC-1チップには34個のMinion Shireが搭載されており、34×32=1088ミニオンコアのメニーコアチップで、さらに4個のMaxionコアも搭載されている。
図1はET-SoC-1のチップ全体のブロック図で紫の2次元メッシュのインタコネクトですべてのShireが接続されている。各Shireの濃い目の灰色の長方形は8個のMinionコアで、1つのShireには32ミニオンコアが入っている。
ミニオンコアに隣接した水色の箱はミニオンコアとキャッシュメモリを接続するクロスバとメモリである。メモリは1MBのバンクが4個搭載されている。なお、このメモリはスクラッチパッドメモリとして使うこともできるようになっている。
Esperantoは、推論処理を行って、リコメンデーションを行うという処理がMLデータセンターの中心的な処理になると考えており、この処理での性能を競合製品と比較している。
図2はMLPerfベンチマークのリコメンデーション処理のカード単位の性能を比較したグラフである。黄緑の棒グラフは相対推論性能、緑の棒グラフは相対のエネルギー効率を比較したグラフである。4組の棒グラフは左から、相対性能のベースになっているXeon Platinum 8830H (8 socket)、その右がNVIDIAのT4カード 20枚、3番目がNVIDIAのA10カード 8枚、右端がEsperantoのET-SoC-1を6チップ搭載するカード1枚のデータである。
8個のXeon Platinum 8830Hのシステムの消費電力は2000Wで、性能は3,079 Samples/sec/dieである。20個のT4 GPUの消費電力は1400Wで、性能は33,282 Samples/sec/T4カードである。NVIDIA A10は8チップで消費電力は1200W、性能は96,547 Samples/sec/A10カードである。そして、ET-SoC-1は6チップで電力は120Wで、182,418 Sample/sec/cardとなっている。
Xeonと比較して、T4カードの相対性能は11倍、エネルギー効率は39倍、A10は性能は31倍、エネルギー効率は52倍、ET-SoC-1は性能は59倍、エネルギー効率は123倍となっている。
この比較から分かるようにET-SoC-1は、多数個のコアを持ち並列処理を行うことにより、6チップ搭載のカード1枚で、NVIDIAの8枚のA10 GPUカードのほぼ2倍の処理性能を持ち、エネルギー効率も2倍強になっている。
また、実用的にはリコメンデーションの方が仕事が多く、実用性が高いベンチマークであるが、歴史的にRes-Netを使うイメージ分類の性能が測定されてきているので、比較のために、図3にイメージ分類の性能比較とエネルギー効率の比較を載せておく。
また、図3にはIntelの推論アクセラレータであるHabanaのGoyaのベンチマーク結果も載せている。ET-SoC-1 6チップのカードとGoya 1チップのカードとを比較すると、ET-SoC-1は120Wの電力で、Goyaが100Wであるのに比べると少し電力が大きいが、性能やエネルギー効率はGoyaカードのおおよそ2倍という結果になっている。