IEDM 2025プレビュー(4) コンピューティング・イン・メモリの注目講演

2025年12月6〜10日にかけて米国サンフランシスコで開催される半導体の国際会議「IEDM 2025」では、基調講演や招待講演のほか、採択された295件の一般講演が行われる。主催者は、その中から16件をもっとも注目される講演として選出し、その内容をメディア向けに事前公開しているので、今回はその中からコンピューティング・イン・メモリ分野の注目講演として選出された4件を紹介したい。

コンピューティング・イン・メモリ(CIM)分野の注目講演

GIT/TSMCによる「コンピューティング・イン・メモリ向けモノリシック3D容量性メモリ」

Paper #28.3, “Monolithic 3D Integration of Dual-Gated ALD Oxide-Channel Non-Volatile Capacitive Memory on 40nm Si CMOS for Digital Compute-in-Memory(デジタル・コンピュート・イン・メモリ向け40nm Si CMOS上へのデュアルゲートALD酸化膜チャネル不揮発性容量性メモリのモノリシック3D集積)” J. Lee et al, Georgia Tech

米ジョージア工科大学(GIT)と台TSMCによる研究チームは、TSMCの40nmプロセスで製作したCMOSチップ上にALD(原子層堆積)によるWドープIn₂O₃チャネルを備えたデュアルゲート不揮発性容量メモリ(nvCAP)をモノリシック3D(M3D)に集積した取り組みを発表する。

このデュアルゲート設計は、酸化物チャネル強誘電体における長年の課題であった消去強度の弱さとデータ保持能力の低さを解決し、ファウンドリCMOSチップにおいて0Vで約64.4という高い非破壊オン/オフ比を達成したという。さらに、新しい容量性デジタル・コンピューティング・イン・メモリ(Cap-DCIM)パラダイムを紹介し、アナログCIMと比較して140倍以上の効率向上と、SRAMベースのCIMと比較して100倍以上の静的消費電力低減を実現したとする。これは、将来のメモリとコンピューティングの統合におけるスケーラブルでエネルギー効率の高い道筋を示したものだという。M3D Cap-DCIMの動作原理は、ファウンドリCMOSチップ上にモノリシックに集積されたDG nvCAPを介したBEOL容量変調FEOLトランジスタ電流増幅を実証することで、実験的に検証されたとしている。

FEOL 40nm Si CMOS上にモノリシックに統合されたDG nvCAPと2T-1C DCIMテスト構造の概要(SEM断面/上面図、TEM断面を含む)。右上はDG nvCAPのモノリシック3D BEOL集積(CMOS+X)のプロセスフロー (提供:IEDM/IEEE、以下すべて同様)

BEOL統合型3D Fin-nvCAPを搭載した3nm M3D Cap DCIMの概要

NeuroSim V1.4を用いたCIMのマクロレベルベンチマーク(ニューラルネットワーク推論にResnet 34-ImageNetワークロードを想定)。想定アレイサイズは256×256。すべてのCIMは完全並列動作を想定。想定入力ビットサイズと重みビットサイズはどちらも4ビット。ACIMのADC分解能は7ビット

香港科技大学ら中国勢による「インメモリ高精度高スループットアナログ演算」

Paper #32.2, “A BEOL FeFET-Based Multi-bit ACiM Macro with High Accuracy and Throughput via Device-Array-System Co-Optimization for Edge LM(エッジLM向けデバイス・アレイ・システムの共同最適化による高精度・高スループットを実現するBEOL FeFETベースのマルチビットACiMマクロ)” R. Zhu et al, Peking University/Hong Kong University of Science and Technology/Beijing Information Science and Technology University/Beijing Advanced Innovation Center for Integrated Circuits

アナログ・コンピュート・イン・メモリ(ACiM)はエッジ大型モデル(LM)向けの効率的な乗算高速化を実現するが、長らく信頼性の低さが課題となっていた。今回の研究では、デバイス・アレイ・システムの共同最適化による3D積層型FeFETを基盤とすることで高スループット・高精度マルチビットACiMマクロを実現。ビジョントランスフォーマー(ViT)アプリケーションにおいて、複数レベルでの信頼性革新を実証したとする。またデバイスレベルでは、1FeFET-1Tセルが高速かつ正確な重み読み出しを実現する新規ドレイン入力マルチレベル方式を採用。アレイレベルでは双方向逐次プログラミング方式により干渉耐性を7倍向上。システムレベルでは耐障害性ViTモデル上で変動対応型トレーニング方式を実証。10¹⁰回の耐用回数を有する2ビットFeFETを使用し、3.8TOPSを超えるピークスループットを達成。画像分類において93.8％以上の精度を示し、エッジLMの高速化に大きな可能性を提示したという。

デバイス・アレイ・システムの共最適化で精度とスループットのACIMトレードオフを解決。信頼性の高いMFMIS型1F-1Tデバイスを用いた新規Drain Input Multi-Level(DIML)演算手法、双方向逐次プログラミング(BiSP)戦略を採用したNOR-Vトポロジー、およびDeep Variation-Aware Training(DVAT)スキームを指す「yスキーム」により、性能と堅牢性の両方を向上させた

平視SEM画像。(a)製造済み16×16 NOR-Vアレイ、(b)1F-1T基本セル構造

提案する1FeFET-1T ACiMマクロの概略図(NOR-Vアレイトポロジーと主要周辺回路要素を含む)す

ベンチマーク結果。各種ACiM手法および動作条件における推論精度対動作速度

北京大による「オンチップ学習のためのコンピュート・イン・メモリアクセラレータ」

Paper #11.2, “An 8Mb Learning-Aware RRAM Compute-in-Memory Accelerator for Embodied Self-Supervised Learning(具現化された自己教師学習のための8Mb学習対応RRAMコンピュートインメモリアクセラレータ)” L. Yan et al, Peking University)

具体化された自己教師あり学習(E-SSL)は、人間の注釈なしに変化する環境にインテリジェントエージェントが自律的に適応することを可能にする技術であり、リアルタイムのエッジベースの自律性にとって重要な要件とされている。北京大学の研究者は、8Mビットの抵抗スイッチングメモリ(RRAM)アレイを搭載した新しいチップについて発表する。

開発された40nm CIMチップは、コンピュート・イン・メモリ(インメモリコンピューティング)による視覚認識を可能にし、具体化された自己教師あり学習に基づくオンチップ適応/学習をサポートする。具体的には、2つの革新的な技術を導入しているという。1つは高速で高精度、かつ緩和緩和されたデバイスコンダクタンスプログラミングを実現する2段階アナログ重みプログラミング(TSAWP)ユニット、もう1つはライフタイムアウェアな適応型プログラミングを実現するニューラル最適化勾配認識プログラミングスケジューラ(NoGAPS)である。ちなみに、同チップは、地形適応のための四足歩行ロボットに搭載され、GPUベースラインと比較して347倍のエネルギー効率と8.7倍のレイテンシ削減を実現したとされており、これは動的なエッジシナリオにおける堅牢で低消費電力のリアルタイムオンライン学習を実証するものだとしている。

提案されている学習対応型コンピュートインメモリアクセラレータのチップ顕微鏡写真とシステムアーキテクチャ

提案されている学習対応型コンピュートインメモリアクセラレータの評価に使用された実験テストセットアップ

清華大による「モノリシック3Dチップを用いたコンピューティング・イン・メモリによりトランスフォーマの高速化」

Paper #5.7, “High-Throughput Monolithic 3D Multi-bit Vertical 2TnF Ferroelectric Gain Cells for Computing-in-Memory to Accelerate Attention Mechanism in Transformer(高スループットモノリシック3Dマルチビット垂直型2TnF強誘電体ゲインセルによるメモリ内コンピューティングによるトランスフォーマーのアテンションメカニズムの高速化)” M. Shi et al, Tsinghua University)

清華大学の研究者らは、Hf_0.5Zr_0.5O₂(HZO)ベースの2TnF強誘電体ゲインセル(Fe-GC)を用いたモノリシック3D(M3D)チップを発表する。

同チップは、垂直トランジスタと並列演算用のスタッカブルストレージノードを備えており、強誘電体膜を活用し、側壁に構築された高密度マルチビットストレージノードは、対象項目間の相互関係を明らかにするために使用される代数的表現であるQマトリックスの大容量かつ効率的なワンタイムバッファリングを可能にしているとする。この共最適化により、動的な行列ベクトル乗算におけるデータ移動を最小限に抑え、高いスループットと読み取りコストの削減を実現したとするほか、メモリセルと読み出し/書き込み回路の協調設計により、頻繁にアクセスされるセルフアテンションマトリックスのマッピングが可能になり、従来のプレーナーDRAMアーキテクチャと比較して13倍の性能向上を実現し、トランスフォーマーネットワークの高速化に貢献するという。