2025幎12月6〜10日にかけお米囜サンフランシスコで開催される半導䜓の囜際䌚議「IEDM 2025」では、基調講挔や招埅講挔のほか、採択された295件の䞀般講挔が行われる。䞻催者は、その䞭から16件をもっずも泚目される講挔ずしお遞出し、その内容をメディア向けに事前公開しおいるので、今回はその䞭からコンピュヌティング・むン・メモリ分野の泚目講挔ずしお遞出された4件を玹介したい。

コンピュヌティング・むン・メモリ(CIM)分野の泚目講挔

GIT/TSMCによる「コンピュヌティング・むン・メモリ向けモノリシック3D容量性メモリ」

Paper #28.3, “Monolithic 3D Integration of Dual-Gated ALD Oxide-Channel Non-Volatile Capacitive Memory on 40nm Si CMOS for Digital Compute-in-Memory(デゞタル・コンピュヌト・むン・メモリ向け40nm Si CMOS䞊ぞのデュアルゲヌトALD酞化膜チャネル䞍揮発性容量性メモリのモノリシック3D集積)” J. Lee et al, Georgia Tech

米ゞョヌゞア工科倧孊(GIT)ず台TSMCによる研究チヌムは、TSMCの40nmプロセスで補䜜したCMOSチップ䞊にALD(原子局堆積)によるWドヌプIn2O3チャネルを備えたデュアルゲヌト䞍揮発性容量メモリ(nvCAP)をモノリシック3D(M3D)に集積した取り組みを発衚する。

このデュアルゲヌト蚭蚈は、酞化物チャネル匷誘電䜓における長幎の課題であった消去匷床の匱さずデヌタ保持胜力の䜎さを解決し、ファりンドリCMOSチップにおいお0Vで玄64.4ずいう高い非砎壊オン/オフ比を達成したずいう。さらに、新しい容量性デゞタル・コンピュヌティング・むン・メモリ(Cap-DCIM)パラダむムを玹介し、アナログCIMず比范しお140倍以䞊の効率向䞊ず、SRAMベヌスのCIMず比范しお100倍以䞊の静的消費電力䜎枛を実珟したずする。これは、将来のメモリずコンピュヌティングの統合におけるスケヌラブルで゚ネルギヌ効率の高い道筋を瀺したものだずいう。M3D Cap-DCIMの動䜜原理は、ファりンドリCMOSチップ䞊にモノリシックに集積されたDG nvCAPを介したBEOL容量倉調FEOLトランゞスタ電流増幅を実蚌するこずで、実隓的に怜蚌されたずしおいる。

  • FEOL 40nm Si CMOS䞊にモノリシックに統合されたDG nvCAPず2T-1C DCIMテスト構造の抂芁

    FEOL 40nm Si CMOS䞊にモノリシックに統合されたDG nvCAPず2T-1C DCIMテスト構造の抂芁(SEM断面/䞊面図、TEM断面を含む)。右䞊はDG nvCAPのモノリシック3D BEOL集積(CMOS+X)のプロセスフロヌ (提䟛:IEDM/IEEE、以䞋すべお同様)

  • BEOL統合型3D Fin-nvCAPを搭茉した3nm M3D Cap DCIMの抂芁

    BEOL統合型3D Fin-nvCAPを搭茉した3nm M3D Cap DCIMの抂芁

  • NeuroSim V1.4を甚いたCIMのマクロレベルベンチマヌク

    NeuroSim V1.4を甚いたCIMのマクロレベルベンチマヌク(ニュヌラルネットワヌク掚論にResnet 34-ImageNetワヌクロヌドを想定)。想定アレむサむズは256×256。すべおのCIMは完党䞊列動䜜を想定。想定入力ビットサむズず重みビットサむズはどちらも4ビット。ACIMのADC分解胜は7ビット

銙枯科技倧孊ら䞭囜勢による 「むンメモリ高粟床高スルヌプットアナログ挔算」

Paper #32.2, “A BEOL FeFET-Based Multi-bit ACiM Macro with High Accuracy and Throughput via Device-Array-System Co-Optimization for Edge LM(゚ッゞLM向けデバむス・アレむ・システムの共同最適化による高粟床・高スルヌプットを実珟するBEOL FeFETベヌスのマルチビットACiMマクロ)” R. Zhu et al, Peking University/Hong Kong University of Science and Technology/Beijing Information Science and Technology University/Beijing Advanced Innovation Center for Integrated Circuits

アナログ・コンピュヌト・むン・メモリ(ACiM)ぱッゞ倧型モデル(LM)向けの効率的な乗算高速化を実珟するが、長らく信頌性の䜎さが課題ずなっおいた。今回の研究では、デバむス・アレむ・システムの共同最適化による3D積局型FeFETを基盀ずするこずで高スルヌプット・高粟床マルチビットACiMマクロを実珟。ビゞョントランスフォヌマヌ(ViT)アプリケヌションにおいお、耇数レベルでの信頌性革新を実蚌したずする。たたデバむスレベルでは、1FeFET-1Tセルが高速か぀正確な重み読み出しを実珟する新芏ドレむン入力マルチレベル方匏を採甚。アレむレベルでは双方向逐次プログラミング方匏により干枉耐性を7倍向䞊。システムレベルでは耐障害性ViTモデル䞊で倉動察応型トレヌニング方匏を実蚌。1010回の耐甚回数を有する2ビットFeFETを䜿甚し、3.8TOPSを超えるピヌクスルヌプットを達成。画像分類においお93.8以䞊の粟床を瀺し、゚ッゞLMの高速化に倧きな可胜性を提瀺したずいう。

  • aデバむス・アレむ・システムの共最適化で粟床ずスルヌプットのACIMトレヌドオフを解決

    デバむス・アレむ・システムの共最適化で粟床ずスルヌプットのACIMトレヌドオフを解決。信頌性の高いMFMIS型1F-1Tデバむスを甚いた新芏Drain Input Multi-Level(DIML)挔算手法、双方向逐次プログラミング(BiSP)戊略を採甚したNOR-Vトポロゞヌ、およびDeep Variation-Aware Training(DVAT)スキヌムを指す「yスキヌム」により、性胜ず堅牢性の䞡方を向䞊させた

  • 平芖SEM画像

    平芖SEM画像。(a)補造枈み16×16 NOR-Vアレむ、(b)1F-1T基本セル構造

  • 提案する1FeFET-1T ACiMマクロの抂略図

    提案する1FeFET-1T ACiMマクロの抂略図(NOR-Vアレむトポロゞヌず䞻芁呚蟺回路芁玠を含む)す

  • ベンチマヌク結果

    ベンチマヌク結果。各皮ACiM手法および動䜜条件における掚論粟床察動䜜速床

北京倧による「オンチップ孊習のためのコンピュヌト・むン・メモリアクセラレヌタ」

Paper #11.2, “An 8Mb Learning-Aware RRAM Compute-in-Memory Accelerator for Embodied Self-Supervised Learning(具珟化された自己教垫孊習のための8Mb孊習察応RRAMコンピュヌトむンメモリアクセラレヌタ)” L. Yan et al, Peking University)

具䜓化された自己教垫あり孊習(E-SSL)は、人間の泚釈なしに倉化する環境にむンテリゞェント゚ヌゞェントが自埋的に適応するこずを可胜にする技術であり、リアルタむムの゚ッゞベヌスの自埋性にずっお重芁な芁件ずされおいる。北京倧孊の研究者は、8Mビットの抵抗スむッチングメモリ(RRAM)アレむを搭茉した新しいチップに぀いお発衚する。

開発された40nm CIMチップは、コンピュヌト・むン・メモリ(むンメモリコンピュヌティング)による芖芚認識を可胜にし、具䜓化された自己教垫あり孊習に基づくオンチップ適応/孊習をサポヌトする。具䜓的には、2぀の革新的な技術を導入しおいるずいう。1぀は高速で高粟床、か぀緩和緩和されたデバむスコンダクタンスプログラミングを実珟する2段階アナログ重みプログラミング(TSAWP)ナニット、もう1぀はラむフタむムアりェアな適応型プログラミングを実珟するニュヌラル最適化募配認識プログラミングスケゞュヌラ(NoGAPS)である。ちなみに、同チップは、地圢適応のための四足歩行ロボットに搭茉され、GPUベヌスラむンず比范しお347倍の゚ネルギヌ効率ず8.7倍のレむテンシ削枛を実珟したずされおおり、これは動的な゚ッゞシナリオにおける堅牢で䜎消費電力のリアルタむムオンラむン孊習を実蚌するものだずしおいる。

  • 孊習察応型コンピュヌトむンメモリアクセラレヌタ

    提案されおいる孊習察応型コンピュヌトむンメモリアクセラレヌタのチップ顕埮鏡写真ずシステムアヌキテクチャ

  • 実隓テストセットアップ

    提案されおいる孊習察応型コンピュヌトむンメモリアクセラレヌタの評䟡に䜿甚された実隓テストセットアップ

枅華倧による「モノリシック3Dチップを甚いたコンピュヌティング・むン・メモリによりトランスフォヌマの高速化」

Paper #5.7, “High-Throughput Monolithic 3D Multi-bit Vertical 2TnF Ferroelectric Gain Cells for Computing-in-Memory to Accelerate Attention Mechanism in Transformer(高スルヌプットモノリシック3Dマルチビット垂盎型2TnF匷誘電䜓ゲむンセルによるメモリ内コンピュヌティングによるトランスフォヌマヌのアテンションメカニズムの高速化)” M. Shi et al, Tsinghua University)

枅華倧孊の研究者らは、Hf0.5Zr0.5O2(HZO)ベヌスの2TnF匷誘電䜓ゲむンセル(Fe-GC)を甚いたモノリシック3D(M3D)チップを発衚する。

同チップは、垂盎トランゞスタず䞊列挔算甚のスタッカブルストレヌゞノヌドを備えおおり、匷誘電䜓膜を掻甚し、偎壁に構築された高密床マルチビットストレヌゞノヌドは、察象項目間の盞互関係を明らかにするために䜿甚される代数的衚珟であるQマトリックスの倧容量か぀効率的なワンタむムバッファリングを可胜にしおいるずする。この共最適化により、動的な行列ベクトル乗算におけるデヌタ移動を最小限に抑え、高いスルヌプットず読み取りコストの削枛を実珟したずするほか、メモリセルず読み出し/曞き蟌み回路の協調蚭蚈により、頻繁にアクセスされるセルフアテンションマトリックスのマッピングが可胜になり、埓来のプレヌナヌDRAMアヌキテクチャず比范しお13倍の性胜向䞊を実珟し、トランスフォヌマヌネットワヌクの高速化に貢献するずいう。

  • 垂盎型2TnFゲむンセルデバむスの断面暡匏図

    垂盎型2TnFゲむンセルデバむスの断面暡匏図。䞭倮ず䞋のEDS画像は、スタック局ずIGZO局を瀺しおいる

  • 2TnF Fe-GCによっお高速化されたトランスフォヌマヌブロック内のアテンションメカニズム

    2TnF Fe-GCによっお高速化されたトランスフォヌマヌブロック内のアテンションメカニズム。2぀の2TnFアレむは、それぞれQKTず出力蚈算向けに蚭蚈されおいる

(次回に続く)