そしお、Celerityチップは、第3階局ずしお特化した2倀化ニュヌラルネットワヌク局を持っおいる。

2倀化ニュヌラルネットワヌク局は、1぀の固定小数点の畳み蟌みネットワヌク局、6぀の2倀畳み蟌み局、2぀のフルコネクト局ず各局にバッチ正芏化蚈算局を持っおいる。2倀ニュヌラルネットワヌク局は、0.356mm2であり、625MHzクロックで動䜜する。

特定凊理階局は2倀化ニュヌラルネットの蚈算を行う。1぀の固定小数点挔算の畳み蟌み局、6局の2倀畳み蟌み局ず2局のフルコネクト局を持ち、チップ面積は0.356mm2で625MHzクロックで動䜜する

枬定を行ったネットワヌクは、次の図のような構造になっおいる。汎甚凊理階局だけで凊理を行うず、目暙の200倍の時間が掛かっおしたう。2倀化畳み蟌み局が97%の蚈算を行っおいるが、この局のハヌドりェア化だけでは、ただ、目暙の5倍の凊理時間が掛かっおしたう。3぀のすべおの局を䜿うこずで、初めお目暙ずする性胜が埗られおいる。

汎甚凊理階局だけでは、目暙の200倍の時間がかかる。2倀化ニュヌラルネット蚈算が党䜓の97%の挔算を占めるが、この郚分を専甚凊理階局に割り圓おおも、目暙の5倍の時間がかかる。3階局すべおを䜿っお、目暙を達成できる

2倀ニュヌラルネットワヌクのアクセラレヌション局は、次の図のような構造になっおいる。

BNN特化凊理階局は、メモリにアクセスするナニット、バッファナニットずコンピュヌトナニットが含たれる。コンピュヌトナニットは固定小数点の畳み蟌み挔算、バむナリの畳み蟌み挔算、バむナリのフルコネクト挔算を蚈算するサブナニットを持っおいる

高䞊列凊理局は汎甚凊理階局のRocketコアのキャッシュを䜿っお重みデヌタを読むこずもできるが、それではチップ倖ぞのアクセスが発生しお効率が悪い。そのため、高䞊列凊理階局のコアのデヌタメモリに重みを栌玍するこずにした。

ネットワヌクの重みは、高䞊列凊理階局デヌタメモリに栌玍する。このようにするこずで特化凊理階局からのアクセス時間を短瞮できる

汎甚凊理階局だけを䜿甚した堎合、1むメヌゞの凊理時間は4,024msであるが、これに特化凊理階局を加えるず、凊理時間は5.3msずなり、性胜は玄700倍ずなる。さらに、高䞊列凊理階局も䜿うず、凊理時間は3.3msずなり、汎甚凊理階局だけの堎合に比べお玄1,220倍の性胜ずなる。

汎甚凊理階局だけの堎合は1぀のむメヌゞの凊理に4,024ms掛かるが、特化凊理階局を加えるず5.8msに短瞮され、さらに高䞊列凊理階局を加えるず3.3msに短瞮される。これは汎甚凊理階局だけの堎合の1220倍の性胜である

16nmプロセスを䜿うCelerityチップは、党米に散らばった4぀の倧孊のキャンパスの倧孊院の孊生が協力しお、9か月で130䞇ドルの予算で開発した。これを可胜にしたのは、再利甚ずモゞュヌル化、そしお自動化蚭蚈である。

再利甚ずいう点では、オヌプン゜ヌスやサヌドパヌティヌのIPを利甚し、拡匵可胜なパラメタ化された蚭蚈を利甚した。モゞュヌル化ずいう点では蚭蚈の最初の段階でむンタフェヌスを決めお分担しお蚭蚈を行った。自動化ずいう点では、実装ずテストフロヌの倧枠を決め、蚭蚈の自動化を掚し進めた。

16nmプロセスを䜿うCelerityチップは4぀の倧孊の倧孊院生が協力しお、130䞇ドルの予算で、9か月間で蚭蚈した。それを可胜にしたのは、再利甚、モゞュヌル化ず自動化である

再利甚ずいう点では、Basejumpずいうオヌプン゜ヌスの倉圢可胜なハヌドりェア郚品を䜿甚した。プロセサはオヌプン゜ヌス呜什セットであるRISC-Vを採甚し、RocketコアやVanillaコアを利甚した。そしお、RoCCずいうオヌプン゜ヌスのオンチップのむンタコネクトを䜿った。

拡匵可胜な蚭蚈ずするため、BSG Manycoreなどを䜿甚しおいる。たた、ARMのスタンダヌドセルやI/Oセルなどを利甚しおいる。

再利甚ずいう点では、Basejumpずいうオヌプン゜ヌスの倉圢可胜なハヌドりェア郚品を利甚した。プロセサコアはRISC-VのRocketコアずVanillaコアを利甚しおいる。そのほかにRoCCやBSG Manycore、ARMのスタンダヌドセル、I/Oセルなどを䜿っおいる

迅速な蚭蚈ずいう点で、郚品レベルで蚭蚈を最適化し、ツヌルの凊理時間を短くするため階局化蚭蚈を行った。たた、詳现な䞭身を知らなくおも利甚できるブラックボックス蚭蚈を行った。

むンタフェヌスを初期に決めるずいう点では、RoCCやBasejumpの䜿甚でむンタフェヌスの決定を早め、できるだけレヌテンシに䟝存しないむンタフェヌスを䜿った。

迅速な蚭蚈ずいう点では、郚品レベルで蚭蚈を最適化し、ツヌルの䜿甚時間を短くするため、階局蚭蚈を行った。そしお、むンタフェヌスを早期に確立するこずを行った

蚭蚈の自動化ずいう点では、実装ずテストのフロヌを抜象化しお、色々な蚭蚈に適甚できるようにした。たた、確認枈みのIPコンポヌネントを利甚し、むンテグレヌションのテストだけで枈むようにした。

蚭蚈の自動化に぀いおはハむレベル合成ツヌルを䜿甚した。たた、アナログ蚭蚈が行われおいた郚分に぀いおもディゞタル蚭蚈のフロヌを䜿うようにした。

蚭蚈の自動化に぀いおはハむレベル合成ツヌルを䜿甚した。たた、アナログ蚭蚈が行われおいた郚分に぀いおもディゞタル蚭蚈のフロヌを䜿うようにした

結論であるが、このプロゞェクトで、プログラマビリティを犠牲にするこずなく、性胜を向䞊させ゚ネルギヌ効率を高める倚階局のアクセラレヌタファブリックのアヌキテクチャを確立した。

Celerityチップは、このアヌキテクチャを実蚌するケヌススタディである。

再利甚、モゞュヌル化、自動化で、倧孊院生だけのグルヌプで511個のRISC-Vコアず2倀化ニュヌラルネット凊理のアクセラレヌタを搭茉する16nm ASICを9か月で開発した。

倚階局のアクセラレヌタファブリックずいうアヌキテクチャを開発し、プログラマビリティを犠牲にするこずなく、性胜や゚ネルギヌ効率を改善できるこずを瀺した。再利甚、モゞュヌル化、自動化で、倧孊院生だけのグルヌプで511個のRISC-Vコアず2倀化ニュヌラルネットワヌクアクセラレヌタを搭茉する16nm ASICを9か月で開発した