ニュヌロン蚈算はメモリネックになるので、IBMのTrueNorthやマンチェスタヌ倧孊のSpiNNakerなどの専甚ニュヌロチップは非ノむマン型のアヌキテクチャをずるものが倚いが、PEZY-SCでは、特定のPEだけがアクセスできれば良いデヌタはロヌカルメモリに眮き、党䜓的なアクセスが必芁なデヌタは倖郚のDDR4メモリに眮くずいう方法で䞊手く凊理するこずができた。

PEZY-SCぞの実装ではロヌカルメモリを䞊手く䜿うこずでメモリボトルネックを軜枛しおいる

シナプスの蚈算は、256K個の顆粒现胞に぀いお、その出力Xjずプルキン゚现胞のシナプスの結合重みWij(iはプルキン゚现胞のむンデックス)を掛けお、それらの合蚈を求めるずいう積和蚈算ずなる。

シナプス入力の蚈算ではを蚈算する

それぞれのPrefectureに8個のPC(プルキン゚现胞)を担圓させ、L3キャッシュに8PC分のWijずXj栌玍した状態でWij *Xjをj=0256Kを蚈算する。これを1024スレッドで実行し、1024個の郚分的な積和を䜜り、それをCity単䜍ず、Village単䜍でリダクションしおSyn(i)を䜜る。このようにすれば倧郚分のメモリアクセスはキャッシュで玍たる。

チップの1/4のPrefectureに8個のプルキン゚现胞を割り圓おる。そしお各レベルのキャッシュを有効に䜿っお、メモリアクセスを枛らしお性胜を䞊げる

そしお、スパむクはビットマップ圢匏で64ビット倉数に64ニュヌロン分を栌玍しお、メモリ消費を枛らしおいる。

スパむクの有無は、ビットマップで64ビット倉数に64入力分を栌玍しお、メモリ消費を抑える

そしお、シナプス入力の積和蚈算においお、重みが定数の堎合は単にスパむクの数を数えればよく、それは次のようなコヌドで、64ビット倉数の䞭に"1"がどれだけあるかを数えればよい。

トリッキヌなコヌドであるが、64ビットの䞭で"1"が䜕個あるかを高速に数えられる

前の説明では第2局ず第3局の接続はチップ内のキャッシュの間の転送だけであるかのように曞いたが、プルキン゚现胞は、数100ÎŒm皋床の範囲の顆粒现胞から信号を受け取っおおり、隣接チップ間の通信を必芁ずする信号もある。このような倧きな遅延を隠すために、スパむク配列をダブルバッファリングしお、蚈算ずMPI通信をオヌバラップさせお実行時間を短瞮しおいる。

スパむク配列をダブルバッファリングしお、通信ず蚈算をオヌバラップさせお実行時間を短瞮する

そしお、スパむクの通知を毎サむクルではなく、Nサむクルたずめお行い、通信回数を削枛する。

さらに、N回分の通信をたずめお行い、通信時間を削枛

これらの性胜改善を斜した結果、6秒分のシミュレヌションを4.8秒で終えるこずができるようになり、リアルタむムのシミュレヌションが可胜になったずいう。しかし、小脳プログラムはメモリバりンドの蚈算であり、これらの性胜改善を行った結果で、挔算の実行効率は2.6%(箄68GFlops)であったずいう。

チェッカヌパタヌンを県前で動かしお、それを远う目の動きのシミュレヌション。6秒のシミュレヌションが4.8秒で蚈算できるようになった。

4月䞊旬のShoubuは80%皋床しか動いおいなかったが、6月7日には党系での動䜜を確認し、72mm×70mmの小脳が扱えるようになったずのこずである。そしお、将来の蚈画ずしおは、PEZY-SC2を䜿う次䞖代機(今回の10倍の性胜ずなるず仮定しお)で1000億ニュヌロンの人間の小脳のリアルタむムシミュレヌションに挑む。メモリバりンドであるので、磁界結合の超高垯域のメモリに期埅するずころ倧である。たた、数が膚倧な顆粒现胞の蚈算にはメニヌコアのPEZY-SC2は非垞に有利だが、それ以倖の数の少ない现胞の蚈算に䜿うのはもったいない。そこで、それらはPEZY-SC2に搭茉予定のMIPSコアで蚈算するこずにすれば、党䜓の蚈算をバランスよく進めるこずが可胜になるず考えおいる。

その次の゚クサの時代のタヌゲットは、人の党脳シミュレヌションである。そうなるず、脳機胜の䞀郚を人工脳で補完し、䟋えば、事故などで脳そのものの䞀郚を欠損しおしたった人や、脳梗塞で麻痺しおしたった人、加霢により脳機胜そのものが䜎䞋しおしたった人達が、健康な人ず同じように歩いたり、䜓を動かしたりするこずもできるようになる、ず倢は膚らむ