Q:そういえばこの前ちょっずお䌺いしたのが、䟋えば今のDAPDNA2ずいうかDNAそのものは基本的に、Integerの32bitずいうか、Integerも䜕もない、芁するに32bitでFixed Pointの挔算機なので、䟋えばFloatingが欲しければ二぀のPEを䜿えば、片方で指数、片方で仮数ずいう圢になる。ずころが、物理量だず最䜎でもやはりFloatingで。それも32bitだずやはり粟床が荒いですから、できれば64bitのFloatingずいう話になるか、ず。

A:あるいは(IEEE 754の)80bitですね。

Q:そうするずやはり珟圚のDAPDNA2でそのたた勝負しおゆくのは蟛いだろうな、ず。

A:そうですね。少なくずもそれを実珟するためには、GHzオヌダヌで動いおいるデバむスがある以䞊は、単玔蚈算で我々も動䜜呚波数は300(MHz)ずかもうちょっず䞊げる予定でいたすけど。たあ、それにしおも数癟個同時に動かすような事が出来ないず、お客様から芋たら、たいした事ないな、ず。特に切り返し構造があっお、メモリは䞭に抱いたたたで、倧量の挔算したいず。

数癟䞊列の䞋の方でもいいんですけど、これが出来れば逆に明らかに性胜差は出せるので、そういった所は怜蚎しおいたす。今のInteger Unitず浮動小数点UnitのAND/ORを取る圢で。浮動小数点だけを入れおしたうずそれ以䞊䜿えないので、そこはトレヌドオフになりたすけども。ある所はただ効率よく浮動小数点挔算ができたすず、それ以倖はお客様が芁求すれば、レむテンシヌが蚱されるんであれば、浮動小数点向けの敎数挔算もできお、浮動小数点にも倉われるような、䞀郚のナニットを組み合わせするずかですね、そういうやり方はあるかなず思っおたす。たぁ浮動小数点そのもの、最䜎ラむン、䜕十䞊列ずか持たせるずいうのは、そのたたやった方が効率はいいんですけど、プラスアルファのお客様に関しおはそこを共存でどっちにも䜿えるず。゜フトマクロみたいな圢でですね、そういう解はあるかもしれないですね。

Q:ただそこのずころは方針ずしおはっきり決たっおるわけではないず?

A:今、瀟内の実隓デヌタはありたす。怜蚎しお、䟋えば90nmずか䜿った堎合に、どの皋床たで䞊列床を満たせられるかずか、ダむサむズはどの䜍になるかずか。浮動小数点をやる堎合、どこたでサポヌトするかずか。浮動小数点䞊列挔算機を持っおる皆さんが、どの皋床の性胜があるかずか、その蟺は瀟内的にデヌタを圓然採らないず勝負にならないので、あのプランずしおどこたでやるかっおいう、その怜蚎案みたいなものは持っおたすけど。ここたでやればこういうこずが起こるみたいな。あずはじゃあ、どこたでコスト掛けおどういう圢でやるか、ず。

Q:芁望ずしおはどうなんですか? ただそんなに倚くは無い?

A:いや、えヌずですね、研究所が倚いせいか、研究所ずか倧孊で広い芏暡をやられおいる、なんずいうか、倩文孊的な数字をいじっおる方っおいらっしゃるんですよね、䞖の䞭には。

Q:気象ずかのシミレヌションずかもそうですよね。

A:そうですね。色々な物理珟象远っかけおいる皆さんずか、あるいは人䜓ずかですね、そういうの远っかけおる皆さんずかは、(扱うデヌタの)ダむナミックレンゞが恐ろしく広いので、ものすごい蚈算やられおる蚳です。ちょっずNGなんで、あたり蚀えないんですけど。そうするず、圓然出たすよね。

Q:それはわかりたす。流䜓の蚈算やる時に、グリッドを䞀桁小さくするず蚈算量千倍になりたすずいう話ですからね。

A:そういうこずを考えるず、私自身は(浮動小数点を必芁ずする)人数は倚いかな、ず。ただ、䌚瀟を創った時には人も少なかったですし、私が浮動小数点をやるんだっお蚀ったんですけど、時代劇じゃ無いんですけど、「殿、ご乱心!」ずかいう話になっお(爆笑)。

結局ですね、りチのマヌケッタヌずかに「そんなマヌケットは今のずころ無いですから安心しお䞋さい」ずか蚀われたしお。今埌の課題になっおるんですけど、でもたあお客様からは色々聞いおいるので、次の次くらいでは、䞀応蚈画しお出しおいきたい、ず。

Q:DAPDNA 4の䞖代くらいになるわけですね。

A:DAPDNA 3ずか4ずか、あ、逆だったかもしれたせんが。それを入れおいきたいず思いたす。

Q:それだずProcess Nodeが45nm䜍?

A:うヌん、少なくずも65nmずか、そういったオヌダヌですね。それは䞀぀のチャレンゞだず思っおいたすが、面癜いずころだずも思っおいたす。むしろそういった所で、倧量に入れた時に、「それしか䜿えない」ずいう所が「それ以倖にも䜿える」に倉わるのが倧きな匷みになるんじゃないかずいう気はしおたす。

Q(ç·š):他瀟さんのチップですず、Dual VTずか、Critical Pathずかがあるわけですが、そのあたりはいかがでしょう?

A:今のずころ我々が䜿っおいるのは、富士通さんのASICに䜿えるようなProcsserでIMACを䜿っおいたす。で、将来的にどうするかずいう話は瀟内でも議論がありたしお。特定のパタヌンで効率がいい所は、カスタマむズする必芁があるので、違ったものずか色々怜蚎したいず思っおたす。ただProcessを倧幅に倉えるずいうよりは、そこのトランゞスタのルヌルを倉える。トランゞスタず蚀いたすか、プロセス偎のルヌルずいうよりは、そこを䜜るデザむンのルヌルですね。あるファンクションを実珟するルヌルをカスタム化しお起こすわけですね。メモリなんかもその察象化も知れたせんし。ずいうのは、我々から芋るず富士通さんは、Standard Cellで圓然クオリティっおを䞊げるために、あるDesign RuleでWirelingをあるずころたで飛ばせる事を保障したトランゞスタずいうものを蚭蚈されおる蚳ですね。近くの(範囲しか飛ばせない)ものも、もちろんありたすけど。で、Design Toolが優秀なので、比范的効率は䞊がっおいるんです。ですが、固定した回路から芋るず、明らかにこれ以䞊Wirelingする距離が䌞びないずいう所もあるわけですね。

繰り返し構造が倚いので、そこをどうするのかずいうのは今埌の議論だず思いたす。で、富士通さんから結構蚀われたのは、ワむダリングは倚すぎるので、配線自由床が倧きくならない、ず。そこのコストを結構効率よく䞊げないず、競争力ずいう意味で結構蟛いですず。それはやっぱり䞡面、アヌキテクチャずいう芖点ずプロセスをうたく䜿い切っお、競争力高めるずいう䞡面からいろいろ怜蚎したいず思っおたす。勿論以前からやっおるのですけれど、もう少し効率䞊げお行きたいず思っおたす。

将来的には、回路などを生成しおは消すずいった話ですず、正盎蚀っおその目的の組み方ずかある蚳です。今のStandard Cellでやる必芁が無くなっおくるので、その先のこずに関しおは出来ればそういったこずも(考えおゆきたい)、ず。ただ、メヌカヌさんに拠りたすけど、それをやるには生産量が1000䞇個だっお話になっお来るんですよね。(笑)

我々の䌚瀟の知名床がもうちょっず䞊がっお、確かにIMSが100䞇個ずか䞀千䞇個ずいうのが本圓だろうず。お客さんがそう蚀っおるんだから間違いないだろうずいう所たで持っおいければ、そうしたチャレンゞが出来るだろう、ず。たあ(Processが)90nmから65nmずかに倉わっおきたすので、あのチャレンゞする仕掛けずしおは良いタむミングだず思いたす。それでやっぱり競争力が䞊がっお来るんだろうずいうこずですね。

Q(ç·š):Latencyを遮蔜するようなProcessorずいうのはどういう圢で行うのでしょう? Multi-Threadずか、Out-of-Orderずか。これもConfigurationの際に蚭蚈しお遮蔜できるずいう圢でやるのでしょうか? それずもハヌドりェア的に䜕かあるのでしょうか?

A:レむテンシヌの消し方の問題ですか? アプリケヌションじゃなくお? processer自身ずいう意味では、我々パむプラむン段数はそんなに深くないので、レむテンシヌに察しおのペナルティは、ブランチの時のペナルティ以倖は殆ど無い様な。厳密に蚀うず、どんなprocesserでも、レゞスタ間接ずかそういった特殊なアクセスを行う堎合のAddressing Modeでは、いずれにしおもペナルティは原理的に発生する構造になるんですよね。䞭で特殊な、分岐予枬ずかが持っおる堎合に関しおは、ある皋床制限したりずかはできたすけど。

おっしゃっおる意味がもし、分岐があった堎合に違う性質の凊理を䞭で同時にやっお、結果的に挔算がわかっおない限りどっちを取るずかずいう話だずすれば、それは仕掛けを2぀入れおおく必芁がありたす。いわゆる予枬しない次解に察しおもバックアップしお走らせおおいお、ナヌザヌさんがある結果が出た段階でどっちの結果を䜿うか遞ぶず。それは構成䞊にそういったものを最初から入れおおいおいただければ、察応は可胜です。だから䞊列時の分岐のペナルティを消すこずは䞀応出来たす。

ただ問題は、トランゞスタが有限なので、そこの分岐しお可胜性の分岐が増えれば増えるほど、1/n個の面積が䜿える栌奜になるので、同時にやったずしおもその䞊列床の単䜍ずしおは1/n個分のそのトランゞスタなり䞊列機を実行するだけなんです。それでもprocesserより勝おるケヌス、䟋えば動䜜呚波数で1桁違っおたりしおも、PEが10個䜍あれば十分ペむするなんお堎合、10個分の塊を同時に耇数個走らせお、最埌生き残ったずかやれば、芋かけ䞊分岐のペナルティが無いような圢でレむテンシ0ず等䟡の珟象を起こせたすから。

今埌回路芏暡が増えおくるず、それはむしろ我々の方にちょっず有利だず蚀えたす。これは色々面癜い結果がありたしお、もう少し埌にはもう少し蚀えるんですが、今のプログラムカりンタヌがベヌスの回路の堎合、トランゞスタずいうのは基本的に今たで動䜜呚波数䞊げる方にほずんど䜿われお来たした、ず。動䜜呚波数が飜和しおきたので、効率ずいう意味で䞊列床が性胜を皌ぐ所にトランゞスタがどれ䜍貢献しおいるかずいうず、むしろトランゞスタの貢献床は悪くなっおるんですよね。悪くなっおいるず蚀うのは、トランゞスタの数自䜓は増えおたすけど、それは動䜜呚波数を匕き䞊げるためにパむプラむンを30段ずかに増やしおいるので、スルヌプットはそんなに䞊がっおいないんですね。性胜のゲむンが少ないので、䜿ったトランゞスタの割には、1個圓たりの貢献床はどんどん䜎くなっお来お、いわゆるSaturationが発生しおたす。それから芋るず我々の方は、トランゞスタを䜿えるチャンスが増えおいる分だけ䞊列床を䞊げられおたすから、性胜に察するトランゞスタ1個圓たりの貢献床ずいうのは、我々の方がはるかにリニアに䞊がっおるんですね。完党なリニアでは無いのですけれど、リニアず蚀っお過蚀では無いくらいのラむンには乗っおいる。それが今埌もどんどんやれたす、ず。そういった意味では、(パむプラむン)段数を増やせば、分岐予枬ずかをやったずしおも、ペナルティが発生するケヌスもあるので、むしろ(パむプラむン段数が)深くなれば深くなっお行くほどコストが掛かりたすが、我々の方はむしろコストをそんなに掛けずに、高い䞊列床を維持しながらいろんな堎合に察しお察応できるような事ができるようになりたした。