【MPF 2002 レポート】非x86関連もチェック(1)-10億トランジスタの使い道とYukon

x86関連の主要な製品に関するレポートはすでにお届けした今年のMicroProcessor Forumだが、非x86に関しても色々と面白いものが出てきている。ここではそれらをまとめてご紹介したい。

○Billion Transistor

初日の基調講演でIntelは、"Billion-Transistor Budget: A Different Kind of Real Estate Development"(10億トランジスタの使い道:有り余るトランジスタを利用する開発)という題目で、2007年におけるプロセッサのあるべき姿に関しての議論を行った。

この中で、ムーアの第1法則および第2法則は依然として有効であり、これに従う限り2007年には10億トランジスタが1つのチップに集積されるという見通しが語られた。ただし、このくらいになると熱密度が半端でなく高くなるため、10億トランジスタを全てロジックに振り分けると、その発熱は大変なものになる。

Intel Fellow, Enterprise Platforms Group and director of Mckinley ArchitectureのJohn Crawford氏
ムーアの第1法則(トランジスタ数は18カ月で倍になる)と第2法則(性能も18カ月で倍になる)を反映すると、2007年には1チップに集積されるトランジスタは10億、動作クロックは6GHzに達するという見積もりになっている

これに関し、(従来からもこういった話は出ていたが)ロジックとキャッシュを比較した場合はキャッシュの発熱が(ロジックと比較して)低いために、これをうまく混在することで発熱を分散させることができるとしている。そこで実際には、巨大なキャッシュエリアと複数のCPUコアを搭載したCMP(Chip Multi Processor)構成とすることが考えられる、というのがIntelの主張だ。

キャッシュとコアロジックを比較した場合、消費電力は当然キャッシュの方が低く、温度勾配もこれを反映したものになる。そこで、キャッシュとコアロジックをうまく混在させることが、発熱の解決には重要だとしている
Itanium 2を4プロセッサ統合したCMPの例。今回初公開のプランだが、別に製品プランとしてこれが決まったというわけではないそうだ。あくまでも構成例だそうだ

例えばItanium 2プロセッサを4つ搭載すると、これに必要なロジックは1.2億トランジスタ程度になる。これに12~16MB程度の共有キャッシュを組み合わせ(これが7~9.5億トランジスタ)、合計して10億近いトランジスタになることが示された。また、このCMPを構成する各プロセッサには、HTが搭載されることでさらにプロセッサの性能が向上するとしている。

現在は2Threads/ProcessorになっているHTだが、2007年の時期にもなるともっと多数のThreadをインプリメントできる可能性があるとしている。その結果、例えばThreads/Processorでも4CPU構成だと見かけ上は(仮想)8プロセッサが1チップに搭載されることになる
Itanium 2のコアにHyperThreadingを搭載した例。というか、Itanium 2のコアにHyperThreadingを搭載するとした場合、どこに修正をいれないといけないかを示したものと考えるのが正しい。ごらんのように、修正個所は極めて少ないことが分かる

要するに10億トランジスタもの分量になると、もはや1CPUのコアロジックだけではそのトランジスタを到底使い切れないということが改めて示された形になっている。もちろん大量のL2キャッシュを搭載すればある程度性能は向上するが、ある段階になると性能向上への寄与分は次第に減ってくる。結果としてはHTやCMPにより、トータルでの総合性能を上げる方向に転換せざるをえない。

実はこうした話は、今に始まったことではない。汎用コンピュータ(メインフレーム)の分野を思い出してみると、80年代の国内メーカーはIBMを凌ぐ高速動作のCPUを開発する方向を向いていた。ところが90年代に入り、単一CPUの性能を上げる方向には無理が出始めた結果、開発の方向はマルチプロセッサを利用してトータルでの処理性能を上げる方向に方針変換している。

同じことはUNIXベースの多くのメインフレームにも当てはまることで(もちろん単一プロセッサの性能向上への努力は引き続き行われているが)、むしろマルチプロセッサをいかに効率的に構築するかに方向は変わりつつある。今回の発表は、Intelもまたこうした方向に舵を切り始めたことを改めて表明する結果になったと筆者は考えている。

○Micron Yukon

Micron TechnologyのChief Architect of Active Memory ProgramであるGraham Kirsch氏

2年おき位にMPFに登場するのがMicron。同社の場合、メモリロジックをいかに発展させてゆくかが毎回のテーマとなっている。2000年には、チップセット内部に無駄な領域が大量にあることに着目し、ここに8MBのeDRAMを内蔵させてL3キャッシュとして動作させるMambaというチップセットを発表したが、今年は斬新な発想のメモリロジック混載デバイスであるYukonを発表した。

Yukonの発想はちょっと面白い。例えばメモリ上のデータを加工する場合、メモリから読み込む→CPUでデータを加工→メモリに書き戻す、という手順をとる。ところがこれだと、当然ながらメモリバスのバンド幅がボトルネックになる。普通のSDRAMを例にとってみると、メモリ内部の転送速度は200Gbpsに達している。ところがこれを外部に取り出すためにセンスアンプやバッファを経由させ、さらにインタフェース回路を通る過程で、転送速度は800Mbps~1Gbpsに低下してしまうというわけだ。「だったら、データ加工ロジックをメモリ側にいれれば、もっと高速になる」というのがYukonの発想である。

これはあくまでも試作品なので、量産になると構造はまた変わってくるだろう

右の写真がYukonの大まかな構造である。128Mbit(16MB)のDRAMに256個のレジスタ、それとProcessor Elements(PE)と書かれている演算ユニットがワンパッケージになっている。CPU側からはタスクディスパッチユニットを経由して処理コマンドが送られてきて、これに応じてPEはレジスタファイルを経由してデータをDRAMから取り込んで処理、その結果を再びレジスタファイル経由でDRAMに書き戻す。

もちろんデータ自体をホスト側で必要とする場合、HMI(Host Memory Interface)を経由してアクセスすることが可能だ。ちなみにこのPEの内容はというと、8bit幅のALUをベースとしたものながら、IEEE754に準拠した浮動小数点演算も可能となっている。各々のPEの性能はそうたいしたものではないが、これを任意の形状に自由に組み合わせることができるため、非常に応用範囲は広い。

実際には、例えばVoIP(Voice Over IP)ネットワーク向けのエンコード/デコードを考えた場合、一つのYukonデバイスで500ch分の処理が可能だとしている。ちなみに、チップのフロアプランも示されたが、既存のメモリセルと比較してもそれほど巨大というわけではない。開発システム向けにも、すでにYukonのシリコンは準備されており、またC++による開発環境も最小限のものは用意されているという。


これは各々の演算ユニットの内容だが、これが256個用意されていることに注意。だから、例えば32bit演算ならこれを4つ組み合わせれば良いことになる
ここには256個を直列でつなげたり、あるいは16×16でのメッシュ上に組み合わせたり、といった例が示されているが、実際にはもっと好きなようにPEを組み合わせることが可能になっている

Yukonは、メモリアクセスがボトルネックとなるもの、あるいはパラレル処理が必要なものに向いているとしている。画像/ビデオの処理とか音声認識などが最初のアプリケーションになりそうだ
中央の上部に位置するのがレジスタファイル、その下にPEや各種コントローラが位置する。左右にあるのが16MB分のeDRAMセルである。ちなみに開発ツールに関しては、今後ライブラリを充実させてゆくとのこと

Yukonの発想は非常に面白いと思う。これまでのシステムはいずれも、どうやってメモリをプロセッサの近くに置くかに向けて努力しており、高速・広帯域なメモリバスを用意したり、あるいはeDRAMなどをプロセッサ側に集積したりすることで解決しようとしていたのに対し、Yukonは明らかに逆のアプローチをとっている。

メモリ専業メーカーであり、かつ、どうやってメモリに付加価値をもたせるかについて日々研究しているMicronだからこそできた発想だろう。このメモリがコモディティになるとは思えないが、組み込み系用途を中心に、ある程度の需要を掘り起こすことは可能だと思う。

例えばJPEGやMPEGにおける、RGBとYUV/CMYKの色空間変更とか、Quantize/IQuantize程度の処理には十分だし、精度をそれほど高くとらなくてもよければ、DCT/IDCTにも応用できるだろう。今回のPEではSAD(Substitute-Add)を求められるほどの柔軟性はないが、将来これが可能になれば、MPEGなどにおける動き検索を従来から1桁以上高速化することも夢ではない。あるいはMPEG-4のGlobal Motion Estimationをリアルタイムで行うことも可能になる。これがうまくいけば、Micronはニッチメモリのマーケットに新しい製品群を押し込むことができるだろう。

(大原雄介)

【NewsSpecial】MPF 2002 レポート
http://pcweb.mycom.co.jp/news/special/2002/10/16/02.html

Intel
http://www.intel.com/

Micron Technology
http://www.micron.com/



人気記事

一覧

イチオシ記事

新着記事