【レポート】
Stream Processors(SPI)という会社は聞きなれないと思うが、米スタンフォード大学の教官が自身の研究室の研究成果を世に問うために2004年に立ち上げたベンチャー企業である。このSPIが、ISSCCのセッション15:マルチメディアとパラレルシグナルプロセッサにて2番目に講演を行った。またその後、同社の日本カントリーマネージャのGary Brown氏に話を聞くことができた。
SPIは、512GOPS(8bit)(0.5TOPS)の高い能力を持つDSPを開発した。そのアーキテクチャを「Stream Processor architecture」と呼んでいるが、これは従来のDSPの持つ欠点を解消したものだという。その特徴は、
にあるという。一般に、カスタムチップを製造する方法としては、ロジックをハードワイヤードで実装するASIC、ハードウェア記述言語で回路を形成できるFPGA、そしてロジックをソフトウェアで動かすDSPがあるが、性能とコストについて、それぞれ特徴がある。ASICは大量生産すれば安く、性能も高いが、少量使う場合は初期の開発費の占める割合が非常に大きくなってしまう。また、ちょっとしたロジックの変更をする場合もマスクから作り直しとなって大きなコストがかかってしまう。FPGAは開発はやや難易度が高いが、ロジックの変更が可能で、少量使う場合にも初期開発費は安価。しかしチップの値段の割りに性能がやや出にくい。DSPは、開発しやすく、ロジックの変更も簡単だが、チップのコストに対しての性能がFPGA以上に出にくい。このような状況にあるところ、SPIは、DSPの開発のし易さを保ちつつ、ASIC並のパフォーマンスを発揮できるDSPを開発したという。同社によると、1000MMACS/ドルのコストパフォーマンスと、8GMACS/Wのワット性能を達成したという。これは既存のDSPやx86プロセッサはもちろん、IBM Cell BEプロセッサよりも高い数値だという。
Stream Processorは、その主なデータ処理をDPU(Data Parallel Unit)が行う。これは、16のレーンと呼ばれる演算装置から構成されており、一つのレーンには、5つの32bit-ALUと1つのレーン内通信ユニット、4つのロード/ストアユニット、16KBのレーンレジスタファイルなどが入っている。命令は1つのレーンに対して384bitのVLIWで渡され、全てのレーンに対して同じ命令が渡される。各レーンは同じ命令を使って、異なるデータセット(ここではストリームと呼んでいる)を処理する仕組みになっている。つまりシングルインストラクション、マルチストリームというアーキテクチャだ。
Stream ProcessorはDPUの他、2つのマイコン(MIPS 4000Ec)を搭載している。一つはSystem MIPSと呼んでおり、管理用OSが動作している。もう一つはDSP MIPSと呼んでおり、ここでメインアプリケーションが動作し、DPUをマネージメントする。
並列アーキテクチャを備えたDSPながら、データ処理ロジックの開発は極めて簡単だという。アプリケーションはシングルスレッドプログラミングで記述すればよく、複数のレーン間の協調や、分散して配置されているメモリのマネジメントについて考慮せずに開発ができるという。複数のレーンには同じ命令を配置するので、レーン間で因果関係は出ない(出ないように各レーンに割り当てるデータの切り方を考慮する必要がある)。また、メモリのマネジメントはコンパイラが自動的に行う。このため、マルチスレッドプログラミングが必要なマルチコアDSPよりも、アプリケーション開発が楽であるという。しかも、将来の製品展開によってレーンの数が増減した時にも、ほぼ同じアプリケーションを使い続けることができるというスケーラビリティを持っているという。
Brown氏は「性能を高める為にはパラレルアーキテクチャが必要でしたが、一般にマルチコアプロセッサではソフトウェア開発が複雑かつ難易度が高くなることが課題でした。ハードウェア設計にStream Processor architectureを採用することにより、その上で動作させるアプリケーションの開発が極めてシンプルになり、かつ高性能が得られるようになりました」と述べる。ソフトウェア開発者とハードウェア設計者が、一つの研究室で同じ課題を持って開発したことが、このアーキテクチャの創造に繋がったと述べる。
チップはTSMCの130nm 1V スタンダードCMOSプロセスで製造され、まずは「Sp8-G80」と「SP16-G160」の2製品が市場に投入されるという。スペックは次の通りだ。
| 型番 | TBA | SP8-G80 | SP16-G160 | TBA |
|---|---|---|---|---|
| 生産時期 | 2007H2 | Now | Now | 2007H2 |
| レーン数 | - | 8 | 16 | - |
| パフォーマンス | - | 80GOPS(16bit) | 160GOPS(16bit) | - |
| 動作速度 | - | 500MHz | 500MHz | - |
| パッケージ | - | 31mm×31mm、896pins | 31mm×31mm、896pins | - |
動作周波数は500MHz、パフォーマンスは320GOPS(8bit)となっているが、ISSCCの発表サンプルでは800MHzで動作しており、結果リニアに512GOPS(8bit)を実現している。TBAと書かれている欄は、今年下半期に登場予定の新製品。高性能版についてはロードマップではG320とかかれており、ネーミングから推察すると、おそらくG160の倍の32レーンのDPUを備え、能力は320GOPS(16bit)と予想される。従って、ローコスト版は4レーンのDPU(40GOPS)を持つと考えるのが妥当だ。2008年下半期には、1TOPS(1000GOPS)を超える能力を持つ超高性能版を出す予定だという。加えて、10ドル/GOPSを下回る、ハイコストパフォーマンス版の製品化も予定しているようだ。
| ISSCC 2007 - 0.13μm CMOSプロセスで実現した60GHz受信器のフロントエンド部 [2007/2/14] |
| ISSCC 2007 - クアッドコア「Opteron」、ワット性能を高める分母側の要素 [2007/2/14] |
| ISSCC 2007 - IEEE802.11g 64QAM OFDM用CMOS Polarパワーアンプ [2007/2/14] |
| ISSCC 2007 - CMOSプロセスによる60GHz帯通信用フロントエンド [2007/2/14] |
| ISSCC 2007 - アリゾナ大学、LDOとスイッチモード降圧器によるC級PAをGSMに応用 [2007/2/14] |
| ISSCC 2007 - 各種UWB規格準拠の送受信回路の微細化・低消費電力化が進む [2007/2/14] |
| ISSCC 2007 - IBM、タフでオールマイティ、5GHz超で動作する「Power6」 [2007/2/13] |
| ISSCC 2007 - Intel、80タイルプロセッサの詳細を発表、最大5.67GHzで動作 [2007/2/13] |
| トマトを食べれば痩せられる!? -京大ら、新発見の成分で肥満改善効果を実証 [21:00 2/10] |
| JAXA、液体シリコン中に残存する共有結合を観察 -大口径ウェハの実現に期待 [20:11 2/10] |
| NEDOなど、熱膨張が小さな樹脂複合材料ペレットの量産化に成功 [19:22 2/10] |
| 理研、一般顕微鏡を蛍光顕微鏡に強化できるアダプタを試作して性能を実証 [19:15 2/10] |
| 天の川のブラックホールが小惑星を飲み込んでいる - NASAが発表 [18:08 2/10] |
|
激シブ!もう一度ゴルフ Ⅱ の魅力を味わってみませんか?【大阪オートメッセ2012】 [03:06 2/11] キャリア |
|
『ヘタリア』キャラソン、新シリーズが配信決定! [03:05 2/11] キャリア |
|
全国の温泉を擬人化したドラマCD、第1弾「草津」は櫻井孝宏さん! [03:05 2/11] キャリア |
|
柿原徹也さんの2ndミニアルバム「CONTINUOUS」2月15日発売 [03:04 2/11] キャリア |
|
アニメ「Fate/Zero」陣営ごとのお守りが発売決定 [03:03 2/11] キャリア |