【レポート】

ISSCC 2007 - 米ベンチャー、0.5TOPSの高性能DSP「ストリームプロセッサ」

    古林高  [2007/02/15]

    Stream Processors(SPI)という会社は聞きなれないと思うが、米スタンフォード大学の教官が自身の研究室の研究成果を世に問うために2004年に立ち上げたベンチャー企業である。このSPIが、ISSCCのセッション15:マルチメディアとパラレルシグナルプロセッサにて2番目に講演を行った。またその後、同社の日本カントリーマネージャのGary Brown氏に話を聞くことができた。

    SPIは、512GOPS(8bit)(0.5TOPS)の高い能力を持つDSPを開発した。そのアーキテクチャを「Stream Processor architecture」と呼んでいるが、これは従来のDSPの持つ欠点を解消したものだという。その特徴は、

    • パラレルアーキテクチャによって実現した512GOPSに達する高い性能
    • カスタムASIC並の高い性能
    • 開発者に優しいC言語によるシングルスレッドプログラミング

    にあるという。一般に、カスタムチップを製造する方法としては、ロジックをハードワイヤードで実装するASIC、ハードウェア記述言語で回路を形成できるFPGA、そしてロジックをソフトウェアで動かすDSPがあるが、性能とコストについて、それぞれ特徴がある。ASICは大量生産すれば安く、性能も高いが、少量使う場合は初期の開発費の占める割合が非常に大きくなってしまう。また、ちょっとしたロジックの変更をする場合もマスクから作り直しとなって大きなコストがかかってしまう。FPGAは開発はやや難易度が高いが、ロジックの変更が可能で、少量使う場合にも初期開発費は安価。しかしチップの値段の割りに性能がやや出にくい。DSPは、開発しやすく、ロジックの変更も簡単だが、チップのコストに対しての性能がFPGA以上に出にくい。このような状況にあるところ、SPIは、DSPの開発のし易さを保ちつつ、ASIC並のパフォーマンスを発揮できるDSPを開発したという。同社によると、1000MMACS/ドルのコストパフォーマンスと、8GMACS/Wのワット性能を達成したという。これは既存のDSPやx86プロセッサはもちろん、IBM Cell BEプロセッサよりも高い数値だという。

    Stream Processorは、その主なデータ処理をDPU(Data Parallel Unit)が行う。これは、16のレーンと呼ばれる演算装置から構成されており、一つのレーンには、5つの32bit-ALUと1つのレーン内通信ユニット、4つのロード/ストアユニット、16KBのレーンレジスタファイルなどが入っている。命令は1つのレーンに対して384bitのVLIWで渡され、全てのレーンに対して同じ命令が渡される。各レーンは同じ命令を使って、異なるデータセット(ここではストリームと呼んでいる)を処理する仕組みになっている。つまりシングルインストラクション、マルチストリームというアーキテクチャだ。

    Stream ProcessorはDPUの他、2つのマイコン(MIPS 4000Ec)を搭載している。一つはSystem MIPSと呼んでおり、管理用OSが動作している。もう一つはDSP MIPSと呼んでおり、ここでメインアプリケーションが動作し、DPUをマネージメントする。

    並列アーキテクチャを備えたDSPながら、データ処理ロジックの開発は極めて簡単だという。アプリケーションはシングルスレッドプログラミングで記述すればよく、複数のレーン間の協調や、分散して配置されているメモリのマネジメントについて考慮せずに開発ができるという。複数のレーンには同じ命令を配置するので、レーン間で因果関係は出ない(出ないように各レーンに割り当てるデータの切り方を考慮する必要がある)。また、メモリのマネジメントはコンパイラが自動的に行う。このため、マルチスレッドプログラミングが必要なマルチコアDSPよりも、アプリケーション開発が楽であるという。しかも、将来の製品展開によってレーンの数が増減した時にも、ほぼ同じアプリケーションを使い続けることができるというスケーラビリティを持っているという。

    Brown氏は「性能を高める為にはパラレルアーキテクチャが必要でしたが、一般にマルチコアプロセッサではソフトウェア開発が複雑かつ難易度が高くなることが課題でした。ハードウェア設計にStream Processor architectureを採用することにより、その上で動作させるアプリケーションの開発が極めてシンプルになり、かつ高性能が得られるようになりました」と述べる。ソフトウェア開発者とハードウェア設計者が、一つの研究室で同じ課題を持って開発したことが、このアーキテクチャの創造に繋がったと述べる。

    チップはTSMCの130nm 1V スタンダードCMOSプロセスで製造され、まずは「Sp8-G80」と「SP16-G160」の2製品が市場に投入されるという。スペックは次の通りだ。

    型番TBASP8-G80SP16-G160TBA
    生産時期2007H2NowNow2007H2
    レーン数-816-
    パフォーマンス-80GOPS(16bit)160GOPS(16bit)-
    動作速度-500MHz500MHz-
    パッケージ-31mm×31mm、896pins31mm×31mm、896pins-

    動作周波数は500MHz、パフォーマンスは320GOPS(8bit)となっているが、ISSCCの発表サンプルでは800MHzで動作しており、結果リニアに512GOPS(8bit)を実現している。TBAと書かれている欄は、今年下半期に登場予定の新製品。高性能版についてはロードマップではG320とかかれており、ネーミングから推察すると、おそらくG160の倍の32レーンのDPUを備え、能力は320GOPS(16bit)と予想される。従って、ローコスト版は4レーンのDPU(40GOPS)を持つと考えるのが妥当だ。2008年下半期には、1TOPS(1000GOPS)を超える能力を持つ超高性能版を出す予定だという。加えて、10ドル/GOPSを下回る、ハイコストパフォーマンス版の製品化も予定しているようだ。

    関連記事

    関連サイト

    新着記事

    特設サイトの情報

      人気記事

      一覧

        イチオシ記事

        新着記事

        特別企画

        マイナビニュースマガジン