Hot Chips 27 - ウィスコンシン大学のOpen GPU「MIAOW」(1) オープンソースGPU「MIAOW」とは?

Hot Chips 27において、ウィスコンシン大学マディソン校のKaru Sankaralingam准教授がオープンソースの「MIAOW GPU」について発表を行った。MIAOWという名前は、論文のブラインド査読(著者が分からないようにして査読する)の際に使われた「Many-core Integrated Accelerator Of the Waterdeep」の頭文字を取ったものだと言う。しかし、MIAOW(日本語ではミャーオ)プロジェクトのマークはこの図のように猫の図案であるし、FPGAでの実装版は「NEKO」という名前を付けており、この名前は気に入っているようである。


MIAOWについて発表するウィスコンシン大学マディソン校のKaru Sankaralingam准教授とMIAOWプロジェクトのマーク

ソフトはGNUやLinuxなど古くからオープンソースのものがあり、GoogleやFacebookなどでもオープンソースの利用がビジネスを支えている。ハード側でも「OpenCores」や「RISC-V」などのオープンソースCPUがある。しかし、GPUにはオープンソースのものが無いということからSankaralingam准教授のグループはMIAOWの開発を進めたという。当初は7人のグループで、12カ月で基礎を作り、その後、FPGAのエキスパートなどを加え、36カ月で現在の状態になったという。

当初は、論理設計5名、ソフトと物理設計各1名の計7名。その後FPGAのエキスパートや学部学生3名を追加し、36カ月で開発。面積、性能などの最適化は目的としていない

MIAOWの開発に当たっては、命令セットが公開されているAMDのSouthern Island GPUと命令互換のGPUを開発することにしたが、現状のMIAOWは3Dグラフィックス用のパイプラインや機能ユニットは、まだ、実装されていない。また、MIAOWの設計では、チップ面積、電力、クロック周波数、性能などを最適化することは目標としていないとのことである

MIAOWの命令セット

MIAOWの命令セットは、次の図に示した、AMDのGCNアーキテクチャの命令セットのうちの95命令を実装している。いわゆる科学技術計算などを実行するGPGPUとして必要な命令は実装しているが、3Dグラフィック向けの命令は、現状では実装していない。また、科学技術計算向けでもサポートしているのは32ビットの単精度浮動小数点演算だけであり、64ビットの倍精度の浮動小数点数はサポートしていない。

この表に示す95命令を実装している。そして、現在は単精度のサポートだけで、グラフィックス機能も、まだ、サポートしていない

MIAOWハードウェアの構成

MIAOWは、次の図のように、「Ultra-threaded Dispatcher」という多数のスレッドを管理するユニットに「CU(Compute Unit)」と呼ぶ演算ユニットが付くという構成になっている。MIAOWは32個のCUを持つが、紙面の都合で、図には8個のCUしか書かれていない。そして、DispatcherやCUにデータを供給し、CUのストアデータを格納するL2キャッシュがある。L2キャッシュには3つのメモリコントローラが付き、そこからGDDR5のデバイスメモリに繋がっている。

右側はCUの内部を示す図で、命令をフェッチ、デコードして実行をスケジュールするユニットがあり、2段目には命令を実行するLSU((Load Store Unit)、演算を行うベクタALUと浮動小数点の積和演算を行うユニットとスカラのALUがあり、3段目にはローカルメモリ(Local Data Store)、ベクタ用GPR、スカラ用GPRが描かれている。

MIAOWシステムの構成の概要

AMDのGPUでは並列に実行される64本のスレッドを「Wavefront」と呼んでいる。これは、サイズは2倍であるが、NVIDIAが「Warp」と呼んでいるのと同じものである。

次の図はMIAOWのCUのハードウェアの構造を示す図で、CUは40 Wavefrontをハードウェアで管理し、各Wavefrontの次に実行する命令のアドレスを指すPCを持っている。そして、このPCを使って命令を読み出し、Wavepoolに格納する。そして、Decode and Dispatchユニットは、全スレッドで命令を実行する条件がそろったWavefrontを選択して、実行ユニットに命令を発行する。

各実行ユニットは、自分宛の命令を実行して、結果をレジスタファイルやLDSなどに書き出す。

CUの構成。64スレッドのWavefront 40個をハードウェアで管理する。16WideのベクトルALUを8基(0-7)持つと書かれているが、これは4基(0-3)の間違いと思われる。そして、512エントリのSGPR、1024エントリのVGPRを64枚とLDSを持つ

各CUハードウェアは、管理する40本のWavefrontの中から次の命令が実行可能であるものを、原則的にはラウンドロビンで選択して、オペランドで指定されたレジスタのデータと、PCが指す命令の命令コード、結果を格納するレジスタなどの情報を実行ユニットに渡して実行させる。

MIAOWはAMDのGCNアーキテクチャのGPUと命令互換であり、OpenCLのプログラムは変更なしに動作する。また、AMDのAPP SDKのOpenCLベンチマークも全てそのまま動作する。

また、MIAOWは、命令の追加などの拡張が容易な造りになっている。

(次回は9月22日に掲載します)

オープンソースGPU「MIAOW」とは?

MIAOWの命令セット

MIAOWハードウェアの構成

この連載の前後回

Members+ 会員限定記事

【独占】MIXI木村弘毅社長に聴く“ブレない理念” どんな事業でも「コミュニケーション」を追求

後継者としてトップに就任した3人が明かす、DX推進のポイント

1年生全員がPython認定基礎試験を受験した秋田県立新屋高校、その狙いと成果とは

OracleのCEOキャッツ氏が初来日、「ゆっくり動くことはリスクになる」日本企業に提言

米オラクルCEOキャッツ氏、日本に対する1.2兆円の投資の狙いを説明

FinOpsを実践するメルカリ、その道のりと気づき、今後の展望 - 後編

編集部が選ぶ関連記事

Hot Chips 27 - 進化するFPGA 第1回 FPGAの適用範囲を広げたXilinxの第2世代Zynq

Hot Chips 27 - InfiniBand HCAを内蔵したOracleのSonomaプロセサ第1回第4世代のS4 SPARCコアを8個搭載するOracleの「Sonoma」

Hot Chips 27 - メッシュネットワークでコアをつなぐKnights Landing 第1回 Knights Landingの基本構成要素

Hot Chips 27 - 中国Phytiumの64コアARMv8サーバプロセサ「Mars」(前編)

関連リンク

Intel、11億5000万ニューロンを実現したニューロモーフィック・システム「Hala Point」を開発

東北大、半導体とスピン素子による融合型確率論的コンピュータの性能を実証

ソフトバンクと理研が進める量子・スパコン連携は社会に何をもたらすのか？

36個のLSIによるスケーラブル全結合型イジングプロセッシングシステム、理科大が実機検証に成功

IBM Research本部のYorktown Heightsから見る、量子コンピュータの最前線

Cerebras、4兆トランジスタを搭載した第3世代WSE「WSE-3」を発表

このカテゴリーについて

オープンソースGPU「MIAOW」とは?

MIAOWの命令セット

MIAOWハードウェアの構成

この連載の前後回

Members+ 会員限定記事

【独占】MIXI木村弘毅社長に聴く“ブレない理念” どんな事業でも「コミュニケーション」を追求

後継者としてトップに就任した3人が明かす、DX推進のポイント

1年生全員がPython認定基礎試験を受験した秋田県立新屋高校、その狙いと成果とは

OracleのCEOキャッツ氏が初来日、「ゆっくり動くことはリスクになる」日本企業に提言

米オラクルCEOキャッツ氏、日本に対する1.2兆円の投資の狙いを説明

FinOpsを実践するメルカリ、その道のりと気づき、今後の展望 - 後編

編集部が選ぶ関連記事

Hot Chips 27 - 進化するFPGA 第1回 FPGAの適用範囲を広げたXilinxの第2世代Zynq

Hot Chips 27 - InfiniBand HCAを内蔵したOracleのSonomaプロセサ 第1回 第4世代のS4 SPARCコアを8個搭載するOracleの「Sonoma」

Hot Chips 27 - メッシュネットワークでコアをつなぐKnights Landing 第1回 Knights Landingの基本構成要素

Hot Chips 27 - 中国Phytiumの64コアARMv8サーバプロセサ「Mars」(前編)

関連リンク

Intel、11億5000万ニューロンを実現したニューロモーフィック・システム「Hala Point」を開発

東北大、半導体とスピン素子による融合型確率論的コンピュータの性能を実証

ソフトバンクと理研が進める量子・スパコン連携は社会に何をもたらすのか？

36個のLSIによるスケーラブル全結合型イジングプロセッシングシステム、理科大が実機検証に成功

IBM Research本部のYorktown Heightsから見る、量子コンピュータの最前線

Cerebras、4兆トランジスタを搭載した第3世代WSE「WSE-3」を発表

このカテゴリーについて

Hot Chips 27 - InfiniBand HCAを内蔵したOracleのSonomaプロセサ第1回第4世代のS4 SPARCコアを8個搭載するOracleの「Sonoma」