最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」(22) AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(5)

HSAキューイングモデル

最初に書いたように、現状では、CPUとGPUのメモリが別々であるので、データのコピーが必要である。また、GPUに処理を依頼するにはOSを経由する必要があり、時間が掛かる。

これに対して、HSAではCPUとGPUに共通の仮想メモリ空間を造り、一部のページはCPUメモリ、一部のページはGPUメモリにマッピングされるという構造を実現する。

HSAでは、CPUとGPUは1つの仮想メモリ空間を共用する

どちらも同じ仮想メモリ空間を共用するので、CPUが書き込んだデータをGPUが読んだり、その逆も可能であり、GPUに仕事を依頼するときに、データをGPUメモリにコピーする必要がなくなる。また、CPUとGPUのキャッシュコヒーレンシが確保できれば、CPU側のメモリに連続域のバッファを確保しなくても、キャッシュを使って相手方のメモリを効率よくアクセスできるようになる。

共通の仮想アドレス空間とキャッシュコヒーレンシをサポートすれば、CPUメモリのバッファ確保とCPUメモリとGPUメモリ間のデータのコピーが不要になる

これでデータの受け渡しの4つのステップが不要になる。

これに加えてHSAではGPUに処理を依頼するパケットの形式を決め、OSのサービスを使わず、ユーザモードでGPUのジョブキューに依頼パケットを書き込むメカニズムをサポートする。なお、キューの生成、破棄はHSAランタイムの呼び出しで行うことができるようになっている。

HSAランタイムを呼び出して共通メモリ上にキューを作り、HSAで決められたプロトコルに従って、ユーザモードプログラムがキューにパケットを入れる

処理を依頼するディスパッチパケットの形式は次の図のように決められている。

Dispatchパケットのフォーマット

ディスパッチパケットの最初の4バイトは待ち合わせの条件などを指定しており、それに続いて、ワークグループのX、Y、Z方向の大きさ、グリッドのX、Y、Z方向の大きさ、セグメントのサイズ、実行するハードウェア命令のアドレス、完了を知らせるシグナルオブジェクトのアドレスなどが書かれている。

パケットの処理開始はインオーダで、キューに入れられた順に処理が開始される。しかし、パケットのバリアビットが立っている場合は、それ以前にキューに入れられたすべてのパケットの実行が終わらないと、そのパケットの処理を開始しない。

また、詳細は略すが、パケット間の依存性がある場合に、待ち合わせを行うバリアパケットがある。バリアパケットは指定した条件が満足されるまで実行を完了せず、条件として指定した一群のパケットの終了を待ち合わせることができる。

FFTを、各段を2つのパケットとし、段の間にバリアを入れて実行する

この図はFFT(高速フーリエ変換)処理のパケットへの分割とデータの流れを示している。

次の図は、FFTの処理の状況を示しており、まず、パケット1が発行されて実行に移る。そしてパケット1の発行が終わると、パケット2が発行されて実行が開始され、パケット1と2は並列に処理が行われる。

しかし、パケット3との間にはバリアがあり、パケット3の発行はパケット2が完了するまで待たされる。結果として、パケット3の実行は、パケット2が完了しその結果が使用できるようになるのを待ち合わせる。

パケット1と2は順次開始され、並列に実行されるが、バリアがあるので、パケット3の実行は、パケット2の完了を待ち合わせる

このように、HSAでは、ユーザモードで書き込めるキューの作成メカニズム、キューへの書き込みプロトコル、キューに入れるパケットの形式を決めており、アプリケーションから、OSの介在なしにGPUに処理を依頼し、処理結果を受け取ることができるようになる。結果として、中間のバッファの確保、データのコピーや、OP経由のGPU起動などのステップをすべて省くことができ、最低限のステップでGPUに処理を割り振ることができるようになる。

HSAでは中間のステップをすべて省いて、効率よくGPUに処理を依頼できる

このように、HSAでは、単一の仮想メモリアドレス空間とキャッシュコヒーレンシのサポート、並列処理を効率的に行えるメモリモデルとユーザモードキューイングをサポートすることによって、 GPUと処理分担が効率よく行えるようになる。

AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(5)

HSAキューイングモデル

この連載の前後回

Members+ 会員限定記事

生成AIで大きく変わるOMOと顧客体験

リボン・コミュニケーションズ、事業戦略を説明 - IP＆光伝送製品市場で成長を

スマホとZoom Phoneの導入で大丸松坂屋百貨店に起きた「現場のコミュニケーション改革」

サンレディースがデータ活用の組織文化の醸成に成功したポイントとは？

軍事とIT 第555回システムの統合化(2)統合化されたシステムの実現に必要な要素

ワークロードに最適なクエリエンジンを選択できる「watsonx.data」の最新機能

編集部が選ぶ関連記事

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第18回 AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(1)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第17回 Piledriverコアを採用したAMDのハイエンドAPU「Richland」

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第16回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(2)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第15回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(1)

関連リンク

Intel、11億5000万ニューロンを実現したニューロモーフィック・システム「Hala Point」を開発

東北大、半導体とスピン素子による融合型確率論的コンピュータの性能を実証

ソフトバンクと理研が進める量子・スパコン連携は社会に何をもたらすのか？

36個のLSIによるスケーラブル全結合型イジングプロセッシングシステム、理科大が実機検証に成功

IBM Research本部のYorktown Heightsから見る、量子コンピュータの最前線

Cerebras、4兆トランジスタを搭載した第3世代WSE「WSE-3」を発表

このカテゴリーについて

AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(5)

HSAキューイングモデル

この連載の前後回

Members+ 会員限定記事

生成AIで大きく変わるOMOと顧客体験

リボン・コミュニケーションズ、事業戦略を説明 - IP＆光伝送製品市場で成長を

スマホとZoom Phoneの導入で大丸松坂屋百貨店に起きた「現場のコミュニケーション改革」

サンレディースがデータ活用の組織文化の醸成に成功したポイントとは？

軍事とIT 第555回 システムの統合化(2)統合化されたシステムの実現に必要な要素

ワークロードに最適なクエリエンジンを選択できる「watsonx.data」の最新機能

編集部が選ぶ関連記事

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」 第18回 AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(1)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」 第17回 Piledriverコアを採用したAMDのハイエンドAPU「Richland」

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」 第16回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(2)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」 第15回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(1)

関連リンク

Intel、11億5000万ニューロンを実現したニューロモーフィック・システム「Hala Point」を開発

東北大、半導体とスピン素子による融合型確率論的コンピュータの性能を実証

ソフトバンクと理研が進める量子・スパコン連携は社会に何をもたらすのか？

36個のLSIによるスケーラブル全結合型イジングプロセッシングシステム、理科大が実機検証に成功

IBM Research本部のYorktown Heightsから見る、量子コンピュータの最前線

Cerebras、4兆トランジスタを搭載した第3世代WSE「WSE-3」を発表

このカテゴリーについて

軍事とIT 第555回システムの統合化(2)統合化されたシステムの実現に必要な要素

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第18回 AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(1)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第17回 Piledriverコアを採用したAMDのハイエンドAPU「Richland」

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第16回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(2)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第15回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(1)