最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」(22) AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(5)

HSAキューイングモデル

最初に書いたように、現状では、CPUとGPUのメモリが別々であるので、データのコピーが必要である。また、GPUに処理を依頼するにはOSを経由する必要があり、時間が掛かる。

これに対して、HSAではCPUとGPUに共通の仮想メモリ空間を造り、一部のページはCPUメモリ、一部のページはGPUメモリにマッピングされるという構造を実現する。

HSAでは、CPUとGPUは1つの仮想メモリ空間を共用する

どちらも同じ仮想メモリ空間を共用するので、CPUが書き込んだデータをGPUが読んだり、その逆も可能であり、GPUに仕事を依頼するときに、データをGPUメモリにコピーする必要がなくなる。また、CPUとGPUのキャッシュコヒーレンシが確保できれば、CPU側のメモリに連続域のバッファを確保しなくても、キャッシュを使って相手方のメモリを効率よくアクセスできるようになる。

共通の仮想アドレス空間とキャッシュコヒーレンシをサポートすれば、CPUメモリのバッファ確保とCPUメモリとGPUメモリ間のデータのコピーが不要になる

これでデータの受け渡しの4つのステップが不要になる。

これに加えてHSAではGPUに処理を依頼するパケットの形式を決め、OSのサービスを使わず、ユーザモードでGPUのジョブキューに依頼パケットを書き込むメカニズムをサポートする。なお、キューの生成、破棄はHSAランタイムの呼び出しで行うことができるようになっている。

HSAランタイムを呼び出して共通メモリ上にキューを作り、HSAで決められたプロトコルに従って、ユーザモードプログラムがキューにパケットを入れる

処理を依頼するディスパッチパケットの形式は次の図のように決められている。

Dispatchパケットのフォーマット

ディスパッチパケットの最初の4バイトは待ち合わせの条件などを指定しており、それに続いて、ワークグループのX、Y、Z方向の大きさ、グリッドのX、Y、Z方向の大きさ、セグメントのサイズ、実行するハードウェア命令のアドレス、完了を知らせるシグナルオブジェクトのアドレスなどが書かれている。

パケットの処理開始はインオーダで、キューに入れられた順に処理が開始される。しかし、パケットのバリアビットが立っている場合は、それ以前にキューに入れられたすべてのパケットの実行が終わらないと、そのパケットの処理を開始しない。

また、詳細は略すが、パケット間の依存性がある場合に、待ち合わせを行うバリアパケットがある。バリアパケットは指定した条件が満足されるまで実行を完了せず、条件として指定した一群のパケットの終了を待ち合わせることができる。

FFTを、各段を2つのパケットとし、段の間にバリアを入れて実行する

この図はFFT(高速フーリエ変換)処理のパケットへの分割とデータの流れを示している。

次の図は、FFTの処理の状況を示しており、まず、パケット1が発行されて実行に移る。そしてパケット1の発行が終わると、パケット2が発行されて実行が開始され、パケット1と2は並列に処理が行われる。

しかし、パケット3との間にはバリアがあり、パケット3の発行はパケット2が完了するまで待たされる。結果として、パケット3の実行は、パケット2が完了しその結果が使用できるようになるのを待ち合わせる。

パケット1と2は順次開始され、並列に実行されるが、バリアがあるので、パケット3の実行は、パケット2の完了を待ち合わせる

このように、HSAでは、ユーザモードで書き込めるキューの作成メカニズム、キューへの書き込みプロトコル、キューに入れるパケットの形式を決めており、アプリケーションから、OSの介在なしにGPUに処理を依頼し、処理結果を受け取ることができるようになる。結果として、中間のバッファの確保、データのコピーや、OP経由のGPU起動などのステップをすべて省くことができ、最低限のステップでGPUに処理を割り振ることができるようになる。

HSAでは中間のステップをすべて省いて、効率よくGPUに処理を依頼できる

このように、HSAでは、単一の仮想メモリアドレス空間とキャッシュコヒーレンシのサポート、並列処理を効率的に行えるメモリモデルとユーザモードキューイングをサポートすることによって、 GPUと処理分担が効率よく行えるようになる。

AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(5)

HSAキューイングモデル

この連載の前後回

AIが勧める、あなたのための会員限定記事

NEC BioとTransgene、個別化がんワクチン「TG4050」でライセンス契約　臨床開発を加速

NetAppが示す2026年テクノロジー予測、AI実装とデータ基盤の現在地

島根県出雲市にて出雲村田製作所の新生産棟が竣工、積層セラミックコンデンサの需要増に対応

京大、高性能だが壊れやすい有機半導体ルブレンの耐久性を劇的に向上

群大など、水酸副産物カニ殻で海洋生分解性プラの寿命調節技術を開発

ダイフク、滋賀事業所にて半導体生産ライン向け搬送・保管システム新工場棟を竣工

編集部が選ぶ関連記事

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第18回 AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(1)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第17回 Piledriverコアを採用したAMDのハイエンドAPU「Richland」

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第16回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(2)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第15回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(1)

関連リンク

筑波大が新型スパコン「Sirius(PACS12.0)」の運用を開始 - AMD製APU搭載

AMDとNAVER Cloud、韓国でのソブリンAIインフラ開発加速に向けて協業

AWSがCerebrasと協業、Amazon Bedrock上でTrainiumとCS-3を組み合わせた推論基盤を展開

東北大、AIによる半導体量子ドットの自動調整で大規模量子計算機へ前進

NTTなど、導波路型光デバイスによる最高品質のスクイーズド光生成に成功

理研など、光量子コンピュータの“誤りに強い計算”を理論的に証明

このカテゴリーについて

AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(5)

HSAキューイングモデル

この連載の前後回

AIが勧める、あなたのための会員限定記事

NEC BioとTransgene、個別化がんワクチン「TG4050」でライセンス契約 臨床開発を加速

NetAppが示す2026年テクノロジー予測、AI実装とデータ基盤の現在地

島根県出雲市にて出雲村田製作所の新生産棟が竣工、積層セラミックコンデンサの需要増に対応

京大、高性能だが壊れやすい有機半導体ルブレンの耐久性を劇的に向上

群大など、水酸副産物カニ殻で海洋生分解性プラの寿命調節技術を開発

ダイフク、滋賀事業所にて半導体生産ライン向け搬送・保管システム新工場棟を竣工

編集部が選ぶ関連記事

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」 第18回 AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(1)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」 第17回 Piledriverコアを採用したAMDのハイエンドAPU「Richland」

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」 第16回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(2)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」 第15回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(1)

関連リンク

筑波大が新型スパコン「Sirius(PACS12.0)」の運用を開始 - AMD製APU搭載

AMDとNAVER Cloud、韓国でのソブリンAIインフラ開発加速に向けて協業

AWSがCerebrasと協業、Amazon Bedrock上でTrainiumとCS-3を組み合わせた推論基盤を展開

東北大、AIによる半導体量子ドットの自動調整で大規模量子計算機へ前進

NTTなど、導波路型光デバイスによる最高品質のスクイーズド光生成に成功

理研など、光量子コンピュータの“誤りに強い計算”を理論的に証明

このカテゴリーについて

NEC BioとTransgene、個別化がんワクチン「TG4050」でライセンス契約　臨床開発を加速

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第18回 AMDが追い求める聖杯「Heterogeneous System Architecture(HSA)」(1)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第17回 Piledriverコアを採用したAMDのハイエンドAPU「Richland」

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第16回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(2)

最新のハイパフォーマンスチップの話題が集う「Hot Chips 25」第15回 AMDが発表したJaguarコア+GCNによる低電力APU「Kabini」(1)