GTC Japan 2016 - Pascalのユニファイドメモリ

GTC Japan 2016において、NVIDIAの成瀬氏がPascalの「ユニファイドメモリ」について発表を行った。筆者は、Pascalで行われた一番重要な機能拡張は、このデマンドページングによるユニファイドメモリではないかと思っている。

CUDAやOpenCLでプログラムを書かれた経験をお持ちの方は、CPU側とGPU側でメモリを確保し、その間でのデータ転送を明示的に書くのにうんざりされているのではないかと思う。それも少数のMallocで確保した領域なら我慢できる。しかし、ホスト側の配列がデータで、その要素が構造体で、構造体の中に子配列へのポインタがあるというケースでは、元の配列のコピーだけは済まず、それぞれのポインタが指す子配列の領域をGPU側に確保して、データをコピーし、元の構造体のポインタの指す先を新たに確保したGPUメモリのアドレスに付け替えるという処理が必要になる。そして、子配列の中に、さらに構造体があり、その中にポインタがあるようなケースでは、もう、やっていられないと思っても不思議ではない。

AoS(Array of Structures:構造体の並列)ではなく、SoA(Structure of Arrays:配列の構造体)型のデータとすれば、このような問題はないが、巨大なプログラムで、AoSからSoAへの書き換えを行う気には、まず、なれないし、プログラムの可読性も悪くなってしまう。

ここで登場した強い味方が、Pascalのユニファイドメモリである。ユニファイドメモリは、Kepler、Maxwellでもサポートされていたが、GPUのカーネルを起動するときには、カーネルが使う可能性のあるデータはすべてGPUメモリ上に置いておく必要があった。

このため、cudaMallocManagedで確保したユニファイドメモリ領域のptrという変数を最初にアクセスするのがCPUであると、ptrのデータはCPUメモリに移動され、カーネルを起動するときに、カーネルが使う、すべてのデータはGPUメモリに移動されるという動きになる。

Kepler、Maxwellでは、CPUとGPUは同じメモリをアクセスできるが、カーネル起動前に、すべてのデータをGPUメモリに置いておく必要がある (このレポートのすべての図は、GTC Japan 2016におけるNVIDIAの成瀬氏の発表スライドを撮影したものである)

しかし、Pascalでは、オンデマンドでページを移動することができるようになった。つまり、あるアドレスをGPUがアクセスしようとすると、CPUが使っている場合でも、そのアドレスを含むページ(4KB)の使用権をGPUに渡し、データをCPUメモリからGPUメモリにコピーする。CPUがあるアドレスをアクセスする場合も同様に、CPUに使用権が渡され、GPUからデータが移動される。

CPUとGPUが同じページのメモリの使用権を争うと、PCI Express経由でのページのコピーが頻発してしまうが、このやり方で、CPU、GPUともにアクセスしたいデータが自由に使えるユニファイドメモリが実現できる。

そして、このやり方であると、そのときにアクセスするメモリだけがあればよいので、GPUに搭載されたメモリより大きなメモリ領域を使うこと(Oversubscription)もできる。

Pascalではページ単位のオンデマンドのページ移動が可能になり、制約のないユニファイドメモリとなった。GPUには、その時に必要なメモリがあればよいので、GPUの物理メモリより大きなデータも扱える

GTC Japan 2016 - Pascalのユニファイドメモリ

目次

Members+ 会員限定記事

隣のオフィスは青く見える第22回オフィスを社員がDIY？メイキップの「アパレルの未来を共に創造する」オフィス

航空機の技術とメカニズムの裏側第429回航空機とセンサー(11)自衛隊機などに見る機体から離して使いたいセンサー

シリコンバレー101 第994回リテンション率79%、iPhoneの離れがたい箱庭にとらわれる米国

オリンパス新CMOが狙う医療への貢献 - 「臨床的にも経済的にも優れた治療を届ける」

ゼロからはじめるPython 第116回金額合計ツールでExcel要らず - 合計/整形/コピーのツールを作ろう

サッポロHDの「全社員DX人財化」を目指す施策、24年は生成AIをDX推進の起爆剤に

編集部が選ぶ関連記事

GTC 2016 - 使い勝手を大きく改善するPascalのUnified Memory 第1回 CPUとGPUの連携を簡素化するUnified Memory

なぜディープラーニングにはGPUが必要なのか - NVIDIA Deep Learning Day 2016 Spring

単なるGPUベンダからAIカンパニーへと生まれ変わるNVIDIA - GTC Japan 2016

GTC Japan 2016はAI、AI、AI

関連リンク

東北大、半導体とスピン素子による融合型確率論的コンピュータの性能を実証

ソフトバンクと理研が進める量子・スパコン連携は社会に何をもたらすのか？

36個のLSIによるスケーラブル全結合型イジングプロセッシングシステム、理科大が実機検証に成功

IBM Research本部のYorktown Heightsから見る、量子コンピュータの最前線

Cerebras、4兆トランジスタを搭載した第3世代WSE「WSE-3」を発表

早大など、組合わせ最適化問題を現在の量子計算機で高精度に解く手法を開発

このカテゴリーについて

GTC Japan 2016 - Pascalのユニファイドメモリ

目次

Members+ 会員限定記事

隣のオフィスは青く見える 第22回 オフィスを社員がDIY？メイキップの「アパレルの未来を共に創造する」オフィス

航空機の技術とメカニズムの裏側 第429回 航空機とセンサー(11)自衛隊機などに見る機体から離して使いたいセンサー

シリコンバレー101 第994回 リテンション率79%、iPhoneの離れがたい箱庭にとらわれる米国

オリンパス新CMOが狙う医療への貢献 - 「臨床的にも経済的にも優れた治療を届ける」

ゼロからはじめるPython 第116回 金額合計ツールでExcel要らず - 合計/整形/コピーのツールを作ろう

サッポロHDの「全社員DX人財化」を目指す施策、24年は生成AIをDX推進の起爆剤に

編集部が選ぶ関連記事

GTC 2016 - 使い勝手を大きく改善するPascalのUnified Memory 第1回 CPUとGPUの連携を簡素化するUnified Memory

なぜディープラーニングにはGPUが必要なのか - NVIDIA Deep Learning Day 2016 Spring

単なるGPUベンダからAIカンパニーへと生まれ変わるNVIDIA - GTC Japan 2016

GTC Japan 2016はAI、AI、AI

関連リンク

東北大、半導体とスピン素子による融合型確率論的コンピュータの性能を実証

ソフトバンクと理研が進める量子・スパコン連携は社会に何をもたらすのか？

36個のLSIによるスケーラブル全結合型イジングプロセッシングシステム、理科大が実機検証に成功

IBM Research本部のYorktown Heightsから見る、量子コンピュータの最前線

Cerebras、4兆トランジスタを搭載した第3世代WSE「WSE-3」を発表

早大など、組合わせ最適化問題を現在の量子計算機で高精度に解く手法を開発

このカテゴリーについて

隣のオフィスは青く見える第22回オフィスを社員がDIY？メイキップの「アパレルの未来を共に創造する」オフィス

航空機の技術とメカニズムの裏側第429回航空機とセンサー(11)自衛隊機などに見る機体から離して使いたいセンサー

シリコンバレー101 第994回リテンション率79%、iPhoneの離れがたい箱庭にとらわれる米国

ゼロからはじめるPython 第116回金額合計ツールでExcel要らず - 合計/整形/コピーのツールを作ろう