お知らせ: プライバシーポリシーを一部改訂しました

レポート

GTC Japan 2016 - Pascalのユニファイドメモリ

掲載日 2016/10/12 09:00

著者：Hisa Ando

目次

目次を開く

次のグラフは、最大フロー問題を、CPUメモリをNVLINK経由でアクセスするゼロコピーメモリとして使った場合の性能を1.0として、Pascalのユニファイドメモリを使った場合の性能を示している。左の青のグラフは単純に書いたベースラインのプログラムの性能で、右はページの場所のヒントを追加して最適化を行った場合の性能である。

そして、横軸はGPUメモリの容量に対する使用メモリ量の比率で、左の2つはGPUメモリの0.5倍と0.9倍のメモリを使っている場合である。基準値の処理は、これらのケースではGPUメモリで間に合う容量なのに、わざわざアクセスの遅いCPUメモリを使っている状況なので、3倍以上遅くなっている。

右の2つのケースはGPUメモリの1.2倍と1.5倍のメモリ量を必要とする場合で、ベースラインでも1.7倍程度、最適化を行うと1.2倍のメモリ量のケースでは2.6倍。1.5倍のメモリ量のケースは2倍の性能となっている。

しかし、デマンドページが大きな効果を発揮するのは、GPUメモリの数10倍かそれ以上のメモリを必用とするケースで、その場合の性能を知りたいところである。

CPUメモリをNVLINK経由で使う場合を基準とし、ユニファイドメモリのデマンドページングを使う場合の性能。GPUメモリの1.2倍と1.5倍のメモリを必要とする場合でも最適化すれば、基準値の2倍以上の性能となる

デマンドページングは便利な機能であるが、オーバヘッドも大きいので、使い方には注意が必要である。

Pascalのユニファイドメモリは、アクセスするデータが存在しないことでページフォールトが発生することにより、メモリのコピーを行っている。しかし、これには10μs以上かかり、その間、GPUの動きは止まってしまう。従って、ページフォールトが発生する頻度を減らすことは性能向上につながる。

また、ページ(4KB)の単位のコピーであり、その範囲のデータは一括してコピーされる。この4KBの範囲のアクセスが多ければ性能が上がる。また、近傍のアクセスが多ければ、コピーするページ数が少なくなり、性能が上がるので、アクセスのローカリティを向上させることも性能向上につながる。

そして、同じページがCPUとGPUの間を頻繁に行き来するスラッシングを起こさないようにすることも重要である。

ページフォールトの処理には10μs以上かかる。ページフォールトの頻度を減らすことが重要である。そのためには、メモリアクセスに局所性の向上や、スラッシングが起こらないようにすべきである

次へ：CUDA8で新設されたヒン…

1 2 3 4

新規無料会員登録はこちらから

ログイン／無料会員登録

会員サービスの詳細はこちら

AIが勧める、あなたのための会員限定記事

アクセスランキング

ランキングをもっと見る

もっと見る

編集部が選ぶ関連記事

関連リンク

※本記事は掲載時点の情報であり、最新のものとは異なる場合があります。予めご了承ください。

新着記事

こちらも注目

このカテゴリーについて

京をはじめとする日本勢もTOP500に代表されるランキングの上位に多く入ることで注目を集めるほか、人工知能(AI)やディープラーニングでも活用が進むなど、さまざまな用途で活用されるようになったスーパーコンピュータに関わるホットな話題を詳細な説明付きで紹介します。