AMDは、米国時間の12月12日、機械学習に最適化したGPUの新シリーズ「Radeon Instinct」を発表した。同シリーズは、AMDが新たに追加した機械学習などに向けたオープンソースのライブラリであるMIOpen(Machine Learning Open)を活用するとともに、深層学習(ディープラーニング)に最適化したフレームワークとなるAMD ROCm(Radeon Open Compute platform)と組み合わせることで、より高度な機械学習ソリューションを構築できるとしている。

本稿では、12月8日に米カリフォルニア州ソノマで開催された、報道関係者向け事前説明会のAMD Tech Summitにおける発表やデモをもとに、この最新ソリューションの特徴を紹介する。

新しいコンピューティングの時代について語るリサ・スーCEO

深層学習やAI用途に最適化されたRadeon Instinctシリーズを発表

同社CEOのリサ・スー氏は「コンピューティング市場は、クラウドコンピューティングから機械学習やAIなどのマシン・インテリジェンスの時代へと移行しつつあり、それに伴ってサーバーに対する需要も大幅にふくれあがっている」と指摘。さらに、現在ユーザーがデータセンターやサーバーを介してやり取りしているデータは、1日あたり250京バイト(=1,000,000テラバイト=エクサバイト)に達し、データセンターも大きく変化しつつあるとした。

マシン・インテリジェンス時代には、サーバー需要がこれまで以上に増大すると予測

サーバーを介したデータのやり取りは、すでに1日あたり250京バイト(1エクサバイト)に達しているという

こうした大量のデータを効率よく処理するには、ヘテロジニアスコンピューティング環境が最適だとアピール

そこで、AMDが推進してきたヘテロジニアス・コンピューティングこそが新しいデータセンターのありかただとして、次世代CPUアーキテクチャの"Zen"とRadeonをオープンソースのフレームワークで組み合わせることで、より高性能で柔軟性に優れたソリューションを実現できるとアピール。

AIや深層学習など、マシン・インテリジェンスはすでに身近なものに

さまざまなジャンルでマシン・インテリジェンスアプリケーションが必要とされており、中でもAIや深層学習は現実的な段階に差しかかってきたと説明。また、クラウドコンピューティング時代には、ユーザーとデータセンターが1対1で接続される環境にあったのに対し、マシン・インテリジェンス時代は、データセンターとユーザーの間に、役割の異なるデータセンターやサーバーが仲介することで、より効率的なAI処理を可能にする傾向があるという。

AMDは、Radeon 48xx時代から、GPUベースのAIに興味を持っていた

こうした用途では、CPU主体のホモジニアス・コンピューティング構成よりも、より積極的にGPUの処理性能を活用できるヘテロジニアス・コンピューティング環境に移行するとともに、オープンソースのソフトウェアやハードウェア技術などを積極的に活用していくべきだとする。

現在のコンピューティング環境は、ユーザーとデータセンターを1対1で繋ぐのが主流で、CPUがほどんどの処理をこなしている

AI時代のコンピューティング環境は、ユーザーのそばに、特定のデータ処理に最適化されたデータセンターやサーバーが用意され、より効率的なデータ処理が必要となる。こうした用途にはヘテロジニアス・コンピューティングとオープンソースのソフトウェア、ハードウェア構成が最適だと説明

AMDのRadeon Instinctは、こうしたトレンドを踏まえ、GPU活用が活かせる深層学習におけるトレーニング(学習)と推論(Inference)向けに最適化した3つの製品を展開する。

最上位モデル「Radeon Instinct MI25」を披露するラジャ・コドゥリ氏(Senior Vice President and Chief Architect, Radeon Technologies Group)

Radeon Instinctシリーズのラインナップ

Radeon Instinctの優位性

Radeon Instinctは、深層学習のトレーニングと推論のアクセラレーションに最適化されている

まず、エントリーモデルとなる「Radeon Instinct MI6」は、PolarisアーキテクチャベースのGPUを採用し、16GBのメモリを搭載することで、5.7TFLOPSのFP16(半精度)の浮動小数点演算性能を実現。消費電力は、150Wで、ファンレス構成を採る推論向け製品となる。

こちらは、Radeon Instinct MI6、Polarisベースのシングルスロット幅のファンレスカードだ

その上位モデルとなる「Radeon Instinct MI8」は、4GBのHMBメモリを搭載したFijiアーキテクチャベースのショート基板モデルで、175Wの消費電力とファンレス構成で8.2TFLOPSのFP16浮動小数点演算性能を実現。推論用のアクセラレータとしてだけでなく、省スペースのHPCシステムにも最適だと位置付ける。

そして、最上位モデルとなる「Radeon Instinct MI25」は、AMDの次世代GPUアーキテクチャであるVegaを採用し、300W以下の消費電力で約25TFLOPSのFP16浮動小数点演算性能を実現する、深層学習のトレーニング用に最適なソリューションだという。

Vega×4構成で100TFLOPSのFP16浮動小数点演算性能を実現するモジュールも開発中

また、AMDは深層学習で市場をリードするNVIDIAのPascal GPUとのパフォーマンス比較データも公開。Radeon Instinct MI25は、PascalアーキテクチャベースのTITAN Xを上回る性能を発揮するとアピールした。

AMDは、オープンソースの深層学習向けライブラリであるMIOpenを用いることで、次世代GPUアーキテクチャVegaを採用するRadeon Instinct MI25の性能はPascalベースのTITAN Xを上回るとアピール

ROCmソフトウェアプラットフォームでは、CaffeやTensorFlow、Torchなど主要な深層学習フレームワークをサポートル

さらに、AMDが2017年第1四半期に投入予定のZenにより、GPUベースの深層学習環境はさらに性能と効率を向上するという

AMDは、このRadeon Instinctの発表に合わせて、HPC向けシステムも紹介し、120基のRadeon Instinct MI25 GPUを搭載し、3ペタFLOPSの性能を実現するInventec製の39Uラックマウントシステムや、SuperMicroの1Uラックマウントサーバーなども公開。

さらに、AMDが2017年第1四半期に投入予定のZenにより、GPUベースの深層学習環境はさらに性能と効率を向上するという

3ペタFLOPSを実現する39Uラックマウントシステム。16基のRadeon Instinct MI25を搭載するFalconwitch製4Uサーバーを4基と、6基のストレージサーバーを組み合わせた構成

さらに、事前説明会のデモ会場には、Vega GPUを採用し、PCI Express x16接続のSSDをオンボードで搭載した次期Radeon PRO SSGによる実働デモなども披露された。なお、Radeon Instinct各製品の市場投入は2017年より順次展開される予定であり、Vegaアーキテクチャを採用した最上位モデルは2017年前半の投入が計画されている。

Radeon Instinctを搭載するラックマウントサーバー群の展示。展示用のカードには、現行のFireProシリーズが使われていた

VegaべースのRadeon Pro SSGの実働デモも公開