【特別企画】

GPUを活用したAIプラットフォームの最適解とは? - HPE AIインフラセミナー2019春 レポート-

[2019/05/17 10:30] ブックマーク ブックマーク

  • サーバ/ストレージ

サーバ/ストレージ

AIにおける3つの軸

日本ヒューレット・パッカード株式会社
取締役 常務執行役員
HPC事業統括 望月学氏

はじめに登壇したのは日本ヒューレット・パッカード株式会社 取締役 常務執行役員 HPC事業統括 望月学氏だ。AIがあらゆるビジネスにおいて求められているとして、AIと同時にこれまでハイパフォーマンスコンピューティングが得意としていた分析、解析を更に進めたアドバンスドアナリティクスが注目されていると語った。そしてAIが使われる場所としてエッジからデータセンター、そしてビジネスアプリケーションの中にまで浸透していくだろうと予測した。

HPEはエッジからコアとなるデータセンターに拡がるプラットフォーム、ビジネスの中核を担うアプリケーションを可能にするソリューションとサービス、最後にHPEのラボラトリーから産み出される先端的なイノベ-ションの3つの軸を中心にAIを展開していくと解説した。

HPEのAI戦略3つの軸

AIにおいては何よりデータが大切

株式会社NTTドコモ
サービスイノベーション部
大西可奈子 氏

その後に登壇したのはゲストスピーカーの株式会社NTTドコモ サービスイノベーション部の大西可奈子氏だ。大西氏はNTTドコモ、そして出向していた情報通信研究機構(NICT)において一貫して対話型AIの研究を行っている現役のAIエンジニアだ。現在はNTTドコモに戻り、対話型AIのエキスパートとして製品開発やAIに関する書籍執筆なども担当している。

大西氏は「AIとは何か?」という問いかけからセッションを始めた。実際にはAIには明確な定義は無いものの、大西氏は「教えた以上のことができること」としてそれを実現するための技術のひとつが機械学習であると説明した。

機械学習の実例としてベーカリーのAIレジを紹介。これはトレイに載せた様々な種類のパンをカメラで撮影し瞬時に種類を判別し代金計算を行うもので、従来の手法では全てのパンの形状を定義しないと判別出来なかったが、機械学習を使うことで大量のパンの画像を学習し、予測を行うことで全く同じ形状、色にはなり得ないパンの種類を正確に見分けることが可能になったことを説明した。大量のパンの画像を学習することで「少しずつ違うデータとして登録していないパンの画像でも正確に分類ができるようになる」というのが機械学習の強みであると解説した。

同様の発想で精細な画像から乳がんの転移を判別するというシステムも既に学会において発表されていることから、画像を判別する技術に機械学習が実用化されていることは理解できるだろう。ただ、機械学習には多くのプロセスが必要となり、学習フェーズではデータの用意、機械学習で学習モデルの生成、そして予測フェーズでは予測したいデータのモデルへの入力、予測、予測結果の活用など多くのプロセスが必要だ。特に大西氏が難しいと思うのは「学習データの用意」の部分であると語った。

これは大量な学習用データを用意するのが困難なこと、データの質が低い場合は当然ながら質の低い結果しか得られないことなどがその理由であり、AIにおいては「何よりデータが大切」であると断言した。「AIだからといって何でもできるわけではなく、機械学習が得意なのは『分類』です。AIを活用したいビジネスの課題の中に『分類』を使うことで、解けるようになるまで課題を分解し、どこにAIを使えば良いのかを理解できるようにするべきです」という提言を行ってセッションを終えた。

最新のGPUコンピューティング

エヌビディア合同会社
シニア ソリューションアーキテクト
佐々木邦暢 氏

次に登壇したのはGPUのリーディングカンパニー、NVIDIAのシニアソリューションアーキテクト、佐々木邦暢氏だ。

佐々木氏は先日、アメリカにて開催されたGTC 2019での発表内容を引用しながら、最新のGPUコンピューティングを解説した。

GPUを使ったスーパーコンピュータの歴史、エコシステムの拡大に続いて最新のGPUプラットフォームとしてハードウェアからCUDA-Xライブラリ、フレームワークまでカバーするユニバーサルアクセラレーションプラットフォームを紹介。その後にTesla V100、Tesla T4などのNVIDIAのハードウェアを解説。またTensorコアがもつFP16とFP32を混合した行列演算でも、精度と速度をバランスよく実行できる混合精度行列演算ユニットについても解説を行った。

そしてNVIDIA GPU CLOUD(NGC)についても解説を行った。NGCはNVIDIAが運用するクラウドサービスではなくGPUを最適に活用するためのソフトウェアハブと言えるもので、機械学習、深層学習、HPCなどで直ぐに使えるアプリケーションのコンテナーイメージを公開している。またアプリケーションイメージだけではなく学習されたモデルや学習するためのスクリプトなども配布するハブとなっていると説明した。

NGCに対応したハードウェアシステムとしてHPEのProLiant DL380も紹介。既にNGCのソフトウェアについては検証が終わっているということでNVIDIAとHPEのパートナーシップの強さを感じる一幕となった。

AIイノベーションプラットフォームを実現するために

日本ヒューレット・パッカード株式会社
Pointnext ハイブリッドIT COE
Chief Architect
吉瀬 淳一 氏

休憩を挟んで次に登壇したのはHPEのPointnextハイブリッドIT COEリードアーキテクトの吉瀬淳一氏だ。

吉瀬氏は前半に登壇したゲストスピーカーのNTTドコモ大西氏の講演で紹介された機械学習で、学習と予測以外に必要な多くのプロセス(システムの構成、データの整備、インフラの準備、監視など)について多くのコストがかかってしまい、データサイエンティストが学習フェーズと予測フェーズ以外のタスクに労力がとられてしまうことを紹介。そこでHPEが提唱するのは「MLaaS(Machine Learning as a Service)」であると解説した。

コアとなる学習~推論の部分以外にも必要となる多くのタスクを、すぐに利用が可能なサービスとして提供することで機械学習以外のインフラストラクチャーの準備、運用を容易にしようとする発想だ。これはUberやFacebookが社内の事例として公開されているものとほぼ同様のシステムになるとしてMLaaSの有効性を説いた。

また社内のコンピュータリソースを有効活用するためにデータサービス、ストレージ、リポジトリ、CPU/GPUなどは共有資源とし、その上で稼働するアプリケーションを繋ぐコンテナオーケストレーションとDevOpsが必要であると解説した。

HPEの提案するMLaaSは全体の処理を2つに分け、前段にfast Data/Big Data用のプラットフォーム、後段にDocker/Kubernetesのコンテナープラットフォームを繋げたものだ。

これまで手作業で作り上げていたAIのための開発プラットフォームを、コンテナーとKubernetesをベースにポータブルにしたものであり、具体的な実装例としてGoogleが開発をリードするKubeFlowを、デモを交えて紹介した。その際、KubeFlowのコマンドラインツール、Jupyter Notebookなどのツールを実際に動かしてKubernetes上のプロセスが実際に稼働する様を、コンテナー上で機械学習のプロセスが実行されていることを解説した。

またソフトウェアなどのテクノロジーだけではなく、AIプロジェクトの進め方についても一貫性のあるアーキテクチャーと検証プロセスの構築が必要であるとして、大同特殊鋼の例やプロジェクトを実施する際のワークショップの内容を紹介した。

まずはAI処理の流れを理解する

日本ヒューレット・パッカード株式会社
ハイブリッドIT事業統括 クラウドプラットフォーム統括本部
技術本部 コアソリューション部
久保田 隆志 氏

次に登壇したHPEハイブリッドIT事業統括クラウドプラットフォーム統括本部技術本部の久保田隆志氏は、新たにAIのためだけのプラットフォームを用意するのではなく、これまでHPC用に稼働していたリソースを効率的に利用するための要点について解説を行った。

特にトップダウンでAIプロジェクトが始まった際のエンジニアの不安を代弁するかのように「まずはAI処理の流れを理解し、3D CADなどを実行するeVDI(Engineering VDI)やHPCのリソースを上手く兼用することでプロジェクトのスムーズなスタートが可能になる」と説明した。

GPUの効率利用を考えると仮想化が最も適しているとして、仮想環境におけるvGPU(仮想化によってGPUを分割利用すること、NVIDIAではNVIDIA GRIDと呼ぶ )を提案した。これはeVDIと機械学習のワークロードをGPUに効率的に割り当てる発想だ。特にWindows OSがホストとなる3D CADと、機械学習が実行されるLinuxホストがGPUを使う時間帯を分ける。「昼間はGPUをフル活用するためにWindowsに割り当て、夜間にLinuxのワークロードを学習フェーズのために使うなどのスケジューリングを行うことでリソースの有効活用ができる」と提案した。

ハードウェアとしてeVIDに最適であり様々な用途に利用できるTesla T4を紹介。NGCをサポートし、Tensorコアを装着したデータセンター向けGPUボードであるTesla T4は、ハイエンドとなるTesla P40やTesla V100に比べて少ないCUDAコアながらも幅広い用途を持った製品であると解説した。

そしてHPCとAIでの共用を考えた場合のパフォーマンスについても言及した。ベアメタルで実行した場合とGRID vGPUによる仮想化で実行、さらにDirectPath I/Oによるパススルーモードで実行した場合の劣化は4%であり、エンタープライズでの利用を考えた場合にはさほど問題にはならないという見解を示した。

またHPEが推奨するGPU仮想化のためのハードウェアとしてはタワー型サーバーのHPE ProLiant ML350、ラックマウント型サーバーのProLiant DL360/380を紹介。さらに、検証のためのHPEソリューションセンターでは主要なHPE製品に加えてGPU検証環境も用意されており、無償で検証を行うことができるということも紹介された。パブリッククラウドで高価なGPUインスタンスを使って検証するよりもソリューションセンターで実際にハードウェアを使う方法を検討すべきだろう。

HPCシステムを活用すればAI環境の構築が可能に

日本ヒューレット・パッカード株式会社
HPC事業統括 プリセールス技術本部
朝倉 博紀 氏

最後に登壇したHPE HPC事業統括 プリセールス技術本部の朝倉博紀氏はHPEのハイパフォーマンスコンピューティングのポートフォリオについて紹介。

朝倉氏はHPCの担当者の視点でHPC向けのシステムがGPUをキーにAIにも最適なシステムに転用できることを強調し、会場の参加者の多くを占める科学技術計算担当者にHPCからAIへの道程はそれほど遠くないことを解説した。

また機械学習モデルの開発から本番運用に向けた基盤として、研究開発フェーズは数名の規模で利用ができるProLiant DL380を使い小規模に始め、開発から運用にいたるフェーズではコンテナを使って学習するためのコードとモデル、推論するためのコードとモデルをそれぞれパッケージ化することで研究レベルから移行できるメリットを解説した。

特に大規模なモデルの学習フェーズでは多くのユーザーが効率よくGPUを利用するための並列分散処理を可能にするSingularityとジョブスケジューラの組み合わせ、大規模な運用を実行するフェーズではコンテナとオーケストレーションツールであるKubernetesの利用をより性能の高いHPE Apollo 6500で運用することを提案した。

ここからSingularityとHorovodそしてBright Cluster Managerについて簡単に紹介を行った。 Singularityはローレンス・バークレー国立研究所で開発がスタートし、現在はオリジナルの開発者であるGregory Kurtzer氏が創業したSylabs.ioの元で開発が続けられているHPCのワークロードをコンテナ化するためのオープンソースソフトウェアである。

HorovodはUberが開発を行っているオープンソースのツールで、深層学習用の学習プロセスを複数のGPUに分散並列処理させるアプリケーションとなる。これによってタスクを複数のGPUに分散させることで、学習のための実行時間を削減することが可能になる。

Bright Cluster Managerはアムステルダムに本社を持つBright Computing社が開発販売するHPC向けのクラスター管理ソリューションで、HPC用のクラスターとAI用のクラスターを包括的に管理することが可能になる。これによって用途に応じたコンピュータ資源を柔軟に管理することが可能になり、システム運用からモニタリング、用途に合わせたコンピュータリソースの変更など、オンプレミスでありながらパブリッククラウドのような使い方を可能にするという。

朝倉氏はBright Cluster Managerの国内導入事例として国立遺伝学研究所を紹介した。HPE ProLiant DL385、HPE Apollo 6500、HPE Superdome Flexなどを混在したコンピュータ資源をBright Cluster ManagerによってHPC及びAIのワークロードを柔軟に使いこなす例として解説。

朝倉氏はHPCのコンピュータ資源をHPCまたはAIに柔軟に振り分けることでシミュレーションなどを必要とする研究者、AIを開発するデベロッパーの両方を満足させるアプローチと具体的なツール、構成例などを解説して降壇した。

今回のセミナーでは、AI及び機械学習の基礎、機械学習が得意なのは「分類」であるという知見、AIを成功させるためには何よりもデータが重要であること、コンテナオーケストレーションによる実用例、HPCの資産を上手く活用することでHPCのワークロードとAIのワークロードを柔軟に運用できることなどが話された。AIを始めたい企業にとって、ファーストステップとしてわかりやすい道筋を示したセミナーとなった。

[PR]提供:日本ヒューレット・パッカード

ページの先頭に戻る