SlideShare a Scribd company logo
成瀬 彰, シニア デベロッパー テクノロジー エンジニア, 2018/4/24
DGX-2を取り巻くGPU最新技術情報
2
AGENDA
• DGX-2の特徴
• DGX-2の性能・ユースケース
• 高密度化するGPUノードの問題と対策
3
DGX-2の特徴
4
21B transistors
815 mm2
80 SM
5120 CUDA Cores
640 Tensor Cores
HBM2
32 GB, 900 GB/s
NVLink
6 x 50 GB/s
TESLA V100
5
DGX-2: 概要
6
TESLA V100搭載ノード
4 GPUs
8 GPUs
16 GPUs
DGX Station DGX-1
DGX-2
7
これまでのGPU間接続
GPU間を直結
DGX Station (4 GPUs)
DGX-1 (8 GPUs)
ポート数が足りない
8
DGX-2のGPU間接続
スイッチ経由でGPU間を接続
NVLINK インターコネクト
9
NVスイッチ
NVLinkポート数: 18, トータルスループット: 900 GB/s
10
NVスイッチ
ノンブロッキング・クロスバー
11
DGX-2のGPU間接続
スイッチ経由でGPU間を接続
NVLINK インターコネクト
12
DGX-2のGPU間接続
スイッチ経由でGPU間を接続
NVスイッチ
NVスイッチ
13
DGX-2のGPU間接続
スイッチ経由でGPU間を接続
NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ
NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ
14
DGX-2のGPU間接続
スイッチ経由でGPU間を接続
NVスイッチ NVスイッチNVスイッチNVスイッチ NVスイッチ NVスイッチ
NVスイッチ NVスイッチNVスイッチNVスイッチ NVスイッチ NVスイッチ
15
DGX-2のGPU間接続
スイッチ経由でGPU間を接続
NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ
NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ
16
DGX-2のGPU間接続
スイッチ経由でGPU間を接続
NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ
NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ NVスイッチ
17
性能比較: MEMORY COPY スループット
PCIeより10倍以上高速
PCIe
6x NVLink
HBM2 HBM2
HBM2 HBM2
10倍以上
18
性能比較: MEMORY COPY スループット
ローカルメモリ上のMemory Copyに近い性能?
Local
HBM2
6x NVLink
3倍弱
HBM2 HBM2
10倍以上
19
NVスイッチはどうすれば使えるの?
DGX-2向けに特別なプログラミングは不要
マルチGPU対応(シングルノード)のプログラムであれば、DGX-2の全GPU
高速接続のメリットを享受可能
cudaMalloc + CUDA P2P
Unified Memory
20
DGX-2
512 GB Unified Memory
512 GB ユニファイド・メモリ
21
DGX-2の性能とユースケース
22
性能比較: DGX-1 VS DGX-2
3D FFT (全対全通信)
23
性能比較(16 GPU): 2台のDGX-1 VS DGX-2
Allreduceスループット: マルチGPUでのDLトレーニング
ResNet50:100MB
24
性能比較(16 GPU): 2台のDGX-1 VS DGX-2
25
複雑化・巨大化するモデル
2016 - Baidu Deep Speech 22015 - Microsoft ResNet 2017 - Google NMT
105 ExaFLOPS
8.7 Billion
パラーメタ
20 ExaFLOPS
300 Million
パラメータ
7 ExaFLOPS
60 Million
パラメータ
コンボリューショナル
ネットワーク
リカレント
ネットワーク
敵対的生成
ネットワーク
強化学習 新しい種類の
ネットワーク
複雑化・多様化するモデル
27
LANGUAGE MODEL
Google論文
機械翻訳, 言語モデル
混合エキスパート: 超巨大なモデルを、多数のエ
キスパートに分散
Layer 1で各入力に対するエキスパートを選択、
そこにデータを送付
All-to-all通信
Mixture of Experts, 混合エキスパート
(*) N. Shazeer et al., Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (MoE)
GPU 1
Expert 1
Expert 8
GPU 16
Expert 120
Expert 128
モデル
並列
MoE layer
GPU 1
Layer 1
GPU 16
データ
並列
GPU 1
Layer 2
GPU 16
データ
並列
28
RECOMMENDER
Alibaba論文
CTR(Click Through Rate)予測モデル
Embedding層のパラメータサイズ: 数10~数100GB
DGX-2: 16 GPUにパラメータ分散、モデル並列
Reduce and Broadcast
Very Large Sparse Embedding
(*) G. Zhou et al., Deep Interest Network for Click-Through Rate Prediction
モデル並列 データ並列
29
高密度化するGPUノードの問題と対策
30
高密度化するGPUノード
31
高密度GPUノードの問題
CPU: GPUのパワーバランスが変化
相対的にCPUパワー低下  CPUがボトルネックになる
対策 (予定):
CPUからGPUに、もっと処理をオフロードする (例: DALI)
CPUからGPUの操作回数を、削減する (cudaGraphLaunch)
32
現在のDLトレーニングのI/Oパイプライン
Loader
Decode Resize
Training
Images
480p
Labels
JPEG
480p
Augment
入力画像データは、CPUで前処理して、GPUに供給
CPUで実行 GPUで実行
Images
256x256
Images
224x224
color augment,
random crop,
mirror, etc.
33
GPUに最適化したI/Oパイプライン
前処理をGPUにオフロード
Loader
Resize
Training
Labels
AugmentDecode
CPUで実行 GPUで実行
Images
480p
JPEG
480p
Images
256x256
Images
224x224
color augment,
random crop,
mirror, etc.
DALI
OSSでリリース予定
34
GPUカーネルをまとめて投入
現在: GPUカーネルを個別に投入
• 各GPUカーネルの実行時間が短い
と、CPUからのカーネル投入で、性能
が律速される
将来: GPUカーネルをまとめて投入
• ワークフローをグラフとして構築、CPU
はこのグラフをGPUに投入し、GPUが
各カーネル実行を制御
cudaGraphLaunch
35
cudaGraphLaunch
ワークフロー・グラフを明示的に構築
36
cudaGraphLaunch
ワークフローを記録して、グラフを作成
37
まとめ
38
まとめ
• DGX-2の特徴
• DGX-2の性能・ユースケース
• 高密度化するGPUノードの問題と対策
DGX-2 を取り巻く GPU 最新技術情報

More Related Content

PDF
GTC 2018 の基調講演から
PDF
GPU スパコン最新情報
PPTX
NVIDIA 最近の動向
PDF
1090: NVIDIA プロフェッショナルビジュアリゼーション
PDF
Chainer で Tensor コア (fp16) を使いこなす
PDF
NVIDIA GRID が実現する GPU 仮想化テクノロジー
PDF
RAPIDS 概要
PDF
Getting Started with Jetson Nano
GTC 2018 の基調講演から
GPU スパコン最新情報
NVIDIA 最近の動向
1090: NVIDIA プロフェッショナルビジュアリゼーション
Chainer で Tensor コア (fp16) を使いこなす
NVIDIA GRID が実現する GPU 仮想化テクノロジー
RAPIDS 概要
Getting Started with Jetson Nano

What's hot (20)

PDF
CUDAプログラミング入門
PDF
Flow in VR Funhouse MOD Kit
PDF
GTC 2020 発表内容まとめ
PDF
NVIDIA GPU 技術最新情報
PDF
NVIDIA Deep Learning SDK を利用した画像認識
PDF
NVIDIA deep learning最新情報in沖縄
PDF
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
PDF
NVIDIA GPU Cloud の紹介
PDF
MII conference177 nvidia
PDF
IEEE ITSS Nagoya Chapter NVIDIA
PDF
Cmc cmd slim
PDF
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
PDF
1070: CUDA プログラミング入門
PDF
1000: 基調講演
PDF
20170421 tensor flowusergroup
PDF
GPU クラウド コンピューティング
PDF
テレコムのビッグデータ解析 & AI サイバーセキュリティ
PDF
NVIDIA ディープラーニング入門
PDF
1018: ディープラーニング最新技術情報~cuDNN 3、DIGITS 2、CUDA 7.5のご紹介~
CUDAプログラミング入門
Flow in VR Funhouse MOD Kit
GTC 2020 発表内容まとめ
NVIDIA GPU 技術最新情報
NVIDIA Deep Learning SDK を利用した画像認識
NVIDIA deep learning最新情報in沖縄
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NVIDIA GPU Cloud の紹介
MII conference177 nvidia
IEEE ITSS Nagoya Chapter NVIDIA
Cmc cmd slim
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
1070: CUDA プログラミング入門
1000: 基調講演
20170421 tensor flowusergroup
GPU クラウド コンピューティング
テレコムのビッグデータ解析 & AI サイバーセキュリティ
NVIDIA ディープラーニング入門
1018: ディープラーニング最新技術情報~cuDNN 3、DIGITS 2、CUDA 7.5のご紹介~
Ad

Similar to DGX-2 を取り巻く GPU 最新技術情報 (20)

PDF
2016Nov22 Sc16 nvidia
PDF
SC16 NVIDIA NEWS
PDF
GTC 2020 発表内容まとめ
PDF
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
PDF
GTC 2019 NVIDIA NEWS
PDF
GPUディープラーニング最新情報
PDF
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
PDF
データ爆発時代のネットワークインフラ
PDF
20170726 py data.tokyo
PDF
2015年度GPGPU実践基礎工学 第2回 GPGPUの歴史と応用例
PDF
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
PDF
Automatic Mixed Precision の紹介
PDF
【A-1】AIを支えるGPUコンピューティングの今
PDF
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
PDF
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
PDF
GTC 2017 基調講演からディープラーニング関連情報のご紹介
PDF
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
PDF
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
PDF
PCCC21:株式会社データダイレクト・ネットワークス・ジャパン 「複雑さを軽減しつつ、AIデータの価値を最大限に発揮するDDN AIストレージソリューション」
PDF
GTC17 NVIDIA News
2016Nov22 Sc16 nvidia
SC16 NVIDIA NEWS
GTC 2020 発表内容まとめ
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
GTC 2019 NVIDIA NEWS
GPUディープラーニング最新情報
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
データ爆発時代のネットワークインフラ
20170726 py data.tokyo
2015年度GPGPU実践基礎工学 第2回 GPGPUの歴史と応用例
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
Automatic Mixed Precision の紹介
【A-1】AIを支えるGPUコンピューティングの今
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
GTC 2017 基調講演からディープラーニング関連情報のご紹介
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
PCCC21:株式会社データダイレクト・ネットワークス・ジャパン 「複雑さを軽減しつつ、AIデータの価値を最大限に発揮するDDN AIストレージソリューション」
GTC17 NVIDIA News
Ad

More from NVIDIA Japan (20)

PDF
HPC 的に H100 は魅力的な GPU なのか?
PDF
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
PDF
20221021_JP5.0.2-Webinar-JP_Final.pdf
PDF
開発者が語る NVIDIA cuQuantum SDK
PDF
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
PDF
NVIDIA HPC ソフトウエア斜め読み
PDF
HPC+AI ってよく聞くけど結局なんなの
PDF
Magnum IO GPUDirect Storage 最新情報
PDF
Hopper アーキテクチャで、変わること、変わらないこと
PDF
GPU と PYTHON と、それから最近の NVIDIA
PDF
GTC November 2021 – テレコム関連アップデート サマリー
PDF
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
PDF
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
PDF
2020年10月29日 Jetson活用によるAI教育
PDF
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
PDF
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
PDF
Jetson Xavier NX クラウドネイティブをエッジに
PDF
NVIDIA Jetson導入事例ご紹介
PDF
JETSON 最新情報 & 自動外観検査事例紹介
PDF
HELLO AI WORLD - MEET JETSON NANO
HPC 的に H100 は魅力的な GPU なのか?
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
20221021_JP5.0.2-Webinar-JP_Final.pdf
開発者が語る NVIDIA cuQuantum SDK
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA HPC ソフトウエア斜め読み
HPC+AI ってよく聞くけど結局なんなの
Magnum IO GPUDirect Storage 最新情報
Hopper アーキテクチャで、変わること、変わらないこと
GPU と PYTHON と、それから最近の NVIDIA
GTC November 2021 – テレコム関連アップデート サマリー
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
Jetson Xavier NX クラウドネイティブをエッジに
NVIDIA Jetson導入事例ご紹介
JETSON 最新情報 & 自動外観検査事例紹介
HELLO AI WORLD - MEET JETSON NANO

DGX-2 を取り巻く GPU 最新技術情報