SlideShare a Scribd company logo
1
エヌビディアが加速する AI 革命
エヌビディア合同会社
エンタープライズマーケティング本部長 林 憲一
2
ムーアの法則後の世界
1980 1990 2000 2010 2020
102
103
104
105
106
107
40 年間のマイクロプロセッサのトレンド
Original data up to the year 2010 collected and plotted by M. Horowitz, F. Labonte,
O. Shacham, K. Olukotun, L. Hammond, and C. Batten New plot and data collected
for 2010-2015 by K. Rupp
シングルスレッド性能
年率 1.5 倍
年率 1.1 倍
トランジスタ数
(千単位)
3
1980 1990 2000 2010 2020
GPU コンピューティング性能
年率 1.5 倍
2025年
までに
1000倍
GPU コンピューティングの登場
Original data up to the year 2010 collected and plotted by M. Horowitz, F. Labonte,
O. Shacham, K. Olukotun, L. Hammond, and C. Batten New plot and data collected
for 2010-2015 by K. Rupp
102
103
104
105
106
107
シングルスレッド性能
年率 1.5 倍
年率 1.1 倍
アプリケーション
システム
アルゴリズム
CUDA
アーキテクチャ
4
GPU コンピューティングの登場
GPU コンピューティング開発者
5 年で 11 倍
GTC 参加者
5 年で 3 倍
2017 2017
511,0007,000
20122012
1年間 の CUDA ダウンロード数
2016 年
1,000,000+
5
マシンラーニングの時代
“A Quest for Intelligence”
— Fei-Fei Li
“The Master Algorithm”
— Pedro Domingos
6
現代の AI のビッグバン
Auto
Encoders
GANLSTM
IDSIA
CNN on GPU
Stanford &
NVIDIA
Large-scale
DNN on GPU
U Toronto
AlexNet
on GPU
CaptioningNVIDIA BB8 Style TransferBRETTImageNet
Google Photo
Arterys
FDA Approved AlphaGo
Super
Resolution Deep Voice
Baidu
DuLight
NMT
Superhuman
ASR
Reinforcement
Learning
Transfer
Learning
7
$5B
現代 AI のビッグバン
Udacity でのAI プログラム
2 年で 100 倍
NIPS、ICML、CVPR、ICLR 参加者数
2 年で 2 倍
2016 2017
20,00013,000
20152014
AI スタートアップ投資
4 年で 9 倍
50億ドル
20162012
8
NVIDIA
ディープラーニング
SDK
GPU AAS
NVAIL
INCEPTION
インターネット
サービス
エンタープライズ
ヘルスケア
GPU システムフレームワーク
TESLA
HGX-1
DGX-1
NVIDIA
RESEARCH
エヌビディアが加速する AI 革命
9
NVIDIA INCEPTION プログラム
1300 のディープラーニングスタートアップを支援
ヘルスケア
ビジネスインテリジェンス 及び 可視化
開発プラットフォーム
リテール eテール
IOT 及び 製造
プラットフォーム 及び API
データマネージメント
建築
金融 セキュリティ
サイバー自律動作機械
10
エンタープライズのための
SAP AI
SAP から提供される最初の商業的 AI
オファリング
Brand Impact、Service Ticketing、
Invoice-to-Record アプリケーション
DGX-1 と AWS で NVIDIA GPU を利用
11
年々複雑さを増すモデル
2016 — Baidu Deep Speech 22015 — Microsoft ResNet 2017 — Google NMT
1.05 垓回の計算量
87 億パラメータ
2000 京回の計算量
3 億パラメータ
700 京回の計算量
6000 万パラメータ
12
発表 Tesla V100
AI と HPC のための大きな飛躍
Tensor コアを搭載した Volta アーキテクチャ
210 億トランジスタ | TSMC 12nm FFN | 815mm2
5120 CUDA コア
7.5 FP64 TFLOPS | 15 FP32 TFLOPS
120 Tensor TFLOPS
総レジスタファイル 20MB | 16MB キャッシュ
900 GB/s の 16GB HBM2
300 GB/s NVLink
13
新開発 Tensor コア
CUDA Tensor 演算命令 及び データフォーマット
4x4 行列処理配列
D[FP32] = A[FP16] * B[FP16] + C[FP32]
ディープラーニングに最適化
アクティベーション入力 重み入力 出力結果
14
発表 Tesla V100
AI と HPC のための大きな飛躍
Tensor コアを搭載した Volta アーキテクチャ
Pascal 世代と比較して
HPC のための汎用演算性能 1.5 倍
ディープラーニングトレーニングのための
Tensor 演算性能 12 倍
ディープラーニング推論のための
Tensor 演算性能 6 倍
15
発表
Volta 対応フレームワーク
時間
CNN トレーニング
(ResNet-50)
時間
NCCL 2.0 を利用したマルチノード
トレーニング
(ResNet-50)
0 5 10 15 20 25
64x V100
8x V100
8x P100
0 10 20 30 40 50
V100
P100
K80
時間
LSTM トレーニング
(ニューラル機械翻訳)
0 10 20 30 40 50
8x V100
8x P100
8x K80
16
発表
Tesla V100 搭載 NVIDIA DGX-1
AI 研究に必須の道具
960 Tensor TFLOPS | Tesla V100 8基 | NVLink ハイブリッドキューブ
TITAN X で 8 日かかる計算が 8 時間に
CPU サーバー 400台分の性能がワンボックスに
17
発表
Tesla V100 搭載 NVIDIA DGX-1
AI 研究に必須の道具
960 Tensor TFLOPS | Tesla V100 8基 | NVLink ハイブリッドキューブ
TITAN X で 8 日かかる計算が 8 時間に
CPU サーバー 400台分の性能がワンボックスに
ご注文は: nvidia.com/DGX-1
18
発表
NVIDIA DGX ステーション
パーソナル DGX
480 Tensor TFLOPS | Tesla V100 4基
NVLink 全結合 | 3つの DisplayPort
1500W | 水冷
19
480 Tensor TFLOPS | Tesla V100 4基
NVLink 全結合 | 3つの DisplayPort
1500W | 水冷
ご注文は: nvidia.com/DGX-Station
発表
NVIDIA DGX ステーション
パーソナル DGX
20
発表
ハイパースケール推論のための Tesla V100
Skylake に対して 15~25 倍の推論性能
150W | FHHL PCIE
21
GPU で加速されたデータセンターの例
Tesla V100 によって 1/15に500 ノードの CPU サーバー 33 ノードの GPU で加速されたサーバー
データセンター全体で300,000 推論/秒
CPU 当り 300 推論/秒 ➡ 1000 CPU
1000 CPU ➡ 500 ノード
ノード 3000ドル
ノード 500W
➡ 150万ドル
➡ 250KW
22
NVIDIA ディープラーニングスタック
ディープラーニングフレームワーク
ディープラーニングライブラリ
NVIDIA cuDNN, NCCL,
cuBLAS, TensorRT
CUDA ドライバ
オペレーティングシステム
GPU
システム
23
コンテナ、データセット、
事前学習済みのモデル
のレポジトリ
NVIDIA
GPU クラウド
CSP
発表
NVIDIA GPU クラウド
NVDocker のコンテナとして提供 | フルスタックで最適化
常に最新 | エヌビディアによって完全にテストおよびメンテナンス | 7月にベータ提供
ディープラーニングに最適化された GPU で加速されたクラウドプラットフォーム
24
GPU コンピューティング性能
0
8
16
24
32
40
AMBER 性能 (ns/day)
P100
2016
K80
2015
K40
2014
K20
2013
AMBER 12
CUDA 4
AMBER 14
CUDA 5
AMBER 14
CUDA 6
AMBER 16
CUDA 8
0
2400
4800
7200
9600
12000
GoogleNet 性能 (i/s)
cuDNN 2
CUDA 6
cuDNN 4
CUDA 7
cuDNN 6
CUDA 8
NCCL 1.6
cuDNN 7
CUDA 9
NCCL 2
8x K80
2014
8x Maxwell
2015
DGX-1
2016
DGX-1V
2017
25
NVIDIA
ディープラーニング
SDK
GPU AAS
NVAIL
INCEPTION
インターネット
サービス
エンタープライズ
ヘルスケア
GPU システムフレームワーク
TESLA
HGX-1
DGX-1
NVIDIA
RESEARCH
自動車
AI シティ ロボット
NVIDIA
ディープラーニング
SDK
DRIVE PX
JETSON TX
エヌビディアが加速する AI 革命
エッジでの AI
26
AI が革新するトランスポーテーション
ドミノピザ: 一日100万個のピザを配達米国では 2億5000万台の車のために
8億の駐車場
年間 4500億キロ
27
NVIDIA DRIVE — AI カープラットフォーム
コンピュータビジョンライブラリ
OS
認識 AI
CUDA、cuDNN、TensorRT
自己位置推定 パスプランニング
1 TOPS
10 TOPS
100 TOPS
DRIVE PX 2 Parker
Level 2/3
DRIVE PX Xavier
Level 4/5
28
NVIDIA DRIVE
ガーディアン エンジェルコ パイロットマッピングから運転へ
29
発表
トヨタ、自動運転車向けに NVIDIA DRIVE PX を選択
30
自動運転のための AI プロセッサ
XAVIER
30 TOPS DL
30W
カスタム ARM64 CPU
512 コア Volta GPU
10 TOPS DL アクセラレータ
汎用アーキテクチャ
特定用途
アクセラレータ
エネルギー効率
CPU
FPGA
CUDA
GPU
DLA
Pascal
Volta
31
自動運転のための AI プロセッサ
XAVIER
30 TOPS DL
30W
カスタム ARM64 CPU
512 コア Volta GPU
10 TOPS DL アクセラレータ
汎用アーキテクチャ
特定用途
アクセラレータ
エネルギー効率
CPU
CUDA
GPU
DLA
Volta
+
32
発表
Xavier DLA オープンソース化
アーリーアクセス予定: 7 月 | 一般リリース予定: 9 月
Command Interface
Tensor Execution Micro-controller
Memory Interface
Input DMA
(Activations
and Weights)
Unified
512KB
Input
Buffer
Activations
and
Weights
Sparse Weight
Decompression
Native
Winograd
Input
Transform
MAC
Array
2048 Int8
or
1024 Int16
or
1024 FP16
Output
Accumulators
Output
Postprocess
or
(Activation
Function,
Pooling
etc.)
Output
DMA
33
エヌビディアが加速する AI 革命
NVIDIA GPU クラウド全てのクラウドに NVIDIA GPU
Xavier DLA
オープンソース化
DGX-1 及び DGX ステーションTesla V100
TensorRT
Tensor コア
NVIDIA
GPU CLOUD
CSPs
34

More Related Content

PDF
Chainer で Tensor コア (fp16) を使いこなす
PDF
NVIDIA TESLA V100・CUDA 9 のご紹介
PDF
GPU スパコン最新情報
PDF
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
PDF
CUDAプログラミング入門
PDF
20170726 py data.tokyo
PDF
DGX-2 を取り巻く GPU 最新技術情報
Chainer で Tensor コア (fp16) を使いこなす
NVIDIA TESLA V100・CUDA 9 のご紹介
GPU スパコン最新情報
機械学習とこれを支える並列計算: ディープラーニング・スーパーコンピューターの応用について
CUDAプログラミング入門
20170726 py data.tokyo
DGX-2 を取り巻く GPU 最新技術情報

What's hot (20)

PDF
20170421 tensor flowusergroup
PDF
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
PDF
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
PDF
Automatic Mixed Precision の紹介
PDF
NVIDIA ディープラーニング入門
PPTX
Tensor コアを使った PyTorch の高速化
PDF
20210731_OSC_Kyoto_PGStrom3.0
PDF
Volta は、Chainer で使えるの?
PDF
SQL+GPU+SSD=∞ (Japanese)
PDF
【A-1】AIを支えるGPUコンピューティングの今
PDF
(JP) GPGPUがPostgreSQLを加速する
PDF
Pythonによる並列プログラミング -GPGPUも-
PDF
IEEE ITSS Nagoya Chapter NVIDIA
PDF
GPUディープラーニング最新情報
PDF
Maxwell と Java CUDAプログラミング
PDF
MII conference177 nvidia
PPTX
関東GPGPU勉強会資料
PDF
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PDF
GTC 2020 発表内容まとめ
PDF
Reconf_201409
20170421 tensor flowusergroup
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
[Track2-2] 最新のNVIDIA AmpereアーキテクチャによるNVIDIA A100 TensorコアGPUの特長とその性能を引き出す方法
Automatic Mixed Precision の紹介
NVIDIA ディープラーニング入門
Tensor コアを使った PyTorch の高速化
20210731_OSC_Kyoto_PGStrom3.0
Volta は、Chainer で使えるの?
SQL+GPU+SSD=∞ (Japanese)
【A-1】AIを支えるGPUコンピューティングの今
(JP) GPGPUがPostgreSQLを加速する
Pythonによる並列プログラミング -GPGPUも-
IEEE ITSS Nagoya Chapter NVIDIA
GPUディープラーニング最新情報
Maxwell と Java CUDAプログラミング
MII conference177 nvidia
関東GPGPU勉強会資料
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
GTC 2020 発表内容まとめ
Reconf_201409
Ad

Viewers also liked (14)

PDF
GTC17 NVIDIA News
PPTX
次世代の AI とディープラーニング GTC 2017
PDF
NVIDIA GPU 技術最新情報
PPTX
GTC 2017 さらに発展する AI 革命
PPTX
HPCとAIをつなぐGPUクラウド
PPTX
Icml読み会 deep speech2
PDF
Dropout Distillation
PDF
Estimating structured vector autoregressive models
PPTX
激アツ!GPUパワーとインフラの戦い
PDF
Meta-Learning with Memory Augmented Neural Network
PDF
加速するデータドリブンコミュニケーション
PDF
Learning Convolutional Neural Networks for Graphs
PPTX
ICML2016読み会 概要紹介
PDF
論文紹介 Pixel Recurrent Neural Networks
GTC17 NVIDIA News
次世代の AI とディープラーニング GTC 2017
NVIDIA GPU 技術最新情報
GTC 2017 さらに発展する AI 革命
HPCとAIをつなぐGPUクラウド
Icml読み会 deep speech2
Dropout Distillation
Estimating structured vector autoregressive models
激アツ!GPUパワーとインフラの戦い
Meta-Learning with Memory Augmented Neural Network
加速するデータドリブンコミュニケーション
Learning Convolutional Neural Networks for Graphs
ICML2016読み会 概要紹介
論文紹介 Pixel Recurrent Neural Networks
Ad

Similar to GTC 2017 基調講演からディープラーニング関連情報のご紹介 (20)

PDF
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
PDF
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
PDF
NVIDIA deep learning最新情報in沖縄
PDF
GTC 2020 発表内容まとめ
PPTX
NVIDIA 最近の動向
PDF
GTC 2018 の基調講演から
PDF
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
PDF
20170518 eureka dli
PDF
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
PDF
ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜
PDF
NVIDIA ディープラーニング最新情報
PDF
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
PDF
GTC 2019 NVIDIA NEWS
PDF
1000: 基調講演
PDF
GPU と PYTHON と、それから最近の NVIDIA
PDF
GPU クラウド コンピューティング
PDF
Dat002 ディープラーニン
PPTX
機械学習 / Deep Learning 大全 (4) GPU編
PPTX
人工知能 AI 時代の幕開け~新たなコンピューティング モデル、GPU ディープラーニングが火付け役に~
PDF
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NVIDIA deep learning最新情報in沖縄
GTC 2020 発表内容まとめ
NVIDIA 最近の動向
GTC 2018 の基調講演から
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
20170518 eureka dli
【de:code 2020】 AI とデータ サイエンスを加速する NVIDIA の最新 GPU アーキテクチャ
ハードウェア進化についていけ 〜 実用化が進む GPU、そして注目が集まる Edge TPU の威力に迫る 〜
NVIDIA ディープラーニング最新情報
Deep Learning Lab MeetUp 学習編 AzureインフラとBatch AI
GTC 2019 NVIDIA NEWS
1000: 基調講演
GPU と PYTHON と、それから最近の NVIDIA
GPU クラウド コンピューティング
Dat002 ディープラーニン
機械学習 / Deep Learning 大全 (4) GPU編
人工知能 AI 時代の幕開け~新たなコンピューティング モデル、GPU ディープラーニングが火付け役に~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~

More from NVIDIA Japan (20)

PDF
HPC 的に H100 は魅力的な GPU なのか?
PDF
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
PDF
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
PDF
20221021_JP5.0.2-Webinar-JP_Final.pdf
PDF
開発者が語る NVIDIA cuQuantum SDK
PDF
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
PDF
NVIDIA HPC ソフトウエア斜め読み
PDF
HPC+AI ってよく聞くけど結局なんなの
PDF
Magnum IO GPUDirect Storage 最新情報
PDF
データ爆発時代のネットワークインフラ
PDF
Hopper アーキテクチャで、変わること、変わらないこと
PDF
GTC November 2021 – テレコム関連アップデート サマリー
PDF
テレコムのビッグデータ解析 & AI サイバーセキュリティ
PDF
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
PDF
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
PDF
2020年10月29日 Jetson活用によるAI教育
PDF
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
PDF
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
PDF
Jetson Xavier NX クラウドネイティブをエッジに
PDF
NVIDIA Jetson導入事例ご紹介
HPC 的に H100 は魅力的な GPU なのか?
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
20221021_JP5.0.2-Webinar-JP_Final.pdf
開発者が語る NVIDIA cuQuantum SDK
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA HPC ソフトウエア斜め読み
HPC+AI ってよく聞くけど結局なんなの
Magnum IO GPUDirect Storage 最新情報
データ爆発時代のネットワークインフラ
Hopper アーキテクチャで、変わること、変わらないこと
GTC November 2021 – テレコム関連アップデート サマリー
テレコムのビッグデータ解析 & AI サイバーセキュリティ
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
Jetson Xavier NX クラウドネイティブをエッジに
NVIDIA Jetson導入事例ご紹介

GTC 2017 基調講演からディープラーニング関連情報のご紹介