DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」金子紘也hare

2019/08/28
DAシンポジウム 1A招待講演
深層学習モデル高な
Training/Inference ため
HW/SW技術
Hiroya Kaneko @Preferred Networks

今日話す内容
• PFNについて
• 深層学習と
• 深層学習における計算・ワークフロー
• Deep Learning 高化
– ソフトウェア視点から
– ハードウェア視点から
• MN-Core 開発について
• まとめ

株式会社Preferred Networks (PFN)
• 設立：2014年3月
• 本社：東京都千代田区大手町（日本）
• Preferred Networks America, Inc.：カリフォルニア州バークレー（米国）
• 取締役：西川徹、岡野原大輔、奥田遼介
• 従業員数：約250名（2019年4月時点）
• ミッション：IoT時代に向けた新しいコンピュータを創する
あらゆるモノに知能をもたせ、分散知能を実現する
• 事業内容：IoT + 分散機械学習
交通システム、製業、バイオヘルスケア

7
@CEATEC JAPAN 2018 Autonomous Tidying-up Robot System
https://projects.preferred.jp/tidying-up-robot/
x2

9
ディープラーニング（深層学習）と
● 層が深く、幅も広いニューラルネットワーク
を利用した機械学習手法一手法
● 2012年大ブレーク以来、研究コミュニティ
みならず産業界に多く使われてきた
● 画像認識、音声認識、強化学習、自然言語処理
などで劇的な精度向上を果たし、そ多くが既に実用化されている
2014年一般画像認識コンテストで優勝した
22層からなる GoogLeNet 例 [Google 2014]
*http://memkite.com/deep-learning-bibliography/

10
深層学習 = 表現学習、一貫学習（end-to-end学習）
● データをどように表現するか（表現学習）
● 全モジュールを誤差逆伝播法で一貫して学習
— モジュール毎局所最適化問題がない
— 信用割り当て問題（誰に間違った責任があるか）を自然に解く
特徴設計
ルール
・
プログラム
タスク学習
ルールベース
浅い機械学習 
（決定木、RF、SVM、 
ロジスティク回帰など）
深層学習 
 
タスク学習
表現学習
（特徴設計）
人手データから自動獲得
一貫学習

深層学習における代表的なタスク
11
The graph was excerpted from https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/object_localization_and_detection.html

13 
ニューラルネットワークモデル
● 入力に対しhidden layer 演算を繰り返して出力を得る
深いレイヤーパーツを組み合わせた
総合的かつ抽象的な情報
図 CS231n講義資料より
http://cs231n.github.io/neural-networks-1/

14
ディープラーニング基本計算
● 下層入力xを重み付きで足しあわせた後に活性化関数hをかけて出力
– Wi
がモデルパラメータであり、重みと呼れる
x1
x2
x3
+1
w1
w2
w3
w4
h = a(x1
w1
+x2
w2
+x3
w3
+w4
)
h
a 例 ReLU: h(x) = max(0, x)
a : 活性化関数
バイアス項
活性化関数に、ReLUなど勾配消失問題を
回避できる区分線形関数が多く使われる

15 
CNN (Convolutional Neural Network)
1 2 3
4 5 6
7 8 9
Input * Nch
1 2
3 4
Weight * N個
1 2
3 4
1 2
3 4
1 2
3 4
Output(Activation)
1 2
3 4
37 47
67 87
1 2 3
4 5 6
7 8 9
*
Filterをずらしながら畳み込み演算を行う
データ転送に対して演算量が大きい
input ch数=1 場合

16
アーキテクチャ例
● AlexNet
— Conv 5層+FC3層というシンプルなモデル
Chainerで実装例
with self.init_scope():
self.conv1 = L.Convolution2D(None, 96, 11, stride=4)
self.conv2 = L.Convolution2D(None, 256, 5, pad=2)
self.fc6 = L.Linear(None, 4096)
def forward(self, x, t):
h = F.max_pooling_2d(F.local_response_normalization(
F.relu(self.conv1(x))), 3, stride=2)
h = F.max_pooling_2d(F.local_response_normalization(
F.relu(self.conv2(h))), 3, stride=2)
h = F.relu(self.conv3(h))
h = F.relu(self.conv4(h))
h = F.max_pooling_2d(F.relu(self.conv5(h)), 3, stride=2)
h = F.dropout(F.relu(self.fc6(h)))
h = F.dropout(F.relu(self.fc7(h)))
h = self.fc8(h)
The graph was excerpted from https://papers.nips.cc/paper/4824-imagenet-classiﬁcation-with-deep-convolutional-neural-networks.pdf

Trainingにおける演算
• 誤差逆伝播を使った勾配算出とモデル
アップデート (これを1iterationと呼ぶ)
– Forward時 activation 値が必要
– いくつか入力をまとめて学習を行う場
合もある(ミニバッチ学習)
– 勾配平均をupdateに利用する
– 全て入力データを一度利用することを
1epochと呼ぶ
• 大量密なFMA演算が必要とされる
– 特にCNN 場合Filterを共有するためメ
モリアクセスに対して演算量が大きい
図メディカル AI専門コースオンライン講義資料より
https://japan-medical-ai.github.io/medical-ai-course-materials/

Image Classification 進歩
● ILSVRC Image classification competition
The graph was excerpted from Eunbyung Park (2017). Overview of ILSVRC 2017
2012: AlexNet
2014: GoogLeNet
2016: ResNet
既に人認識率を
超えつつある

19
モデル探索・改善
● 新しいネットワークアーキテクチャ探索(Trained from scratch)
— ある意味職人芸世界
— 各ドメインごとにある程度当たりをつけた上で様々なアーキテクチャ/ハイパーパラメータ試行錯誤
を繰り返す
— アーキテクチャ自動探索 (Neural Architecture Search)
● Pre-trained model 活用 (fine-tuning)
— 大きなデータセットに対して十分に Trainingされたモデル良い特徴量抽出器として利用できること
が知られている
— Pre-trained modelをtrunk networkとして利用し他タスク向けに再学習
— scratchからtrainingするより時間が短縮できるが、結局試行錯誤繰り返し

● 最適なアーキテクチャを自動的に探
索する仕組み
● 近年hand-craft なネットワーク精
度をNASが凌駕しつつある
● 試行錯誤自動化
20 
Neural Architecture Search (NAS)
The graph was excerpted from Zoph, B., Vasudevan, V., Shlens, J., & Le, Q. V. (2017). Learning
Transferable Architectures for Scalable Image Recognition. AAAI-18
Red: NAS, Black: Handcraft
Top-1 Acc@ImageNet
Better
Search Train & Test
Neural
Network
Metrics

Deep Learningに必要な計算能力増え続けている
● SoTAな研究においてモデルサイズ依然として増えていく傾向にある
— 画像から動画/立体へ、画像巨大化
— 時間方向/空間方向へ Convolution, HD画像処理など
● NAS (Network Architecture Search)
— アーキテクチャ探索自動化
— 探索時間を減らすため試みなど様々行われているが、基本的に試行錯誤自動化
— 人がボトルネックにならない
● 計算能力を高めること競争力源泉
Train Evaluate
Design a new model quicker
Train faster Get a better (or equivalent) model

PFNにおける深層学習基盤
● HWからSWまで深層学習研究開発加を目的に整備・運用している
— HW
◆ GPU Cluster (MN-1/1b/2)
◆ Custom Processor (MN-Core)
— SW
◆ k8s env + job scheduler
◆ Optuna (hyperparameter optimization framework)
◆ Chainer family (Deep learning framework)

24
PFNが自社クラスタにこだわる理由
• 大量計算機を使って誰にも成し遂げられなかったことをしたい(グランドチャレンジ)
– やり計算力競争力源(クラウドとて無限でない)
– 2017年5月頃、NIPS論文提出締切直前に、大手クラウドサービス GPUが枯渇
• 息をするように大規模な学習できる環境
– 16 GPU, 32 GPU 学習を日常的に回したい
• 高な通信環境をいつも使いたい
– 分散深層学習に高な通信環境が必須
• 上から下まで保有すること重要性
– 様々な技術バックグランドを持つメンバーが集結することによって、新しいもを生み出
していく(クラスタ調達からアルゴリズムまで)

Deep Learning 高化
● 基本的に一般的なHPC workload 高化と考え方同じ
● Scale-out (分散並列化) – SW的な改善
— 分散深層学習
◆ データ並列、モデル並列
◆ 計算と通信オーバラップ
● Scale-up (専用アクセラレータ) – HW的な改善
— Inference/Training専用アクセラレータ

27
Deep learningにおける分散並列化
Data-parallelism
Model-parallelism
Synchronous
Asynchronous
Fine-grained
Coarse-grained
一つモデルを複数ノードを用い
て高にTrainingする
- 全ノードで同一パラメータ
一つ大きなモデルを複数ノード
を用いて分担してTrainingする
- 全ノードで異なるパラメータ
● データ並列とモデル並列で目的が異なる
— 高化観点でデータ並列を利用する
高化観点で
同期型データ並列が重要

28
同期型データ並列による学習高化
● 1iterationで処理する画像枚数 (バッチサイズ)を大きく取り各GPUで処理を分担
— 複数 GPUに画像をらまき各 GPUで逆伝播を行う
— 各GPUで求まった勾配平均を Allreduceを用いて求める
— 各GPUにおいてモデルをアップデートする
● 課題
● バッチサイズを変更した結果精度劣化
● All-reduceによる同期オーバヘッド
All-Reduc
e
Forward
Forward
Forward
Backward
Backward
Backward
Optimize
Optimize
Optimize
Forward Backward Optimizebatchsize=32
batchsize=96
(32*3)
1nodeで学習
3nodeで分散学習
※1nodeあたり batchsize GPUを
効率的に利用可能な値に設定される

29
The “large batch” problem
From Keskar et al.
“On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima”
“It has been observed in practice that when using a larger batch
there is a significant degradation in the quality of the model, as
measured by its ability to generalize”
1. Computed gradients in each iteration is an average of larger number of samples
→ gradients are “less stochastic”, which makes it difficult to escape from local minima
2. Total number of iterations (=updates) is smaller
(number of iterations in 1epoch = number of images / batchsize)
Local minima
Better model

30
“Linear scaling rule” for large batch problem
“If minibatch-size is k times larger, increase learning rate by k times”

31
Data parallel: sync vs. async
All-Reduc
e
Forward
Forward
Forward
Backward
Backward
Backward
Optimize
Optimize
Optimize
Synchronous:
Parameter server
Asynchronous:

32
Reduce communication: use FP16
Compute gradients
Convert FP32 to FP16
Allreduce (with NCCL)
Convert FP16 to FP32 and update

33
Hide communication (by overlapping)
Double buﬀering
• Each update uses the gradients from previous iteration (1-step stale grad.)

同期型データ並列による学習高化
● 問題設定
● Dataset: ImageNet
● モデル: ResNet50
● 90epochをいかに精度を落とさずに高に学習するか (epoch数自体を減らしていけない )
● 2年弱で100倍以上高化している
Company Processor Date Training time
PFN TITAN X *128 17/1 4h
Facebook P100 *256 17/6 1h
PFN P100 *1024 17/11 15min
SONY V100 *2176 18/11 3.7min
Google TPUv3 *1024 18/11 2.2min

Scale-out (分散並列化)による高化
● 同期型データ並列によって、2年弱で100倍以上高化している
— 元々論文で 8枚 GPUで数週間要していたも、今や2.2min
— バッチサイズを増やせる問題について、GPU台数に対してほぼリニアに性能向上が達成で
きる程度にノウハウがたまりつつある
● 常に適用できる万能な手法でない
— バッチサイズを増やしても精度や学習安定性に問題が出ないモデルにみ適用可能

Scale-upによる高化
- 専用アクセラレータによる高化-
● 様々な専用アクセラレータを
各社提案している
— Inference向け
— 精度を維持したまま
く、省電力に推論を実
行する(組み込み寄り
世界)
— Training向け
◆ 精度を維持したままモ
デルを高に学習す
る (HPC寄り世界)
The image was excerpted from https://github.com/basicmi/AI-Chip
PFNとして
こちら高化
需要が大きい

なぜ今DL専用アクセラレータ開発なか？
● 「大きな計算能力が必要」という需要観点以外にも、ハードウェア開発を加さ
せる背景がある
— Deep Learning 応用範囲が拡大していること
— Deep Learningにおいて必要とされる演算精度がこれまで科学技術計算と異なること
— 演算手順が計算グラフによって宣言的に定義されること

演算精度について(Training)
● Trainingで混合精度 (fp16乗算+fp32加算) 活用が注目されている
— NVIDIA Volta: Tensor Core (4x4 混合積和演算, fp16 matmul, fp32 accumulate)
— Google TPU: BFLOAT16 (brain float)
◆ fp16よりもdynamic rangeが広い
◆ 勾配 underflow対策
● Deep learningに最適な数値表現となにか？という問題に答え出ていない
— fp16でもCNN, RNN, GANなど Trainingがある程度うまくいくという報告
— 使う観点で cuDNNなどが対応を始めているが、正しく利用するためにノウハウが必要
● HPC系学会でも混合精度演算 benchmarkについて議論が始まっている
The ﬁgure was excerpted from https://cloud.google.com/tpu/docs/bﬂoat16

演算精度について(Inference)
● Inferenceで、よりAggressiveな最適化が可能
— Int8, Int4, binary
● 学習済みモデルをターゲットアーキテクチャに対して最適化する
— モデル量子化 (Quantization)
◆ モデル N-bit整数化
— モデル剪定 (Pruning)
◆ 構築済みモデル Sparse化 (主にSpMV Acceleratorと組み合わせ)
— 小さいモデルへ蒸留 (distillation)
◆ 小さなモデルに教師モデル分布を学習させる
● Emerging deviceを利用したもも様々提案がある(が、現時点でまだMNIST
など Toy Problemが解ける程度という印象)

計算グラフと中間表現
● Deep learning モデル計算グラフとして
表現できる
● 現実的にモデル element-wiseな計算
依存関係でなくオペレータ (レイヤ)
接続関係としてDeep Learning Framework
上で表現される
— I/F Frameworkごとに異なっても表現し
ているもに大きな違いない
● 手続き的な表現でなく宣言的な表現 (グラフ
IR)が手に入る！
— 中間表現標準化：ONNX, NNEFなど

計算グラフが手に入るうれしさ
- アーキテクチャ観点から
● 高度なオフラインスケジューリングが可能
— 変数 life-timeが既知
◆ cache 重要性低下 (scratchpadで十分)
— 演算順序がdeterministicに決定可能
◆ 分岐予測重要性低下 (値に依存して分岐することが少ない)
◆ 並列性が抽出しやすい
-> 高度なオフラインスケジューラを前提としたシンプルかつ並列度高いプ
ロセッサアーキテクチャを現実的に利用可能

深層学習コンパイラ
● グラフIRを入力に、ターゲット依存最適化を行うコンパイラ
The ﬁgure was excerpted from Tianqi Chen et al. TVM: An Automated End-to-End Optimizing Compiler for Deep Learning
https://arxiv.org/abs/1802.04799
● オペレータ単位でプロセッサ専用
高効率カーネルを定義可能
● 演算 fusionやスケジューリング、メ
モリ配置最適化
● 演算スケジューリング /メモリ配置
最適化
● 再計算
— 計算量を増加させることで、メモリ使用量
を削減する

Chainer-compiler
● Box: software component / Rounded corner: data
● Yellow: exists / Grey: future work
CH2O
elichika
XCVM
runtime
Python
Chainer
ONNX+
inferenc
e
XCVM
IR
ONNX
Chainer
ONNX+
training
Compiler
code
gen
Menoh
C API
@static
graph
MN-Core?
Static
graph
analysis
Visualizers
(e.g., netron)
native
binary
(AOT)
Compiler
middle
end

深層学習用プロセッサ
MN-Core
倍精度単精度半精度
TFLOP 32.8 131 524
TFLOP/W 0.066 0.26 1.0
開発中
• Deep Learning Trainingに特
化した専用設計 ASIC
• 特に計算量多いConvolution
Kernelを高化するため専用
設計

MN-Core
• 階層メモリ型SIMDアーキテク
チャによって512MABを1chip
に集積
– 各階層メモリスク
ラッチパッドとして利用
可能
– 各階層間で分配、結
合、放送、縮約といった
複数転送モードをサ
ポート
• 倍/単/半精度相当及び混合
精度行列積演算をサポート
• Deep Learningに特化した演
算器を搭載製プロセス TSMC 12nm
消費電力 (W、予測値) 500 (4die, 1package合計)
ピーク性能 (TFLOPS) 32.8 (倍精度) / 131 (単精度) / 524 (半精度)
電力性能 (TFLOPS / W、予測値) 0.066 (倍精度) / 0.26 (単精度) / 1.0 (半精度)

MN-Core
• PCIe接続アクセラレータカードとして提供
• ボード及びサーバも開発中
– MN-Coreを搭載したクラスタを2020年に運用開始予定（目標）
チップ 1 MN-Core チップ (4die)
インターフェース PCI Express Gen3 x16
メモリサイズ 32 GB (ボード当たり)
消費電力 600 W (予測値)

GPUとMN-Core
• 汎用性と性能トレードオフ
– GPUとMN-Core 補完関係にある (全て jobがMN-Coreにfitするわけでない)
Architecture can be simpler
GPU
MN-Core
Computation intensive
SIMD friendly
Convolution layer
Dense matrix algo.
Particle sim.
Sparse matrix algo.
Finite diff. method
CPU
FFT
Graph algo.Rigid body sim.
new app?
Circuit sim.

MN-Core開発チーム
● ハードウェア/ソフトウェアエンジニア垣根なくフレキシブルに働いている
— そもそも区分けが会社全体として存在していない
● HDLをソフトウェアエンジニアが読みつつ・・・などよくある
開発メンバー
● 神戸大学牧野淳一郎教授と共同で
アーキテクチャ検討を実施
— ASIC開発に関して経験豊富な
GRAPE開発メンバがリード

MN-Core 開発
● 開発プロセスに何か特筆すべき事項があるわけでない
— SystemCベース検証環境
◆ 主にデバイスドライバなどと協調検証に利用
— ソフトウェアエミュレータ
◆ MN-Core 命令レベルエミュレータ
◆ 上位アプリケーションレベル記述性確認
◆ RTLと最終的な比較一致検証
— 演算器精度などについて Chainer側に手を入れ一部モデルで検証を実施

HWを支えるSWについて
• ユーザにとっていつもコードをいつも方法で動かして、結果くなるというが理想（使
うために大きなオーバヘッド避けるべき）
• 既存 Chainerからシームレスに、かつ高効率にMN-Coreを利用可能にするためソフト
ウェア研究開発を行っています
– 専用ASICを利用するためツールチェーン群
– ChainerX
• 高な自動微分実装、選択可能なbackend
– Chainer-compiler
• Pythonから拡張ONNXフォーマットへ convert
• 拡張ONNX上における計算グラフ最適化、自動微分

PFN プロセッサ関連研究へ取り組み
● 次世代プロセッサ開発を並行して実施している (NEDO PJ)
● そ他、新しい検討など
— 新しいアーキテクチャ検討・評価
— 形式手法を用いたテスト自動生成
— 高・高機能なHPC向けInterconnect 検討
● 今後重要になりそうなTopic
— システム (データセンタ)全体として性能を出すため仕組み
◆ 既に学習を律するもがプロセッサでなくなりつつある

さいごに
● Deep Learning 分野において計算能力向上が求められている
— 高化アプローチ：Scale-out (分散並列化)とScale-up (専用アクセラレータ)
— プロセッサ設計/効率的な利用という観点で、宣言的に計算が定義されることが重要
◆ オフラインスケジューリングを前提としたシンプルな並列アーキテクチャ
◆ 深層学習コンパイラ
● Deep learning ため最適な計算機を構築するために
専用ASIC (MN-Core) から上位ソフトウェアフレームワークまで含めて全体を考え
ていく必要がある

Thank you!
57
We
are
hiring！

DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」金子紘也hare

More Related Content

What's hot (20)

Similar to DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」金子紘也hare (20)

More from Preferred Networks (20)