Inspection of CloudML Hyper Parameter Tuning

Inspection
of
Cloud Machine Leaning
Hyper Parameter Tuning
nagachika
GCPUG Fukuoka

Agenda
• Hyper Parameter Tuning とは?
• Hyper Parameter Tuning の性能を実験
• Hyper Parameter Tuning の探索⽅法を推測

About me
• nagachika
• Ruby committer, Stable branch maintainer
• Fukuoka.rb organizer
• GCPUG
• TFUG (TensorFlow User Group)
• TensorFlow contributor ← NEW

Cloud Machine Leaning
• Training
• TensorFlow が(分散環境、GPU環境含め) 
⽤意されている実⾏環境のホスティングサービス
• TensorFlow 専⽤のPaaS(Heroku)
• Prediction
• TensorFlow Serving のホスティングサービス
• API で Training したモデルを利⽤できる

• Hyper Parameter とは?
• モデル(SVM, Random Forest, MLP, CNN 等々なんであれ)の学習に 
先⽴って決定しないといけないパラメータ
• モデルの精度に影響する
• より良い Hyper Parameter の探索が望ましい

• Machine Learning Model
Input Output

Dog or Cat

Input Output
トレーニング可能な
パラメータ
トレーニング不可な
パラメータ
期待する Output が得られるように 
トレーニング可能なパラメータを 
変更するのが 
(教師あり)機械学習における 
「学習」

Input Output
パラメータ
パラメータ
Expectation
Error
期待(Expectation)と実際の
Outputの差を定量化したもの
(Error)を最⼩にする。 
勾配を⽤いた⼿法が主流

Input Output
パラメータ
パラメータ
Expectation
Error

Input
(Hyper Parameter)
Output 
(Error)
Hyper Parameter を⼊⼒として 
誤差(Error)を出⼒とする関数とみなすこともできる 
↓
Output(Error)を最⼩にする Input(Hyper Parameter)を 
探索する最適化問題

Input
(Hyper Parameter)
Output 
(Error)
ただし、⼀般的に
• 勾配はわからない(そもそもInputが距離の概念がある空間と限らない)
• F(x) の評価には時間がかかる

• Derivative-free optimization 
(勾配によらない最適化⼿法)
• Simulated Annealing(焼きなまし法)
• Genetic Algorithm(遺伝的アルゴリズム)
→ ⼤量の試⾏が必要で実⾏コストが⼤きい

• Scikit learn
• Grid Search(グリッドサーチ)
• パラメータ毎に有限の候補の組み合わせ試⾏
• Random Search(ランダム探索)
→ シンプルだけどいまいち賢くない

Cloud Machine Learning の 
Hyper Parameter Tuning は 
どんな⽅法で探索を 
しているのだろうか?

Motivation
• 多層ニューラルネットワーク
• 層の数
• (各層の)ユニット(ニューロン)の数
• etc…
Layer-1 Layer-2

Motivation
• 層の数
• (各層の)ユニット(ニューロン)の数
➡ 1つのパラメータで表現したいな
➡ 極度に多峰的な関数になりそう…

Motivation
• 多峰性関数→最適化が困難な性質
➡ Cloud Machine Learning はこんな関数に対して 
どのくらい賢く最適化してくれるんだろう?
単峰性関数多峰性関数

実験1
• Cloud Machine Learning に Hyper Parameter
Tuning で既知の関数の最適化をさせる
• F(x) を明⽰的に式として与える
• Hyper Parameter を受け取って F(x) を計算し
て報告するだけの Python モジュールを作成

実験1
• Hyper Parameter
• 1変数(x), 2変数(x, y)
• 範囲は全て [-1, 1]
• 最⼩値を求める
• 探索回数(N)は
• 1変数 → N=10 or 15
• 2変数 → N=30

実験1
• あきらかに Grid Search ではない
• 低次元の多項式(?)くらいだとかなり賢い 
(少ない試⾏回数で最適値の近くを当てる)
• 難しい形状の関数もそれなりに 
(⼤域探索している? 局所解に落ちたりはなさそう)
➡ どうやってるんだろう???

Bayesian Optimization 
ベイズ最適化

Bayesian Optimization
http://mathetake.hatenablog.com/entry/2016/12/19/145311

https://www.youtube.com/watch?v=pQHWew4YYao
ベイズ的最適化の⼊⾨と応⽤
機械学習による機械学習の実験計画

おおざっぱな理解では
• 既に得た⼊⼒の結果を元に推測しつつ
• まだ調べてないあたりも調べるようにしつつ
いい感じに探索するために、 
最適化したい関数の形状を(各⼊⼒に対する) 
確率分布として捉える。

• 関数を確率分布として捉える?

• 関数を確率分布として捉える?
• x をある値に固定した時にF(x)が取る値を確率分布
• 既知の⼊⼒ x = x1, x2, … を元に計算する

• Acquisition function
• 次にテストすべき点を決めるための 
「重要度」みたいなのを決める関数
• GP-UCB
平均分散
= 活⽤ = 探索

実験2
• 実験1と同じF(x)に対して Bayesian Optimization
• 最初の3点は実験1の(Cloud MLの)結果を流⽤ 
(Bayesian Optimization は初期何点かはランダム探索)
• PythonのBayesianOptimizationパッケージを利⽤ 
[https://github.com/fmfn/BayesianOptimization]
• Acquisition function には GP-UCB, kappa=0.5 を選択

実験2
N=10
Cloud Machine Learning
BayesianOptimization

実験2
N=15

実験2
N=30

実験2
• Bayesian Optimization > Grid Search
• Cloud Machine Learning の Hyper Parameter
Tuning と似ているといえなくもない?
• Bayesian Optimization⾃体にも 
Hyper Parameterがある(acquisition function
の選択, そのパラメータ etc..)

Summary
• Cloud Machine Learning のHyper Parameter
Tuning はかしこくて便利
• Hyper Parameter に対して複雑な関数になる時は 
多めに試⾏回数を取ろう
• Hyper Parameter Tuning の裏側は 
Bayesian Optimization?
• ｵﾚｵﾚ Cloud Machine Learning の構築も夢では
ない!?

Inspection of CloudML Hyper Parameter Tuning

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to Inspection of CloudML Hyper Parameter Tuning (20)

More from nagachika t (13)

Inspection of CloudML Hyper Parameter Tuning