SlideShare a Scribd company logo
Regularization for Deep
Learning 7.1-7.4
Deep Learning輪講会(2017-06-21 Wednesday)
河野 晋策 @lapis_zero09
Regularization and Under-
Constrained Problems
Chap 7.1-7.3
2
Underfitting Overfitting
3
Underfitting Overfitting
訓練誤差大 小
汎化誤差 汎化誤差小大 大
Overfitting
高バリアンス
Underfitting
高バイアス
4
Regularization
• “複雑度”の高いモデル
• 訓練誤差は低い
• 汎化誤差は高い
• 汎化誤差を減らす方法
• より多くのデータの収集(Chap7.4)
• パラメータ数が少ない,単純なモデルを使う
• データの次元数を減らす
• Regularization(正則化)
• モデルの“複雑さ”を制御
Deep Learning book. p.229より抜粋
“the true generation process essentially involves simulating the entire universe”
“we are always trying to fit a square peg into a round hole”
OverfittingOverfitting(過学習)
5
Regularization
• 罰則付き最適化(Chap7.2)
• 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 ሚ𝐽 𝜽; 𝑿, 𝒚 = 𝐽 𝜽; 𝑿, 𝒚 + 𝛼Ω 𝜽
• 𝐽 𝜽; 𝑿, 𝒚 とΩ 𝜽 両方を最適化したい
例
• 𝐽 𝜽; 𝑿, 𝒚 :年金制度の充実
• Ω 𝜽 :国民の税負担の増加
• トレードオフパラメータ 𝛼 で優先度を決める
元の目的関数 正則化項
回帰
𝐽 𝜽; 𝑿, 𝒚 :訓練誤差を最小化
Ω 𝜽 :”複雑さ”を最小化
6
Regularization
ሚ𝐽 𝜽; 𝑿, 𝒚 = 𝐽 𝜽; 𝑿, 𝒚 + 𝛼Ω(𝜽)
元の目的関数 正則化項
正則化された目的関数
Memo: ωのpノルム
𝝎 𝑇 = (𝜔1, 𝜔2, … , 𝜔 𝐷)
||𝝎|| 𝑝 = (෍
𝑖=1
𝐷
|𝜔𝑖
| 𝑝
)
1
𝑝
L2ノルム
Ω θ = | 𝝎 |2
L1ノルム
Ω θ = | 𝝎 |1
Maxノルム
Ω θ = | 𝝎 |∞
7
𝐿2Regularization(Chap7.1.1)
• 元の目的関数: 𝐽 𝝎; 𝑿, 𝒚
• L2正則化項入り:ሚ𝐽 𝝎; 𝑿, 𝒚 = 𝐽 𝝎; 𝑿, 𝒚 +
𝛼
2
𝝎 𝑇 𝝎
• L2正則化項
• 𝝎の各要素が大きい値をとると大きくなる→”複雑さ”を抑制
• 凸関数の和は凸関数→唯一の局所最適解が求まる(嬉しい)
• 微分可能→解析解が求まる(嬉しい)
• 二乗誤差項+L2正則化項 = リッジ回帰
L2ノルム
Ω θ = | 𝝎 |2
L2正則化項
正則化パラメータ
8
𝐿2Regularization(Chap7.1.2)
• 元の目的関数: 𝐽 𝝎; 𝑿, 𝒚
• L1正則化項入り:ሚ𝐽 𝝎; 𝑿, 𝒚 = 𝐽 𝝎; 𝑿, 𝒚 + 𝛼 σ𝑖 |𝜔𝑖|
• L1正則化項
• 原点からの遠さに対して線形で罰則
• 凸関数の和は凸関数→唯一の局所最適解が求まる(嬉しい)
• 原点付近で微分不可能→解析解は求まらない(悲しい)
• 二乗誤差項+L2正則化項 = ラッソ回帰
L2正則化項
正則化パラメータ
L1ノルム
Ω θ = | 𝝎 |1
9
L2 vs L1
• L2の方が嬉しいポイント高いけどなぜL1使うのか
• 特徴量(予測に有用か不明)が大量にある場面:
Q.どうやって特徴選択する?
A.交差検定
特徴量D個とすると,2 𝐷
通りの組み合わせ ➡ 計算量が...
L1正則化はその形状から軸上に解が出やすい
➡自然な特徴選択が可能(嬉しい)
L2正則化L1正則化
➡𝛽1は不要
Trevor Hastie et al. Statistical Learning with Sparsity: The Lasso and Generalizations. P.362.
10
ペナルティの最小化
コストの最小化
コスト+ペナルティの最小化
L2 vs L1
• 横軸:最小二乗推定量に対する相
対ノルム
• 縦軸:各特徴量に対する係数ベク
トル
Trevor Hastie et al. Statistical Learning with Sparsity: The Lasso and Generalizations. P.362.
特徴選択の観察
• 予測:犯罪率
• 特徴量:アメリカ街別 警察予算,
高校卒業率,大学卒業率など
11
Lassoで特徴選択の仕組み
Lasso Regression: Some Recent Developments. http://www.stat.rutgers.edu/iob/bioconf07/slides/Madigan.pdf
弱 強正則化
Ridge
Lasso
正則化パラメータ 𝛼 = 0
としたときの最適解
原点に直接近づく
ある軸に対して0になってから
原点に近づく 12
Dataset Augmentation
Chap 7.4
13
Dataset Augmentation
• モデルをより一般化するにはより多くのデータで学習するのが
いい
• データの量は限られる ➡ 疑似データを作成
• object recognition領域で有効
• 画像の回転や拡大,etc...
• Vincent et al. Extracting and Composing Robust Features with Denoising Autoencoders. ICML, 2008.
• speech recognition領域で有効
• Jaitly and Hinton. Vocal Tract Length Perturbation (VTLP) improves speech recognition. ICML, 2013.
14
Dataset Augmentation(蛇足な知見)
• Imbalanced Data
• データのクラスに偏りがあって学習が困難なデータ
• 提案手法
• Under-sampling 多いクラスを減らす
• Over-sampling 少ないクラスを増やす(疑似データの生成)
• N. V. Chawla, K. W. Bowyer, L. O.Hall, W. P. Kegelmeyer, “SMOTE: synthetic minority
over-sampling technique,” Journal of artificial intelligence research, 321-357, 2002.
• He, Haibo, Yang Bai, Edwardo A. Garcia, and Shutao Li. “ADASYN: Adaptive synthetic
sampling approach for imbalanced learning,” In IEEE International Joint Conference on
Neural Networks (IEEE World Congress on Computational Intelligence), pp. 1322-1328,
2008.
• その他 SMOTEの変形など
15
Dataset Augmentation(蛇足な知見)
• Model Compression
• 課題
• データが少ない問題に対して,DeeeeeeepなNNを適用すると過学習する
• 浅いNNだと精度が足りない
• アンサンブルだと精度は出るけど大きいし,遅い
• 提案手法
1. 元データに対してアンサンブルを訓練
2. 元データから大量の正解ラベル無し疑似データを作成
3. 訓練したアンサンブルで疑似データに正解ラベル付け
4. 大量の疑似データでDeeeeeeepNNを訓練 ➡ アンサンブルの近似と同義
• Buciluǎ, Cristian; Caruana, Rich et al. Model compression. ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining. 2006, p. 535-541.
16

More Related Content

PDF
MP Joinを使った類似データ抽出
PPTX
Approximate Scalable Bounded Space Sketch for Large Data NLP
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PPTX
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
PDF
ML: Sparse regression CH.13
PDF
機械学習ゼミ2018 06 15
PDF
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
MP Joinを使った類似データ抽出
Approximate Scalable Bounded Space Sketch for Large Data NLP
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
ML: Sparse regression CH.13
機械学習ゼミ2018 06 15
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)

Similar to Deep learningbook chap7 (20)

PDF
20170422 数学カフェ Part2
PDF
Sparse models
PDF
Sparse estimation tutorial 2014
PDF
PDF
L0TV: a new method for image restoration in the presence of impulse noise
PPTX
Oracle property and_hdm_pkg_rigorouslasso
PDF
20140514_水曜セミナー発表資料_中村知繁
PDF
パターン認識 08 09 k-近傍法 lvq
PPTX
Learning sparse neural networks through L0 regularization
PDF
PRML Chapter 14
PDF
PRML s1
PDF
双対性
PDF
パターン認識第9章 学習ベクトル量子化
PDF
Icml yomikai 07_16
PPTX
End challenge part2
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
PDF
PDF
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
KEY
LS for Reinforcement Learning
PDF
2014年5月14日_水曜セミナー発表内容_FINAL
20170422 数学カフェ Part2
Sparse models
Sparse estimation tutorial 2014
L0TV: a new method for image restoration in the presence of impulse noise
Oracle property and_hdm_pkg_rigorouslasso
20140514_水曜セミナー発表資料_中村知繁
パターン認識 08 09 k-近傍法 lvq
Learning sparse neural networks through L0 regularization
PRML Chapter 14
PRML s1
双対性
パターン認識第9章 学習ベクトル量子化
Icml yomikai 07_16
End challenge part2
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
LS for Reinforcement Learning
2014年5月14日_水曜セミナー発表内容_FINAL
Ad

Recently uploaded (9)

PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
Ad

Deep learningbook chap7

  • 1. Regularization for Deep Learning 7.1-7.4 Deep Learning輪講会(2017-06-21 Wednesday) 河野 晋策 @lapis_zero09
  • 2. Regularization and Under- Constrained Problems Chap 7.1-7.3 2
  • 4. Underfitting Overfitting 訓練誤差大 小 汎化誤差 汎化誤差小大 大 Overfitting 高バリアンス Underfitting 高バイアス 4
  • 5. Regularization • “複雑度”の高いモデル • 訓練誤差は低い • 汎化誤差は高い • 汎化誤差を減らす方法 • より多くのデータの収集(Chap7.4) • パラメータ数が少ない,単純なモデルを使う • データの次元数を減らす • Regularization(正則化) • モデルの“複雑さ”を制御 Deep Learning book. p.229より抜粋 “the true generation process essentially involves simulating the entire universe” “we are always trying to fit a square peg into a round hole” OverfittingOverfitting(過学習) 5
  • 6. Regularization • 罰則付き最適化(Chap7.2) • 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 ሚ𝐽 𝜽; 𝑿, 𝒚 = 𝐽 𝜽; 𝑿, 𝒚 + 𝛼Ω 𝜽 • 𝐽 𝜽; 𝑿, 𝒚 とΩ 𝜽 両方を最適化したい 例 • 𝐽 𝜽; 𝑿, 𝒚 :年金制度の充実 • Ω 𝜽 :国民の税負担の増加 • トレードオフパラメータ 𝛼 で優先度を決める 元の目的関数 正則化項 回帰 𝐽 𝜽; 𝑿, 𝒚 :訓練誤差を最小化 Ω 𝜽 :”複雑さ”を最小化 6
  • 7. Regularization ሚ𝐽 𝜽; 𝑿, 𝒚 = 𝐽 𝜽; 𝑿, 𝒚 + 𝛼Ω(𝜽) 元の目的関数 正則化項 正則化された目的関数 Memo: ωのpノルム 𝝎 𝑇 = (𝜔1, 𝜔2, … , 𝜔 𝐷) ||𝝎|| 𝑝 = (෍ 𝑖=1 𝐷 |𝜔𝑖 | 𝑝 ) 1 𝑝 L2ノルム Ω θ = | 𝝎 |2 L1ノルム Ω θ = | 𝝎 |1 Maxノルム Ω θ = | 𝝎 |∞ 7
  • 8. 𝐿2Regularization(Chap7.1.1) • 元の目的関数: 𝐽 𝝎; 𝑿, 𝒚 • L2正則化項入り:ሚ𝐽 𝝎; 𝑿, 𝒚 = 𝐽 𝝎; 𝑿, 𝒚 + 𝛼 2 𝝎 𝑇 𝝎 • L2正則化項 • 𝝎の各要素が大きい値をとると大きくなる→”複雑さ”を抑制 • 凸関数の和は凸関数→唯一の局所最適解が求まる(嬉しい) • 微分可能→解析解が求まる(嬉しい) • 二乗誤差項+L2正則化項 = リッジ回帰 L2ノルム Ω θ = | 𝝎 |2 L2正則化項 正則化パラメータ 8
  • 9. 𝐿2Regularization(Chap7.1.2) • 元の目的関数: 𝐽 𝝎; 𝑿, 𝒚 • L1正則化項入り:ሚ𝐽 𝝎; 𝑿, 𝒚 = 𝐽 𝝎; 𝑿, 𝒚 + 𝛼 σ𝑖 |𝜔𝑖| • L1正則化項 • 原点からの遠さに対して線形で罰則 • 凸関数の和は凸関数→唯一の局所最適解が求まる(嬉しい) • 原点付近で微分不可能→解析解は求まらない(悲しい) • 二乗誤差項+L2正則化項 = ラッソ回帰 L2正則化項 正則化パラメータ L1ノルム Ω θ = | 𝝎 |1 9
  • 10. L2 vs L1 • L2の方が嬉しいポイント高いけどなぜL1使うのか • 特徴量(予測に有用か不明)が大量にある場面: Q.どうやって特徴選択する? A.交差検定 特徴量D個とすると,2 𝐷 通りの組み合わせ ➡ 計算量が... L1正則化はその形状から軸上に解が出やすい ➡自然な特徴選択が可能(嬉しい) L2正則化L1正則化 ➡𝛽1は不要 Trevor Hastie et al. Statistical Learning with Sparsity: The Lasso and Generalizations. P.362. 10 ペナルティの最小化 コストの最小化 コスト+ペナルティの最小化
  • 11. L2 vs L1 • 横軸:最小二乗推定量に対する相 対ノルム • 縦軸:各特徴量に対する係数ベク トル Trevor Hastie et al. Statistical Learning with Sparsity: The Lasso and Generalizations. P.362. 特徴選択の観察 • 予測:犯罪率 • 特徴量:アメリカ街別 警察予算, 高校卒業率,大学卒業率など 11
  • 12. Lassoで特徴選択の仕組み Lasso Regression: Some Recent Developments. http://www.stat.rutgers.edu/iob/bioconf07/slides/Madigan.pdf 弱 強正則化 Ridge Lasso 正則化パラメータ 𝛼 = 0 としたときの最適解 原点に直接近づく ある軸に対して0になってから 原点に近づく 12
  • 14. Dataset Augmentation • モデルをより一般化するにはより多くのデータで学習するのが いい • データの量は限られる ➡ 疑似データを作成 • object recognition領域で有効 • 画像の回転や拡大,etc... • Vincent et al. Extracting and Composing Robust Features with Denoising Autoencoders. ICML, 2008. • speech recognition領域で有効 • Jaitly and Hinton. Vocal Tract Length Perturbation (VTLP) improves speech recognition. ICML, 2013. 14
  • 15. Dataset Augmentation(蛇足な知見) • Imbalanced Data • データのクラスに偏りがあって学習が困難なデータ • 提案手法 • Under-sampling 多いクラスを減らす • Over-sampling 少ないクラスを増やす(疑似データの生成) • N. V. Chawla, K. W. Bowyer, L. O.Hall, W. P. Kegelmeyer, “SMOTE: synthetic minority over-sampling technique,” Journal of artificial intelligence research, 321-357, 2002. • He, Haibo, Yang Bai, Edwardo A. Garcia, and Shutao Li. “ADASYN: Adaptive synthetic sampling approach for imbalanced learning,” In IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), pp. 1322-1328, 2008. • その他 SMOTEの変形など 15
  • 16. Dataset Augmentation(蛇足な知見) • Model Compression • 課題 • データが少ない問題に対して,DeeeeeeepなNNを適用すると過学習する • 浅いNNだと精度が足りない • アンサンブルだと精度は出るけど大きいし,遅い • 提案手法 1. 元データに対してアンサンブルを訓練 2. 元データから大量の正解ラベル無し疑似データを作成 3. 訓練したアンサンブルで疑似データに正解ラベル付け 4. 大量の疑似データでDeeeeeeepNNを訓練 ➡ アンサンブルの近似と同義 • Buciluǎ, Cristian; Caruana, Rich et al. Model compression. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2006, p. 535-541. 16