SlideShare a Scribd company logo
2
Most read
4
Most read
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Bayesian Uncertainty Estimation for Batch Normalized
Deep Networks (ICML2018)”
Kensuke Wakasugi, Panasonic Corporation.
タイトル:
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)
著者:
Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³
1 KTH Royal Institute of Technology, Stockholm, Sweden.
2 Electronic Arts, SEED, Stockholm, Sweden.
3 Science for Life Laboratory
選書理由:
Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため
※特に断りがない限り,図・表・式は上記論文より引用したものです.
書誌情報
Wakasugi, Panasonic Corp.
2
背景
Wakasugi, Panasonic Corp.
3
深層学習を病気の診断や自動運転に適用する際,不確実性の推定は重要
 関連手法として,dropoutをガウス過程とみなし,不確実性を推定する
方法[1]が提案されているが,現在ではdropoutを使ったアーキテク
チャは少ない
 Batch Normalization(BN)を使い,不確実性を推定する手法を提案
mini-batch毎に規格化定数(平均,分散)が変動することを利用
 具体的には,変分近似とBNの等価性を示し,
BNを使って分散が計算できることを示した.
 左図は,提案手法により推定された信頼区間.
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty
in Deep Learning. ICML, 48:1–10, 2015.
関連研究:Bayesian Modeling
Wakasugi, Panasonic Corp.
4
点推定を行う深層学習において,確率モデルの導入と周辺化を行い,予測分布を定義
 予測関数のパラメータの生成分布を導入し,
さらに周辺化を行うことで,予測分布を計算.
 計算には𝑝(𝜔|𝐷)が必要だがわからない
→一般的には変分近似により計算.
点推定
ベイズ推定
関連研究:Dropout as a Bayesian Approx.
Wakasugi, Panasonic Corp.
5
Dropoutをベイズ近似とみなし,不確実性を算出
 NNのパラメータ𝜔が周辺化対象
 dropoutをベルヌーイ分布からのサンプリングとみなし,
dropout後の𝑊を確率変数とみなす
→ 𝑊の事前分布を定義
NNの計算過程をベイズ推定で記述
Dropoutを確率過程とみなす
[1] より引用
[1] より引用
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015.
関連研究:Multiplicative Normalizing Flows
Wakasugi, Panasonic Corp.
6
𝑊の生成過程を計算容易かつ複雑な形式で定義
 𝑊の生成過程をNormalizing Flowで定義
→関数が複雑(多蜂性を有するなど),かつ,計算が容易.
𝑾の事前分布を潜在変数𝒛を使って定義
[1] より引用
[2] より引用
[2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017.
提案手法:変分近似としての目的関数
Wakasugi, Panasonic Corp.
7
変分近似の目的関数を,mini-batchで学習できるように式変形
 一般的な式変形に加え、mini-batch(size M)の場
合の目的関数に変形
※ただし,このような式変形は先行文献[3]に習った
とのこと.
𝒑(𝝎|𝑫)を𝒒 𝜽(𝝎)で近似するときの目的関数
mini-batchで学習する場合の目的関数
[3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.
提案手法:BNによる学習
Wakasugi, Panasonic Corp.
8
通常のBNにおける目的関数を導出
 一般的な目的関数の表式.
 変分近似の場合と同様に,mini-batch(size M)の場合の目的関数に変形
 ネットワークパラメータを𝜃, 𝜔に分割.
前者はバイアス,重みなど,後者はBNの平均分散を表す.
(𝜏は先行文献に習って使われているが,本論分では特に言及はされない)
目的関数(損失項+正則項)
mini-batchで学習する場合の目的関数
※notationの変更
変分近似とBNの等価性
Wakasugi, Panasonic Corp.
9
第2項の微分が一致すれば,同様の学習をしているとみなせる
 順序が逆転しているが変分近似の目的関数においても,𝜔
はBNの平均分散を指す.
 Ωとして、weight decayを考える.
 各unitが無相関などの簡単な制約を課すと,
𝑝 𝜔 がガウス分布になることが示される.
→一般的なネットワークにおいて両者が等価
 𝑞 𝜃(𝜔)はmini-batch毎に計算される平均分散に相当し,
それ自身が同分布からのサンプリングとみなせる.
変分近似の目的関数
BNの目的関数
論理の流れの補足:
変分近似において,𝑝 𝜔 に適当な制約を置く(無相関,ガウス分布など)
→l2正則付きの,一般的なBNの目的関数と一致
→BNの最適化=変分近似の最適化
→最適化した𝑞 𝜃(𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算
→
予測の不確実性の計算
Wakasugi, Panasonic Corp.
10
BNの学習によって,𝑞 𝜃(𝜔)を求め,予測の分散を算出
 左記ベイズ推定の式に相当する計算を実施可能
 具体的には,下記のようにして,𝑞 𝜃(𝜔)のサンプリ
ング(相当?)を実施.
学習データからmini-batchを作成
→BNの平均分散を算出
→𝑞 𝜃(𝜔)の代わりとする
→yの期待値,共分散を算出
ベイズ推定
BNによる期待値と共分散の計算
性能評価指標
Wakasugi, Panasonic Corp.
11
Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価
 これそのままでは,評価指標には出来ないため,
Constant Uncertaintyを使った場合のスコアを0
Optimal Uncertaintyを使った場合のスコアを100
に規格化.
 Constant Uncertaintyは共通のUncertaintyでPLLま
たはCRPSを最適化した値.
 Optimal Uncertaintyはデータ毎にUncertaintyをPLL
またはCRPSに対し最適化した値.
Predictive Log Likelihood
Continuous Ranked Probability Score
※𝐹(𝑦)は累積密度分布
比較結果
Wakasugi, Panasonic Corp.
12
UCIデータセットを用いて,2指標について性能を比較
MCBN(Monte Calro Batch Normalization,提案手法)
MCDO(Monte Calro Dropout)
MNF(Multiplicative Normalizing Flows)
 最大100と考えると,かなり性能が悪いが,そもそもLower Boundといっても最適化した値なので難しい
 Lower Bound(Constant Uncertainty)を優位に超えているものを*で表記
• 既存手法を上回ったという主張だが,解釈が難しい.
Uncertaintyの解析と可視化
Wakasugi, Panasonic Corp.
13
Uncertainty-errorプロットとセグメンテーション時の可視化で,有効性を確認
 左2列は,灰色線(予測誤差の移動平均)と
shaded領域(推定結果)に相関が見られると良い
 右2列は異なるデータセットに対し提案手法で
Uncertaintyを可視化した
 理論上batch-sizeが大きいほうが良く,
メモリの関係で最右列のほうが良い推定になっ
ているらしい
推論時のサンプリング回数の影響
Wakasugi, Panasonic Corp.
14
mini-batchのサンプリング回数を変えたときのPLLを検証
 ResNet32,Cifar10,batch size32で検証
 サンプリング回数を増やすと,PLLが向上(かつ収束)
mini-batchのサンプル回数毎のPLL
まとめ
Wakasugi, Panasonic Corp.
15
 BNに基づくUncertaintyの推定方法を提案し,従来法を上回る性能を実現
 提案手法の理論検証および実験検証を行い,有効性を示した.
 BNを使っていれば適用可能で,アーキテクチャの修正や,再学習が不要.
計算コストも小さい.
雑感
Wakasugi, Panasonic Corp.
16
• Uncertaintyは重要ではあるが,その定量評価は難しい.
• ベイズ最適化や強化学習の枠組みであれば比較しやすいが,それはしていなかった.
先行文献では強化学習を使った検証もしている.
• 全体としては,決定論的なNNにおいて,ランダム性を含む処理を考えて,
そこを変分ベイズとして扱って,予測分布を計算可能にしている,というところか.

More Related Content

PDF
【メタサーベイ】Video Transformer
PDF
ドメイン適応の原理と応用
PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
自己教師学習(Self-Supervised Learning)
PPTX
モデル高速化百選
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
Optimizer入門&最新動向
PDF
PCAの最終形態GPLVMの解説
【メタサーベイ】Video Transformer
ドメイン適応の原理と応用
【メタサーベイ】基盤モデル / Foundation Models
自己教師学習(Self-Supervised Learning)
モデル高速化百選
畳み込みニューラルネットワークの高精度化と高速化
Optimizer入門&最新動向
PCAの最終形態GPLVMの解説

What's hot (20)

PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PDF
PRML学習者から入る深層生成モデル入門
PDF
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PDF
[DL輪読会]ICLR2020の分布外検知速報
PPTX
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PDF
機械学習モデルの判断根拠の説明
PDF
2019年度チュートリアルBPE
PDF
pymcとpystanでベイズ推定してみた話
PDF
Point net
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
Attentionの基礎からTransformerの入門まで
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PPTX
社会心理学者のための時系列分析入門_小森
PDF
合成経路探索 -論文まとめ- (PFN中郷孝祐)
PPTX
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
PPTX
Transformerを雰囲気で理解する
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PDF
研究効率化Tips Ver.2
[DL輪読会]MetaFormer is Actually What You Need for Vision
PRML学習者から入る深層生成モデル入門
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
[DL輪読会]ICLR2020の分布外検知速報
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
【DL輪読会】ViT + Self Supervised Learningまとめ
機械学習モデルの判断根拠の説明
2019年度チュートリアルBPE
pymcとpystanでベイズ推定してみた話
Point net
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Attentionの基礎からTransformerの入門まで
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
社会心理学者のための時系列分析入門_小森
合成経路探索 -論文まとめ- (PFN中郷孝祐)
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Transformerを雰囲気で理解する
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
研究効率化Tips Ver.2
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Ad

[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ “Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)” Kensuke Wakasugi, Panasonic Corporation.
  • 2. タイトル: Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018) 著者: Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³ 1 KTH Royal Institute of Technology, Stockholm, Sweden. 2 Electronic Arts, SEED, Stockholm, Sweden. 3 Science for Life Laboratory 選書理由: Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため ※特に断りがない限り,図・表・式は上記論文より引用したものです. 書誌情報 Wakasugi, Panasonic Corp. 2
  • 3. 背景 Wakasugi, Panasonic Corp. 3 深層学習を病気の診断や自動運転に適用する際,不確実性の推定は重要  関連手法として,dropoutをガウス過程とみなし,不確実性を推定する 方法[1]が提案されているが,現在ではdropoutを使ったアーキテク チャは少ない  Batch Normalization(BN)を使い,不確実性を推定する手法を提案 mini-batch毎に規格化定数(平均,分散)が変動することを利用  具体的には,変分近似とBNの等価性を示し, BNを使って分散が計算できることを示した.  左図は,提案手法により推定された信頼区間. [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML, 48:1–10, 2015.
  • 4. 関連研究:Bayesian Modeling Wakasugi, Panasonic Corp. 4 点推定を行う深層学習において,確率モデルの導入と周辺化を行い,予測分布を定義  予測関数のパラメータの生成分布を導入し, さらに周辺化を行うことで,予測分布を計算.  計算には𝑝(𝜔|𝐷)が必要だがわからない →一般的には変分近似により計算. 点推定 ベイズ推定
  • 5. 関連研究:Dropout as a Bayesian Approx. Wakasugi, Panasonic Corp. 5 Dropoutをベイズ近似とみなし,不確実性を算出  NNのパラメータ𝜔が周辺化対象  dropoutをベルヌーイ分布からのサンプリングとみなし, dropout後の𝑊を確率変数とみなす → 𝑊の事前分布を定義 NNの計算過程をベイズ推定で記述 Dropoutを確率過程とみなす [1] より引用 [1] より引用 [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015.
  • 6. 関連研究:Multiplicative Normalizing Flows Wakasugi, Panasonic Corp. 6 𝑊の生成過程を計算容易かつ複雑な形式で定義  𝑊の生成過程をNormalizing Flowで定義 →関数が複雑(多蜂性を有するなど),かつ,計算が容易. 𝑾の事前分布を潜在変数𝒛を使って定義 [1] より引用 [2] より引用 [2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017.
  • 7. 提案手法:変分近似としての目的関数 Wakasugi, Panasonic Corp. 7 変分近似の目的関数を,mini-batchで学習できるように式変形  一般的な式変形に加え、mini-batch(size M)の場 合の目的関数に変形 ※ただし,このような式変形は先行文献[3]に習った とのこと. 𝒑(𝝎|𝑫)を𝒒 𝜽(𝝎)で近似するときの目的関数 mini-batchで学習する場合の目的関数 [3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.
  • 8. 提案手法:BNによる学習 Wakasugi, Panasonic Corp. 8 通常のBNにおける目的関数を導出  一般的な目的関数の表式.  変分近似の場合と同様に,mini-batch(size M)の場合の目的関数に変形  ネットワークパラメータを𝜃, 𝜔に分割. 前者はバイアス,重みなど,後者はBNの平均分散を表す. (𝜏は先行文献に習って使われているが,本論分では特に言及はされない) 目的関数(損失項+正則項) mini-batchで学習する場合の目的関数 ※notationの変更
  • 9. 変分近似とBNの等価性 Wakasugi, Panasonic Corp. 9 第2項の微分が一致すれば,同様の学習をしているとみなせる  順序が逆転しているが変分近似の目的関数においても,𝜔 はBNの平均分散を指す.  Ωとして、weight decayを考える.  各unitが無相関などの簡単な制約を課すと, 𝑝 𝜔 がガウス分布になることが示される. →一般的なネットワークにおいて両者が等価  𝑞 𝜃(𝜔)はmini-batch毎に計算される平均分散に相当し, それ自身が同分布からのサンプリングとみなせる. 変分近似の目的関数 BNの目的関数 論理の流れの補足: 変分近似において,𝑝 𝜔 に適当な制約を置く(無相関,ガウス分布など) →l2正則付きの,一般的なBNの目的関数と一致 →BNの最適化=変分近似の最適化 →最適化した𝑞 𝜃(𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算 →
  • 10. 予測の不確実性の計算 Wakasugi, Panasonic Corp. 10 BNの学習によって,𝑞 𝜃(𝜔)を求め,予測の分散を算出  左記ベイズ推定の式に相当する計算を実施可能  具体的には,下記のようにして,𝑞 𝜃(𝜔)のサンプリ ング(相当?)を実施. 学習データからmini-batchを作成 →BNの平均分散を算出 →𝑞 𝜃(𝜔)の代わりとする →yの期待値,共分散を算出 ベイズ推定 BNによる期待値と共分散の計算
  • 11. 性能評価指標 Wakasugi, Panasonic Corp. 11 Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価  これそのままでは,評価指標には出来ないため, Constant Uncertaintyを使った場合のスコアを0 Optimal Uncertaintyを使った場合のスコアを100 に規格化.  Constant Uncertaintyは共通のUncertaintyでPLLま たはCRPSを最適化した値.  Optimal Uncertaintyはデータ毎にUncertaintyをPLL またはCRPSに対し最適化した値. Predictive Log Likelihood Continuous Ranked Probability Score ※𝐹(𝑦)は累積密度分布
  • 12. 比較結果 Wakasugi, Panasonic Corp. 12 UCIデータセットを用いて,2指標について性能を比較 MCBN(Monte Calro Batch Normalization,提案手法) MCDO(Monte Calro Dropout) MNF(Multiplicative Normalizing Flows)  最大100と考えると,かなり性能が悪いが,そもそもLower Boundといっても最適化した値なので難しい  Lower Bound(Constant Uncertainty)を優位に超えているものを*で表記 • 既存手法を上回ったという主張だが,解釈が難しい.
  • 13. Uncertaintyの解析と可視化 Wakasugi, Panasonic Corp. 13 Uncertainty-errorプロットとセグメンテーション時の可視化で,有効性を確認  左2列は,灰色線(予測誤差の移動平均)と shaded領域(推定結果)に相関が見られると良い  右2列は異なるデータセットに対し提案手法で Uncertaintyを可視化した  理論上batch-sizeが大きいほうが良く, メモリの関係で最右列のほうが良い推定になっ ているらしい
  • 14. 推論時のサンプリング回数の影響 Wakasugi, Panasonic Corp. 14 mini-batchのサンプリング回数を変えたときのPLLを検証  ResNet32,Cifar10,batch size32で検証  サンプリング回数を増やすと,PLLが向上(かつ収束) mini-batchのサンプル回数毎のPLL
  • 15. まとめ Wakasugi, Panasonic Corp. 15  BNに基づくUncertaintyの推定方法を提案し,従来法を上回る性能を実現  提案手法の理論検証および実験検証を行い,有効性を示した.  BNを使っていれば適用可能で,アーキテクチャの修正や,再学習が不要. 計算コストも小さい.
  • 16. 雑感 Wakasugi, Panasonic Corp. 16 • Uncertaintyは重要ではあるが,その定量評価は難しい. • ベイズ最適化や強化学習の枠組みであれば比較しやすいが,それはしていなかった. 先行文献では強化学習を使った検証もしている. • 全体としては,決定論的なNNにおいて,ランダム性を含む処理を考えて, そこを変分ベイズとして扱って,予測分布を計算可能にしている,というところか.