SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Spectral Normalisation for Deep Reinforcement Learning:
An Optimisation Perspectiveの論文紹介
Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo
書誌情報
2
題目:
著者:
採録: ICML2021
概要:
注釈無しの図は本論文から抜粋
英語表記は本論文と対応
※
Atariゲームを用いた数値実験
MinAtarを用いた数値実験
価値関数の中間層を正規化しC51・RAINBOWを上回る性能を確認
高性能を発揮するAdamのパラメータの幅を確認
スペクトルノルムを用いてスケジューリングする手法を提案
Spectral Normalisation for Deep Reinforcement Learning:
An Optimisation Perspective
Florin Gogianu, Tudor Berariu, Mihaela Rosca,
Claudia Clopath, Lucian Busoniu, and Razvan Pascanu
背景
3
→強化学習にも適用することで課題解決につながると着想
強化学習の課題
学習が不安定になりやすい
高性能を発揮するパラメータの幅が狭く調整が難しい
他分野での取り組み
Generative Adversarial Network (GAN)では
Spectral Normalisation (SN)によって安定した学習を実現[1]
[1] T. Miyato et al, "Spectral normalization for generative adversarial networks," 2018.
Spectral Normalisation
4
関数𝑓がリプシッツ連続
(例)線形写像𝑦 = 𝑊𝑥が1-リプシッツ(𝑘 = 1)とは
が任意𝑥に対して成立
Spectral Normalisation(1-リプシッツ制約)
𝜌:行列𝑊の最大特異値
を満たす𝑘(𝑘 ≥ 0)が存在(𝑘:リプシッツ定数)
スペクトルノルムを用いた正規化の手法
5
方針
予備実験の結果
すべての層にSNをかけると性能が低下
→ネットワーク全体が連続であることが最適とは限らない
全体ではなく一部の層の連続性で性能が向上する可能性がある
→ SNの対象となる層を限定する
本論文での表記
SN[-1]: 出力層をSN
SN[-2]: 出力層の1つ前をSN
(Pythonのリスト要素のインデックス)
Atariゲームを用いた数値実験①
6
中間層の正規化
→C51・RAINBOWを上回る性能を発揮
RAINBOW
C51(Categorical DQN)
C51 + SN[-2](出力層の1つ前の層を正規
化)
Atariの54種類のゲームで獲得したスコアの平均を比較
Atariゲームを用いた数値実験②
7
C51以外のアルゴリズムを用いたスコアの平均を比較
DQN
DQN + SN[-2](出力層の1つ前の層を正規
化)
DQN + SN[-3]
DQN + SN[-4]
※ハイパーパラメータは全て同一
中間層のいずれかをSNすることで性能改善
→ 強化学習でのSNの有効性を示唆
Atariゲームを用いた数値実験のまとめ
8
DQNとC51の数値実験でSNの有効性を示唆
→ 性能改善の要因調査が必要
※最適化アルゴリズムはAdamを使用
性能改善の要因調査
9
解明すべき点
SNは最適化の性能にどう影響しているか?
学習環境はMinAtarを使用
Atariゲームの縮小版(10 x 10の解像度)
以下4つのゲームを使用
Sequest, Breakout, Asterix, Space Invaders
実験内容
Adamのパラメータ(𝜂, 𝜀)、中間層の数、ユニット数を変化させて性
能を確認
Adamのハイパーパラメータと性能の関係
10
1) ベースラインのアルゴリズムより性能が向上
2) 高性能を発揮するパラメータの幅が広がる
3) 学習性能の頭打ちを回避
高い性能を発
揮
パラメータの組み合わせを変更し性能を確認
パラメータ
(𝜂・𝜀)
SNの対象範囲と性能の関係
11
DQN + SN[-2,-3,-4]は性能低下
→ SNの対象とする層数は半分以下が望ましい
(関連研究[2,3]の結果と同様の傾向を確認)
SNの対象とする層数を変更し性能を確認
DQN
DQN + SN[-2](出力層の1つ前の層を正規
化)
DQN + SN[-2,-3]
DQN + SN[-2,-3,-4]
[2] Y. Yoshida and M. Takeru, "Spectral norm regularization for improving the generalizability of deep learning,” 2017.
[3] M. Cisse et al, "Parseval networks: Improving robustness to adversarial examples," 2017.
提案手法 – SNと勾配計算の関係
12
ニューラルネットワーク
重み行列𝑊𝑖のSNとバイアス𝑏𝑖をスケーリング
提案手法①(divOut)
導出の流れ
→ 𝛿𝐿 ≔
𝜕ℒ
𝜕𝑧𝐿
と定義すると𝜌−1でスケーリングさ
れる
SNされていないネットワークに対し学習率𝜂をノルムでスケジュー
リング
→ SNと同等のパラメータ更新式
,
MLP SN + bias
scaling
提案手法 – SNと勾配計算の関係
13
提案手法②(divGrad)
SNされていないネットワークに対し勾配をノルムでスケジューリング
提案手法③(mulEps)
SNされていないネットワークに対しAdamのパラメータ𝜀をノルムでスケ
ジューリング
→ divGradの近似
例)Pytorch
optimizer.step()の実行直前にweightの勾配をノルムで割る
と近似して代入
MinAtarを用いた数値実験
14
3手法(divOut, divGrad, mulEps)はSNと同等の性能を発揮
divGradとmulEpsは全ての層に適用した場合でも高性能
→ ノルムでスケジューリングすることでDQNの性能が向上
提案手法の性能を確認
まとめ
15
Atariゲームを用いた数値実験
MinAtarを用いた数値実験
SNを強化学習の価値関数に適用
中間層をSNすることでC51・RAINBOWを上回る性能を発揮
高性能を発揮するAdamのパラメータの幅が広がる
SNと勾配計算の関係を明確化
SNと同等以上の性能をノルムを用いたスケジューリングで実現

More Related Content

PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
画像生成・生成モデル メタサーベイ
PPTX
【DL輪読会】Flow Matching for Generative Modeling
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
PDF
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
画像生成・生成モデル メタサーベイ
【DL輪読会】Flow Matching for Generative Modeling
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...

What's hot (20)

PPTX
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
【DL輪読会】Emergence of maps in the memories of blind navigation agents
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PDF
【DL輪読会】Implicit Behavioral Cloning
PPTX
[DL輪読会]逆強化学習とGANs
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PDF
失敗から学ぶ機械学習応用
PPTX
【DL輪読会】"A Generalist Agent"
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PDF
強化学習の分散アーキテクチャ変遷
PDF
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PPTX
学習時に使ってはいないデータの混入「リーケージを避ける」
PPTX
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【メタサーベイ】基盤モデル / Foundation Models
【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Implicit Behavioral Cloning
[DL輪読会]逆強化学習とGANs
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
失敗から学ぶ機械学習応用
【DL輪読会】"A Generalist Agent"
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Semi supervised, weakly-supervised, unsupervised, and active learning
強化学習の分散アーキテクチャ変遷
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】時系列予測 Transfomers の精度向上手法
学習時に使ってはいないデータの混入「リーケージを避ける」
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Ad

Recently uploaded (20)

PDF
Encapsulation_ Review paper, used for researhc scholars
PDF
gpt5_lecture_notes_comprehensive_20250812015547.pdf
PDF
Per capita expenditure prediction using model stacking based on satellite ima...
PDF
Spectral efficient network and resource selection model in 5G networks
PDF
Review of recent advances in non-invasive hemoglobin estimation
PDF
Advanced methodologies resolving dimensionality complications for autism neur...
PDF
NewMind AI Weekly Chronicles - August'25-Week II
PPTX
Big Data Technologies - Introduction.pptx
PPTX
Spectroscopy.pptx food analysis technology
PPTX
Digital-Transformation-Roadmap-for-Companies.pptx
PPT
“AI and Expert System Decision Support & Business Intelligence Systems”
PDF
Dropbox Q2 2025 Financial Results & Investor Presentation
PDF
Assigned Numbers - 2025 - Bluetooth® Document
PPT
Teaching material agriculture food technology
PPTX
ACSFv1EN-58255 AWS Academy Cloud Security Foundations.pptx
PPTX
Machine Learning_overview_presentation.pptx
PDF
Optimiser vos workloads AI/ML sur Amazon EC2 et AWS Graviton
PDF
Machine learning based COVID-19 study performance prediction
PPTX
Cloud computing and distributed systems.
PDF
Reach Out and Touch Someone: Haptics and Empathic Computing
Encapsulation_ Review paper, used for researhc scholars
gpt5_lecture_notes_comprehensive_20250812015547.pdf
Per capita expenditure prediction using model stacking based on satellite ima...
Spectral efficient network and resource selection model in 5G networks
Review of recent advances in non-invasive hemoglobin estimation
Advanced methodologies resolving dimensionality complications for autism neur...
NewMind AI Weekly Chronicles - August'25-Week II
Big Data Technologies - Introduction.pptx
Spectroscopy.pptx food analysis technology
Digital-Transformation-Roadmap-for-Companies.pptx
“AI and Expert System Decision Support & Business Intelligence Systems”
Dropbox Q2 2025 Financial Results & Investor Presentation
Assigned Numbers - 2025 - Bluetooth® Document
Teaching material agriculture food technology
ACSFv1EN-58255 AWS Academy Cloud Security Foundations.pptx
Machine Learning_overview_presentation.pptx
Optimiser vos workloads AI/ML sur Amazon EC2 et AWS Graviton
Machine learning based COVID-19 study performance prediction
Cloud computing and distributed systems.
Reach Out and Touch Someone: Haptics and Empathic Computing

【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisation Perspectiveの論文紹介