SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Responsive Safety in Reinforcement Learning
by PID Lagrangian Methods (ICML2020)の解説
Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo
書誌情報
2
題目: Responsive Safety in Reinforcement Learning by PID Lagrangian Methods
著者: Adam Stooke, Joshua Achiam, and Pieter Abbeel
採録: ICML2020
概要:
• 制約条件を考慮した強化学習(Constrained RL)
• ベースラインアルゴリズムのLagrangian methodについて、
制御工学におけるPID制御を応用することで性能を改善
選定理由:
• Constrained RLを1次のダイナミクスとして再定義
• 制御工学と強化学習の観点から議論でき、本論文の応用先は広いと考えた
※注釈無しの図は本論文から抜粋
問題設定
3
強化学習に制約条件を組み込んだもの
目的関数
方策:
コスト:
以下の最適化問題を解く
Constrained Markov Decision Processes (CMDP):
CMDPの具体例
4
ベースラインアルゴリズム:
1) Constrained Policy Optimization (CPO)
2) Lagrangian method
実装がCPOよりも簡単
コスト制約の追従に関して良い性能を発揮
図はhttps://openai.com/blog/safety-gym/より抜粋
Safety-Gym:
2019年のOpenAIが発表した安全制約を考慮する強化学習のベンチマーク問題
PID-Lagrangian Methodの概要
5
従来のLagrangian Methodの課題
➝コストの応答が振動的になる:
コスト(応答) λ(制御入力)
提案手法:PID-Lagrangian Method
未定乗数法λの更新でPID制御を導入
収束性を改善、振動を抑制
従来手法の未定乗数λの更新は積分制御に相当
g(x)の応答に対して制御入力の位相が90度遅れる
位相が遅れることは制御工学の安定性の観点から好ましくない
ラグランジュの未定乗数法
6
制約条件付きの最適化問題:
未定乗数λを用いた制約条件なしの最適化問題:
勾配法を用いて数値的に計算する場合:
,
既存の数値計算方法について
7
次式の微分方程式を考える:
(1)を時間tで微分して(2)を代入する
[1] Platt, John C., and Alan H. Barr. "Constrained differential optimization." Proceedings of the 1987 International Conference on Neural Information Processing Systems. 1987.
文献[1]より以下が示されている:
• Aが正定値であれば制約条件を満たす解へ収束
• 振動的に収束することが多い
(1)
(2)
➝2次のダイナミクス
PID-Lagrangian Method
8
追加された項は正定なのでダンピングに関する極が増加して収束性を高め
る
現在の制約条件の値に比例項を加える
比例-積分型の方法:
積分-微分型の方法:
微分項が追加されるので即応性があがる
,
比例-積分-微分型の方法:
➝理論的な解析は今後の課題とのこと
フィードバック制御を用いたConstrained RL
9
1次のダイナミクス:
F:方策更新に関する式
h:フィードバック制御則
λ:制御入力
d:コストリミット
勾配法:
従来手法(積分制御):
PID-Controlled Lagrange Multiplier
10
スケーリングされた目的関数:
,
数値実験
11
実験で使用したアルゴリズム:
PPOとConstraint-Controlled PPO (CPPO)で比較
Safety-Gym:
2019年のOpenAIが発表した安全制約を考
慮する強化学習のベンチマーク問題
比例項による性能改善
12
比例項を加えることで目標コストへの追従性能を改善
Kiを大きくすると(コストの追従性能は良くなるが)Returnは小さくなる
報酬とコストのトレードオフ
13
コストとリターンに対する指標:
比例項を加えることで性能を改善
微分項による性能改善
14
微分項を加えることでコストに対するオーバーシュート・振動を抑制
Reward-Scale Invariance
15
方策勾配にスケーリングファクターを
導入:
報酬をスケールするとKi, Kp, Kdも同時
にスケールされてしまう課題を解決
まとめ
• 未定乗数法λの更新でPID制御則を導入
• Safety-gymで提案手法の性能を検証
• コスト目標値への収束性を改善
所感
• Constrained RLを1次のダイナミクスとして再定義したのがおもしろかった
• 現代制御・ロバスト制御理論と組み合わせることができそうと思った
16

More Related Content

PDF
POMDP下での強化学習の基礎と応用
PDF
最適輸送の解き方
PDF
方策勾配型強化学習の基礎と応用
PPTX
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
POMDP下での強化学習の基礎と応用
最適輸送の解き方
方策勾配型強化学習の基礎と応用
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)

What's hot (20)

PPTX
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
PDF
多様な強化学習の概念と課題認識
PDF
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
PDF
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
PDF
ドメイン適応の原理と応用
PPTX
[DL輪読会]World Models
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
PDF
数学で解き明かす深層学習の原理
PPTX
深層強化学習による自動運転車両の経路探索に関する研究
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PPTX
Curriculum Learning (関東CV勉強会)
PDF
SSII2019企画: 点群深層学習の研究動向
PDF
[DL輪読会]AlphaStarとその関連技術
PDF
Decision Transformer: Reinforcement Learning via Sequence Modeling
PPTX
[DL輪読会]逆強化学習とGANs
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
DQNからRainbowまで 〜深層強化学習の最新動向〜
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PDF
最近のDQN
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
多様な強化学習の概念と課題認識
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
ドメイン適応の原理と応用
[DL輪読会]World Models
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
数学で解き明かす深層学習の原理
深層強化学習による自動運転車両の経路探索に関する研究
【DL輪読会】Transformers are Sample Efficient World Models
Curriculum Learning (関東CV勉強会)
SSII2019企画: 点群深層学習の研究動向
[DL輪読会]AlphaStarとその関連技術
Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]逆強化学習とGANs
強化学習と逆強化学習を組み合わせた模倣学習
DQNからRainbowまで 〜深層強化学習の最新動向〜
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
最近のDQN
Ad

Similar to 【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説 (20)

PPTX
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
PDF
[読会]Long tail learning via logit adjustment
PDF
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
PDF
[Dl輪読会]introduction of reinforcement learning
PDF
ICRA2020 Open Survey
PDF
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
PDF
強化学習の実適用に向けた課題と工夫
PDF
ICML2017 参加報告会 山本康生
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
PDF
Computational Motor Control: Reinforcement Learning (JAIST summer course)
PPTX
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
PPTX
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
「これからの強化学習」勉強会#1
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PDF
強化学習その4
PDF
[DL輪読会]Hyper parameter agnostic methods in reinforcement learning
PDF
Deeplearning lt.pdf
PDF
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...
PPTX
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
PPTX
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
[読会]Long tail learning via logit adjustment
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
[Dl輪読会]introduction of reinforcement learning
ICRA2020 Open Survey
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
強化学習の実適用に向けた課題と工夫
ICML2017 参加報告会 山本康生
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
「これからの強化学習」勉強会#1
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
強化学習その4
[DL輪読会]Hyper parameter agnostic methods in reinforcement learning
Deeplearning lt.pdf
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説

Editor's Notes

  • #6: つまり、 g(x)の応答(を入力として)に対して、制御入力の位相が90度遅れる 位相が180度以上遅れると制御システムは不安定となる
  • #8: ラムダを制御入力と考えると、コストg(x)を積分してから代入している➝積分制御