SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
論⽂紹介:Inverse Constrained Reinforcement Learning
Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo
書誌情報
2
題⽬: Inverse Constrained Reinforcement Learning
著者: Usman Anwar, Shehryar Malik, Alireza Aghasi, and Ali Ahmed
採録: ICML2021 accepted
概要:
• 連続⾏動空間でコスト関数の推定⼿法を定式化
• 重点サンプリングと学習の早期打ち切りによる学習の効率化
• コスト関数の転移学習において⾼い性能を発揮
※注釈無しの図は本論⽂から抜粋
背景
3
強化学習:
累積報酬の最大化を目的に学習
制約付き強化学習:
累積報酬を最大化しつつ、制約に関するコストを抑えて学
習
→報酬の最大化と制約の考慮を両立
制約付き逆強化学習:
エキスパートデータからコスト関数を推定し、制約付き強化学習を用い
て学習
→最適なコストの設計、報酬の最大化、制約の考慮を達成 ☺
問題点:現実世界の制約を考慮不可 ☹
問題点:コストの設計が試行錯誤的 ☹
制約付き逆強化学習(ICRL)
4
制約付きマルコフ決定過程(CMDP):
通常のMDPをコスト関数𝑐で拡張
制約条件を満たしつつ割引報酬和を最大化
方策:
コスト:
本論文では𝜶 = 𝟎の場合を扱う
constraint set を定義して以下の問題を解く
コスト関数
従来の試行錯誤的な設計ではなく
エキスパートのデータを用いて推定
CMDPで良い振る舞いをするためのコスト関数の推定
(※報酬関数は設計済みと仮定)
コスト関数の推論
5
制約条件のないMDP の確率分布を とする
に属する軌跡に対しては
0
最大エントロピー(MaxEnt)逆強化学習モデル
最尤推定に基づく定式化:
データセット がMaxEntに基づくと仮
定
エキスパートの軌
跡
制約条件
が最大となる を検討
5
連続⾏動空間での定式化
6
ニューラルネットワークを用いて を近
似:
→ 勾配:
対数尤度:
二項分類器 を用いて の制約条件への合致を0,1で判断するように学習
学習時の⼯夫
7
重点サンプリング:
学習の早期打ち切り:
forwardとreverse KL-divergenceに閾値を設定
過去の方策 からサンプルされたデータを用いて勾配を
近似
大幅なパラメータ更新による性能劣化を防止
方策のパラメータ更新
ICRLのアルゴリズム
8
本論文ではPPO-Lagrangianを使用
コスト関数の更新
重点サンプリングの重みを計算
Early stoppingの判定
勾配計算
数値実験 - 学習環境 -
9
学習環境:
制約に関する情報なし
評価環境:
制約を違反するとエピソードが終了
学習時に制約を考慮しないと評価環境では累積報酬を獲得できない
→ 制約を考慮すれば報酬を獲得できる問題設定
数値実験 - 評価指標 -
10
学習⼿法:
性能評価指標:
1) 制約付きマルコフ決定過程(CMDP)における累積
報酬
2) 制約条件を違反した平均回数
ICRL:本論⽂の提案⼿法
BC(Binary Classifier):交差エントロピー誤差のみを⽤い
た⼿法
GC(GAIL-Constraint):報酬と制約を同時に扱う⼿法
制約を回避すれば0に近づく
→ が増加
制約付き逆強化学習の結果
11
各⼿法で⽅策とコスト関数を学習
→ (b) HalfCheetah, (c) Ant でICRLとGCは⾼い性能を発揮
累積報酬
制約違反の回数
コスト関数の転移学習結果
12
制約付き逆強化学習で得たコスト関数を⽤いて (a) Point, (b) Ant-Broken で転移学
習
→ ICRLで得たコスト関数を⽤いると⾼い性能を発揮
累積報酬
制約違反の回数
学習効率化の有効性の検証
13
重点サンプリング(IS), 学習の早期打ち切り(ES)を使⽤せず学習
し⽐較
➝ どちらも学習の効率化に有効
累積報酬
制約違反の回数
まとめ
14
→ 連続⾏動空間でコスト関数の推定⼿法を定式化
→ 既存⼿法より学習を効率化
→ エキスパートと同程度の⾼い性能を発揮
コスト関数の最尤推定において、制約条件に対する判別器を導⼊
学習アルゴリズムに重点サンプリングと学習の早期打ち切りを導⼊
学習したコスト関数を⽤いて転移学習を実施

More Related Content

PPTX
【DL輪読会】Reward Design with Language Models
PDF
[DL輪読会]1次近似系MAMLとその理論的背景
PDF
Active Learning 入門
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PPTX
強化学習アルゴリズムPPOの解説と実験
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
【DL輪読会】Reward Design with Language Models
[DL輪読会]1次近似系MAMLとその理論的背景
Active Learning 入門
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
強化学習アルゴリズムPPOの解説と実験
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination

What's hot (20)

PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PPTX
[DL輪読会]World Models
PPTX
近年のHierarchical Vision Transformer
PDF
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PDF
Transformer メタサーベイ
PPTX
SakataMoriLab GNN勉強会第一回資料
PPTX
【論文読み会】Autoregressive Diffusion Models.pptx
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PDF
論文紹介-Multi-Objective Deep Reinforcement Learning
PPTX
[DL輪読会]Focal Loss for Dense Object Detection
PPTX
Curriculum Learning (関東CV勉強会)
PPTX
[DL輪読会]Flow-based Deep Generative Models
PPTX
[DL輪読会]DropBlock: A regularization method for convolutional networks
PPTX
モデルアーキテクチャ観点からの高速化2019
PDF
POMDP下での強化学習の基礎と応用
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
【DL輪読会】Transformers are Sample Efficient World Models
[DL輪読会]World Models
近年のHierarchical Vision Transformer
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Transformer メタサーベイ
SakataMoriLab GNN勉強会第一回資料
【論文読み会】Autoregressive Diffusion Models.pptx
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning
[DL輪読会]Focal Loss for Dense Object Detection
Curriculum Learning (関東CV勉強会)
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]DropBlock: A regularization method for convolutional networks
モデルアーキテクチャ観点からの高速化2019
POMDP下での強化学習の基礎と応用
変分推論法(変分ベイズ法)(PRML第10章)
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Ad

Recently uploaded (20)

PDF
Reach Out and Touch Someone: Haptics and Empathic Computing
DOCX
The AUB Centre for AI in Media Proposal.docx
PDF
Advanced methodologies resolving dimensionality complications for autism neur...
PDF
KodekX | Application Modernization Development
PPTX
Big Data Technologies - Introduction.pptx
PDF
Empathic Computing: Creating Shared Understanding
PDF
Machine learning based COVID-19 study performance prediction
PDF
Chapter 3 Spatial Domain Image Processing.pdf
PPT
“AI and Expert System Decision Support & Business Intelligence Systems”
PPTX
Cloud computing and distributed systems.
PDF
Architecting across the Boundaries of two Complex Domains - Healthcare & Tech...
PPTX
Spectroscopy.pptx food analysis technology
PDF
NewMind AI Weekly Chronicles - August'25 Week I
PPTX
Digital-Transformation-Roadmap-for-Companies.pptx
PDF
7 ChatGPT Prompts to Help You Define Your Ideal Customer Profile.pdf
PDF
Electronic commerce courselecture one. Pdf
PDF
MIND Revenue Release Quarter 2 2025 Press Release
PDF
Dropbox Q2 2025 Financial Results & Investor Presentation
PDF
Building Integrated photovoltaic BIPV_UPV.pdf
PDF
The Rise and Fall of 3GPP – Time for a Sabbatical?
Reach Out and Touch Someone: Haptics and Empathic Computing
The AUB Centre for AI in Media Proposal.docx
Advanced methodologies resolving dimensionality complications for autism neur...
KodekX | Application Modernization Development
Big Data Technologies - Introduction.pptx
Empathic Computing: Creating Shared Understanding
Machine learning based COVID-19 study performance prediction
Chapter 3 Spatial Domain Image Processing.pdf
“AI and Expert System Decision Support & Business Intelligence Systems”
Cloud computing and distributed systems.
Architecting across the Boundaries of two Complex Domains - Healthcare & Tech...
Spectroscopy.pptx food analysis technology
NewMind AI Weekly Chronicles - August'25 Week I
Digital-Transformation-Roadmap-for-Companies.pptx
7 ChatGPT Prompts to Help You Define Your Ideal Customer Profile.pdf
Electronic commerce courselecture one. Pdf
MIND Revenue Release Quarter 2 2025 Press Release
Dropbox Q2 2025 Financial Results & Investor Presentation
Building Integrated photovoltaic BIPV_UPV.pdf
The Rise and Fall of 3GPP – Time for a Sabbatical?

[DL輪読会]Inverse Constrained Reinforcement Learning