DEEP LEARNING JP
[DL Papers]
V-MPO: On-Policy Maximum a Posteriori Policy
Optimization for Discrete and Continuous Control
Hiroki Furuta
http://deeplearning.jp/
書誌情報
• タイトル: V-MPO: On-Policy Maximum a Posteriori Policy Optimization for
Discrete and Continuous Control
• 著者: H. Francis Song, Abbas Abdolmaleki, Jost Tobias Springenberg, Aidan Clark, Hubert Soyer, Jack W. Rae, Seb
Noury, Arun Ahuja, Siqi Liu, Dhruva Tirumala, Nicolas Heess, Dan Belov, Martin Riedmiller, Matthew M. Botvinick
• 所属: DeepMind
• URL: https://arxiv.org/abs/1909.12238
• 概要: On-Policyの方策勾配法は, 勾配の分散の大きさやエントロピー正則
化の調整で性能が制限されていた. 方策勾配法の代替として, EMアルゴリ
ズムによる方策反復法のV-MPOを提案した.
2
研究背景
• 深層学習×強化学習によって様々な分野で人間を超えた
Dota2[OpenAI 2018], Capture the Flag[Jaderberg+ 2019], StarCraftⅡ[DeepMind 2019], In-Hand
Manipulation[OpenAI 2018]など
• これらにはOn-Policyの方策勾配法ベースの手法が用いられてきた
Proximal Policy Optimization(PPO)[Schulman+ 2017], Importance-Weighted Actor-Learner
Architecture(IMPALA) [Espeholt+ 2018]など
• On-Policyの方策勾配法にはいくつか課題が存在
3
研究背景
• 特に高次元行動空間の場合, 方策勾配法は勾配の分散が大きいことがパ
フォーマンスを制約してしまう
• また実装上, エントロピー正則化項のチューニングが重要となる
• 方策勾配法とは別のアプローチとして, まず更新のターゲットとなる最適な
方策を計算し, そのターゲット方策に近づける方向にパラメータを更新する
方法がOff-Policyの手法で存在
Maximum a Posteriori Policy Optimisation (MPO)[Abdolmaleki+ 2018]
方策勾配法は, 方策勾配の方向に従って直接パラメータを更新する
4
問題設定
• 通常の強化学習と同じく, 状態𝑠, 行動𝑎, 初期状態分布𝜌(𝑠0), 遷移確率
𝑝(𝑠′|𝑠, 𝑎), 報酬関数𝑟(𝑠, 𝑎), 割引率𝛾 ∈ [0, 1]からなるマルコフ決定過程
(MDP)の下で方策𝜋 𝜃(𝑎|𝑠)を最適化
 𝜃はニューラルネットワークのパラメータ
• 強化学習は累積期待報酬を最大にする方策を見つける問題
5
V-MPOの大まかなPseudo Algorism
V-MPOは以下を反復する方策反復法として考えられる
• Policy Evaluation
状態価値関数𝑉(𝑠)を学習
• Policy Improvement
EMアルゴリズムによって方策を改善
E-Step:更新のターゲットとなる最適な方策をKL制約の下で求める
M-Step:ターゲット方策に近づく方向にKL制約の下でパラメータを更新する
6
関連研究
• パラメータの更新幅をKL制約によって制限
TRPO[Schuluman+ 2015], PPO[Schulman+ 2017]: V-MPOのE-StepのKL制約に相当
• 強化学習×EMアルゴリズム
MPO[Abdolmaleki+ 2018]: Off-Policyバージョン, Q関数を用いる
REPS[Peters+ 2010]: M-StepにKL制約を用いる, NNではうまく行ってない
他にもRWR[Peters+ 2007]などもEMアルゴリズムによる
• Policy ImprovementがSPU[Vuong+ 2019]と類似
M-Stepの最適化の違いによりSPUのアルゴリズムはPPOに近い
7
Policy Evaluation
• n-step先まで考慮したTD学習で状態価値関数𝑉(𝑠)を学習
• Policy Improvementで用いるAdvantage関数:
• PopArt[van Hasselt+ 2016]による価値の正規化を用いる
Taskごとに報酬のスケールが異なるMulti-taskの設定で提案された手法
8
Policy Improvement in V-MPO
• 方策が改善すれば𝐼 = 1, 改善しなければ0のbinary変数𝐼を導入
• 𝐼 = 1で条件付けられた方策のパラメータ𝜃の事後分布(posterior
distribution)を考える. ただし,
• 次の等式において, 𝑋 → 𝐼, 𝑍 → 𝑠, 𝑎とする
• E-stepで𝜓でKLを最小化, M-Stepで𝜃で下界を最大化して学習 9
下界(Lower Bound) KL
E-Step
• E-Stepでは下界がlog 𝑝 𝜃(𝐼 = 1)にできるだけ近づくように, つまりKLダイ
バージェンスを最小化するような𝜓を選ぶ
• つまり,
10
E-Step
• これは, state-actionの確率を方策が改善する確率で重み付けしていると
みなせる
• 直感的に考えると, それぞれの状態で高いadvantageの行動が選ばれてい
るときに,方策が改善する確率は大きいはず
11
E-Step
• 厳密には,𝜓は次の制約付き最適化問題のラグランジュ関数を解くことで求
められる
• E-Stepでは,𝜓について最適化, つまり温度(temperature)𝜂について最適化
を行う(双対関数の最小化)
12
ラグランジュ関数
M-Step
• M-Stepでは事前分布の項log 𝑝(𝜃)を含めて下界の最大化を行う
• 事前分布の項を考えずに, 𝜃に依存する項のみ取り出す
→方策のパラメータ𝜃に関する, 重みつきの最尤推定のような形に書ける
→方策勾配法とは異なった更新方法 13
M-Step
• 事前分布の項を次のように近似
事前分布に平均𝜇 = 𝜃 𝑜𝑙𝑑, 分散Σ−1 = 𝛼𝐹(𝜃 𝑜𝑙𝑑)の正規分布を仮定した場合に相当
• よって, M-Stepでは次の制約付き最適化問題を解けばよいことになる
• E-Step同様にラグランジュ関数を考えるが, M-Stepではラグランジュ乗数𝛼
を座標降下法(Coordinate descent)によって最適化
14
sgはstop gradientの意味
ラグランジュ関数
実験: Multi-task DMLab-30/Atari-57
• Discrete ControlのMulti-taskの設定で比較
IMPALAはpopulation-based training(PBT)を用いてハイパラを調整
R2D2+は個々の環境で学習したもの
15
実験: DMLab-30
• DMLab-30の4つのタスクに関して既存手法/人間と比較
16
実験: Atari-57
• Atari-57の4つのタスクに関して既存手法(R2D2)と比較
LSTMの代わりにTransformer-XL(TrXL)を用いている
17
実験: Continuous Control
• Humanoid run(22-dim)/gaps(56-dim), MuJoCo Ant-v1, Walker2d-v1で
DDPG, SVG, MPO, PPO, SACらと比較
• Off-PolicyのMPOやSACは100倍以上サンプル効率が高いが, 最終的なパ
フォーマンスはOn-PolicyのV-MPOの方が高い
18
まとめ
• 方策勾配法の代替として, EMアルゴリズムによる方策反復法のV-MPOを
提案した.
• Discrete ControlのDMLab-30, Atari-57やMulti-taskの設定, Continuous
Controlのそれぞれの実験で既存手法を上回る
• EMアルゴリズムによる方策反復法のアプローチが, 既存の方策勾配法や
Actor-Criticの手法より良い可能性がある
19

More Related Content

PDF
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
[DL輪読会]Flow-based Deep Generative Models
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
PDF
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
PDF
[DL輪読会]Control as Inferenceと発展
PDF
多様な強化学習の概念と課題認識
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
[DL輪読会]Flow-based Deep Generative Models
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]Control as Inferenceと発展
多様な強化学習の概念と課題認識

What's hot (20)

PDF
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PDF
強化学習その2
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
PPTX
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PPTX
強化学習 DQNからPPOまで
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PDF
BERT入門
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PPTX
強化学習アルゴリズムPPOの解説と実験
PDF
深層生成モデルと世界モデル
PDF
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
PDF
ベータ分布の謎に迫る
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PDF
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PDF
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
強化学習その2
Transformerを多層にする際の勾配消失問題と解決法について
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
強化学習 DQNからPPOまで
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
強化学習と逆強化学習を組み合わせた模倣学習
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
BERT入門
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
強化学習アルゴリズムPPOの解説と実験
深層生成モデルと世界モデル
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
ベータ分布の謎に迫る
【論文紹介】How Powerful are Graph Neural Networks?
機械学習モデルの判断根拠の説明(Ver.2)
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Ad

[DL輪読会]V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control