SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Active Domain Randomization
DeepX 吉田岳人
DL輪読会2019/05/17
2
書誌情報
• 著者
– Bhairav Mehta, Manfred Diaz, Florian Golemo, Christopher J. Pal, Liam Paull
– モントリオール大学の修士の学生
• ステータス
– Arxive, Preprint
• 投稿日
– 2019/04/09
3
概要
• 思想:
– Domainを一様にサンプリングするDomain Randomization(UDR)より、
– 難しいDomainにフォーカスしてサンプリングするDR(ADR)の方が、
– Domainに対する汎化性能が高い
• 手法:
– Domainをサンプリングする方策を用意して強化学習する
• サンプリングされたDomainに置いてタスクを解くためにも強化学習する(2種類のRLを回
す)
• 結果:
– ADRで訓練したタスク方策の性能はUDRと比べて分散が小さかった
– ADRで得られたサンプリング方策はより難しいDomainを選ぶことができていた
4
背景:Domain Randomization
• Domain Randomization(DR)は、機械学習モデルをRandomizeしたDomainで
訓練し、汎化させ、Target Domainにzero-shotで転移する手法
– 強化学習の文脈では、
• RandomizeしたDomain= RandomizeしたDomain、
• Target Domain=実機、
• として、Sim2Realすることが多い
• 通常のDR考えうるDomain群から一様にサンプリングしてモデルを学習する
• UDRは、Target Domainのみで訓練することに比べて、過剰に難しい条件で訓
練してしまい、結果として、性能が低くなってしまう問題点がある
→重要なDomainに絞って訓練したい
5
手法:
• 参照環境を用意(シミュレータのデフォルト値)
• シミュレータのパラメータをサンプリングするサンプリング方策μ
– SVPG+A2Cで学習
– 報酬は、
• ここで、サンプリングされた環境ならy=1 , 参照環境ならy=0
• サンプリングされたタスクを解くタスク方策πを用意
– DDPGで学習
– 報酬はタスクの報酬そのまま
• 識別器Dは、参照環境かどうかを0/1で出力
– (s,a,s’)の組を軌道分入力して、軌道分の出力を
平均する
※Dとサンプリング方策μはMaxMaxの関係
– 用意に局所解に陥るのでSVPGを使ってると
思われる
6
参考:Stein Variational Policy Gradient
• 複数の方策が、収益を最大化しつつ、互いに異なるパラメータ空間に分布する
よう学習する手法
• 右辺第一項は近い方策の勾配も利用してExploitation, 第二項はなるべく他の方
策から離れるExploration
– 第二項のKernelには∇ 𝜃 𝑗
𝑘(𝜃𝑗, 𝜃𝑖) = − ∇ 𝜃 𝑖
𝑘(𝜃𝑗, 𝜃𝑖)となるものを使用
• KernelにはRBF kernelを用いる
7
実験:LunarLander
• 垂直・水平方向のエンジンを使って着陸するタスク
• パラメータ:エンジンの出力
– エンジンの出力が小さいほど難しい
8
結果:LunarLander
• タスク方策の性能
– サンプリング方策により、より難しい左したの領域に着目
している(右(b))
• サンプリング方策の挙動
– サンプリング方策がより難しい、エンジンの出力が小さい
領域に
着目しているのがわかる(右下(b))
• タスク方策が解ける領域は軌道が似通
ってくるため、識別できなくなり、
サンプリング方策の報酬が下がり、
サンプリングされなくなる(本当か?)
9
実験:Pusher-3DOF
• パックをゴール位置まで押すタスク
• パラメータ:パックの摩擦・減衰係数
– 小さいほど滑りやすく難しい
10
結果: Pusher-3DOF
• タスク方策の性能
– UDRより摩擦・減衰に対してロバストなタスク方策が得られた(右
(a))
• 学習していない領域に対してUDRよりいい結果が得られた
– UDRでは破滅的忘却が生じている(下)
• サンプリング方策の挙動
– サンプリング方策により、より難しい左したの領域に着目している
(右(b))
ピンク、紫、水色の順で難しい
黒枠で囲った部分が学習に用いた箇所
11
実験:4軸ロボットアームのリーチング
• パラメータ:
– 各軸の最大トルクとゲイン
• どちらも小さい方が重力に負けるので難しい
• 結果
– Sim内(右)
– Sim2Real(下)
12
結論と感想
• 結論
– ADRで訓練したタスク方策の性能はUDRと比べて分散が小さかった
– ADRで得られたサンプリング方策はより難しいDomainを選ぶことができていた
• 感想
– タスクが解けると、軌道が似てくる、という説明が曖昧
– 行なっている実験がどれも、パラメータのどの領域が難しいのかわかる設定だったの
で、あまり旨味を感じられなかった
– 難しいタスクを中心に訓練すると性能が上がるというのを実験して示しているのは有
用

More Related Content

PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PDF
論文紹介-Multi-Objective Deep Reinforcement Learning
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
論文紹介-Multi-Objective Deep Reinforcement Learning
【メタサーベイ】数式ドリブン教師あり学習
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]ドメイン転移と不変表現に関するサーベイ

What's hot (20)

PDF
多様な強化学習の概念と課題認識
PDF
[DL輪読会]画像を使ったSim2Realの現況
PDF
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
PPTX
強化学習 DQNからPPOまで
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PDF
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PPTX
[DL輪読会]World Models
PDF
[DL輪読会]Control as Inferenceと発展
PDF
【DL輪読会】Mastering Diverse Domains through World Models
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PPTX
強化学習における好奇心
PDF
グラフニューラルネットワークとグラフ組合せ問題
PPTX
2014 3 13(テンソル分解の基礎)
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PDF
深層生成モデルと世界モデル(2020/11/20版)
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
ドメイン適応の原理と応用
多様な強化学習の概念と課題認識
[DL輪読会]画像を使ったSim2Realの現況
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
強化学習 DQNからPPOまで
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]World Models
[DL輪読会]Control as Inferenceと発展
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
強化学習における好奇心
グラフニューラルネットワークとグラフ組合せ問題
2014 3 13(テンソル分解の基礎)
【DL輪読会】Transformers are Sample Efficient World Models
深層生成モデルと世界モデル(2020/11/20版)
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
強化学習と逆強化学習を組み合わせた模倣学習
ドメイン適応の原理と応用
Ad

Similar to [DL輪読会]Active Domain Randomization (20)

PPTX
[DL輪読会]Randomized Prior Functions for Deep Reinforcement Learning
PPTX
[DL輪読会]Adversarial Representation Active Learning
PDF
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
PPTX
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
PDF
[DL輪読会]Learning Task Informed Abstractions
PDF
深層生成モデルと世界モデル
PDF
PRML学習者から入る深層生成モデル入門
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
PPTX
【DL輪読会】Reward Design with Language Models
PDF
Deeplearning lt.pdf
PDF
IIBMP2016 深層生成モデルによる表現学習
PPTX
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
PDF
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
PDF
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
PDF
[Dl輪読会]introduction of reinforcement learning
PDF
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
PDF
Generative Deep Learning #01
PPTX
"Universal Planning Networks" and "Composable Planning with Attributes"
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
[DL輪読会]Randomized Prior Functions for Deep Reinforcement Learning
[DL輪読会]Adversarial Representation Active Learning
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
[DL輪読会]Learning Task Informed Abstractions
深層生成モデルと世界モデル
PRML学習者から入る深層生成モデル入門
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
【DL輪読会】Reward Design with Language Models
Deeplearning lt.pdf
IIBMP2016 深層生成モデルによる表現学習
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[Dl輪読会]introduction of reinforcement learning
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Generative Deep Learning #01
"Universal Planning Networks" and "Composable Planning with Attributes"
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Active Domain Randomization