Submit Search
[DL輪読会]Active Domain Randomization
Download as PPTX, PDF
2 likes
1,333 views
Deep Learning JP
2019/05/17 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
Related topics:
Deep Learning
Read more
1 of 12
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
More Related Content
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
PDF
論文紹介-Multi-Objective Deep Reinforcement Learning
Shunta Nomura
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
論文紹介-Multi-Objective Deep Reinforcement Learning
Shunta Nomura
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
What's hot
(20)
PDF
多様な強化学習の概念と課題認識
佑 甲野
PDF
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
PDF
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP
PPTX
強化学習 DQNからPPOまで
harmonylab
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
PDF
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
Preferred Networks
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
PPTX
[DL輪読会]World Models
Deep Learning JP
PDF
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
PDF
【DL輪読会】Mastering Diverse Domains through World Models
Deep Learning JP
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
PPTX
強化学習における好奇心
Shota Imai
PDF
グラフニューラルネットワークとグラフ組合せ問題
joisino
PPTX
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
PDF
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
PDF
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
PDF
ドメイン適応の原理と応用
Yoshitaka Ushiku
多様な強化学習の概念と課題認識
佑 甲野
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP
強化学習 DQNからPPOまで
harmonylab
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
Preferred Networks
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
[DL輪読会]World Models
Deep Learning JP
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
【DL輪読会】Mastering Diverse Domains through World Models
Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
強化学習における好奇心
Shota Imai
グラフニューラルネットワークとグラフ組合せ問題
joisino
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
ドメイン適応の原理と応用
Yoshitaka Ushiku
Ad
Similar to [DL輪読会]Active Domain Randomization
(20)
PPTX
[DL輪読会]Randomized Prior Functions for Deep Reinforcement Learning
Deep Learning JP
PPTX
[DL輪読会]Adversarial Representation Active Learning
Deep Learning JP
PDF
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
Deep Learning JP
PPTX
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
Yusuke Iwasawa
PDF
[DL輪読会]Learning Task Informed Abstractions
Deep Learning JP
PDF
深層生成モデルと世界モデル
Masahiro Suzuki
PDF
PRML学習者から入る深層生成モデル入門
tmtm otm
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
PPTX
【DL輪読会】Reward Design with Language Models
Deep Learning JP
PDF
Deeplearning lt.pdf
Deep Learning JP
PDF
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
PPTX
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
Deep Learning JP
PDF
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
Deep Learning JP
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
PDF
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
Deep Learning JP
PDF
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
PDF
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
PDF
Generative Deep Learning #01
逸人 米田
PPTX
"Universal Planning Networks" and "Composable Planning with Attributes"
Yusuke Iwasawa
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
Deep Learning JP
[DL輪読会]Randomized Prior Functions for Deep Reinforcement Learning
Deep Learning JP
[DL輪読会]Adversarial Representation Active Learning
Deep Learning JP
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
Deep Learning JP
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
Yusuke Iwasawa
[DL輪読会]Learning Task Informed Abstractions
Deep Learning JP
深層生成モデルと世界モデル
Masahiro Suzuki
PRML学習者から入る深層生成モデル入門
tmtm otm
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
【DL輪読会】Reward Design with Language Models
Deep Learning JP
Deeplearning lt.pdf
Deep Learning JP
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
Deep Learning JP
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
Deep Learning JP
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
Deep Learning JP
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
Generative Deep Learning #01
逸人 米田
"Universal Planning Networks" and "Composable Planning with Attributes"
Yusuke Iwasawa
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
Deep Learning JP
Ad
More from Deep Learning JP
(20)
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
[DL輪読会]Active Domain Randomization
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ Active Domain Randomization DeepX 吉田岳人 DL輪読会2019/05/17
2.
2 書誌情報 • 著者 – Bhairav
Mehta, Manfred Diaz, Florian Golemo, Christopher J. Pal, Liam Paull – モントリオール大学の修士の学生 • ステータス – Arxive, Preprint • 投稿日 – 2019/04/09
3.
3 概要 • 思想: – Domainを一様にサンプリングするDomain
Randomization(UDR)より、 – 難しいDomainにフォーカスしてサンプリングするDR(ADR)の方が、 – Domainに対する汎化性能が高い • 手法: – Domainをサンプリングする方策を用意して強化学習する • サンプリングされたDomainに置いてタスクを解くためにも強化学習する(2種類のRLを回 す) • 結果: – ADRで訓練したタスク方策の性能はUDRと比べて分散が小さかった – ADRで得られたサンプリング方策はより難しいDomainを選ぶことができていた
4.
4 背景:Domain Randomization • Domain
Randomization(DR)は、機械学習モデルをRandomizeしたDomainで 訓練し、汎化させ、Target Domainにzero-shotで転移する手法 – 強化学習の文脈では、 • RandomizeしたDomain= RandomizeしたDomain、 • Target Domain=実機、 • として、Sim2Realすることが多い • 通常のDR考えうるDomain群から一様にサンプリングしてモデルを学習する • UDRは、Target Domainのみで訓練することに比べて、過剰に難しい条件で訓 練してしまい、結果として、性能が低くなってしまう問題点がある →重要なDomainに絞って訓練したい
5.
5 手法: • 参照環境を用意(シミュレータのデフォルト値) • シミュレータのパラメータをサンプリングするサンプリング方策μ –
SVPG+A2Cで学習 – 報酬は、 • ここで、サンプリングされた環境ならy=1 , 参照環境ならy=0 • サンプリングされたタスクを解くタスク方策πを用意 – DDPGで学習 – 報酬はタスクの報酬そのまま • 識別器Dは、参照環境かどうかを0/1で出力 – (s,a,s’)の組を軌道分入力して、軌道分の出力を 平均する ※Dとサンプリング方策μはMaxMaxの関係 – 用意に局所解に陥るのでSVPGを使ってると 思われる
6.
6 参考:Stein Variational Policy
Gradient • 複数の方策が、収益を最大化しつつ、互いに異なるパラメータ空間に分布する よう学習する手法 • 右辺第一項は近い方策の勾配も利用してExploitation, 第二項はなるべく他の方 策から離れるExploration – 第二項のKernelには∇ 𝜃 𝑗 𝑘(𝜃𝑗, 𝜃𝑖) = − ∇ 𝜃 𝑖 𝑘(𝜃𝑗, 𝜃𝑖)となるものを使用 • KernelにはRBF kernelを用いる
7.
7 実験:LunarLander • 垂直・水平方向のエンジンを使って着陸するタスク • パラメータ:エンジンの出力 –
エンジンの出力が小さいほど難しい
8.
8 結果:LunarLander • タスク方策の性能 – サンプリング方策により、より難しい左したの領域に着目 している(右(b)) •
サンプリング方策の挙動 – サンプリング方策がより難しい、エンジンの出力が小さい 領域に 着目しているのがわかる(右下(b)) • タスク方策が解ける領域は軌道が似通 ってくるため、識別できなくなり、 サンプリング方策の報酬が下がり、 サンプリングされなくなる(本当か?)
9.
9 実験:Pusher-3DOF • パックをゴール位置まで押すタスク • パラメータ:パックの摩擦・減衰係数 –
小さいほど滑りやすく難しい
10.
10 結果: Pusher-3DOF • タスク方策の性能 –
UDRより摩擦・減衰に対してロバストなタスク方策が得られた(右 (a)) • 学習していない領域に対してUDRよりいい結果が得られた – UDRでは破滅的忘却が生じている(下) • サンプリング方策の挙動 – サンプリング方策により、より難しい左したの領域に着目している (右(b)) ピンク、紫、水色の順で難しい 黒枠で囲った部分が学習に用いた箇所
11.
11 実験:4軸ロボットアームのリーチング • パラメータ: – 各軸の最大トルクとゲイン •
どちらも小さい方が重力に負けるので難しい • 結果 – Sim内(右) – Sim2Real(下)
12.
12 結論と感想 • 結論 – ADRで訓練したタスク方策の性能はUDRと比べて分散が小さかった –
ADRで得られたサンプリング方策はより難しいDomainを選ぶことができていた • 感想 – タスクが解けると、軌道が似てくる、という説明が曖昧 – 行なっている実験がどれも、パラメータのどの領域が難しいのかわかる設定だったの で、あまり旨味を感じられなかった – 難しいタスクを中心に訓練すると性能が上がるというのを実験して示しているのは有 用
Download