8
Most read
13
Most read
15
Most read
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DayDreamer: World Models for Physical Robot Learning
Yuya Ikeda, MatsuoLab B4
書誌情報
 題名
 DayDreamer: World Models for Physical Robot Learning
 著者
 Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel University
of California, Berkeley
 会議
 CoRL2022
 URL
 https://arxiv.org/pdf/2206.14176.pdf
2
概要
 実ロボットを用いたタスクをDreamerで直接学習
 実機・オンラインで数時間で学習
 4種類のタスク環境での検証を行なった
 一貫したハイパーパラメータを使用
 主要なモデルフリーRLアルゴリズムと比較実験を行い、Dreamerの有効性を検証
 実世界ロボット学習のための枠組みを示した
3
引用
https://danijar.com/project/
daydreamer/
背景
深層学習は大量のデータを用いることで高い精度を実現してきた
ロボット学習の課題・・・実機でのデータ収集コストが非常に高い
→ シミュレータの活用
高速・並列に動かせるのでデータを効率的に集められる
 シミュレータをどのように作成するか
 人が設計したシミュレータを用いる方針
 学習によって獲得したシミュレータを用いる方針
4
背景
 人が設計したシミュレータを利用したデータ収集
 環境・ロボットのモデルをシミュレータで再現しデータを集め学習
 シミュレータ(sim)で学習した方策を実機(real)で利用(sim-to-real)
 人が設計したシミュレータの課題
 sim-to-realした際に性能が発揮できない場合がある
 realの環境やモデルがsimで正確に再現できていないことに起因
 この環境差はreality gapと呼ばれる
 reality gapに対処する主な工夫
 sim環境をランダム化する (domain randomization)
 汎化性能の向上が期待できる
5 引用 : https://openai.com/blog/solving-rubiks-cube/
背景
 学習によってシミュレータを獲得する方針
 モデルベースRL
 以下を繰り返し行う
・方策に基づき行動し、環境からデータを収集
・データから環境のモデルを学習する
・学習した環境のモデル(世界モデル)から方策を更新
 世界モデルをシミュレータとして利用できるためサンプル
効率が良い
 Model-Based Reinforcement Learning for Atari
 SimPLeと呼ばれるモデルベースRLでAtariをプレイ
 モデルフリーRLと比較して数倍のサンプル効率
6
引用 : Model-Based Reinforcement Learning for Atari
背景
sim-to-real vs モデルベースRL
 sim-to-real
 reality gapが課題
 domain randomizationなどによりある程度解ける
 実機を用いたロボット学習では主流
 モデルベースRL
 正確な世界モデルを学習することが難しい
 成果はAtariなどに限られており、実ロボットへの活用はあまりなかった
→ DayDreamerが登場
7
DayDreamer
 ネットワーク
 DreamerV2
 高いサンプル効率を発揮したモデルベースRLの一種
 アルゴリズムはそのまま使用している
 タスク
 各タスクで同一のパラメータを使用
 A1 Quadruped Walking
 UR5 Multi-Object Visual Pick and Place
 XArm Visual Pick and Place
 Sphero Navigation
8
引用 : https://arxiv.org/pdf/2206.14176.pdf
A1 Quadruped Walking
 タスク詳細
 12DOFの4脚ロボットで歩行を行うタスク
 入力はモータの角度、姿勢、角速度
 アクションは各モータの角度
 初期状態は仰向けになった状態
 報酬
9
Unitree A1
A1 Quadruped Walking
 実装上の工夫
 訓練可能な領域の端に到達したら、ロボットの姿勢を変えず手動で位置を戻す (リ
セットを用いない)
 ロボットが転がりやすいようにシェルを3Dプリンタで作成
 結果
 1時間後には前進するように
 10分の追加学習で外乱に耐えるように
 SACは立ち上がることができなかった
10
引用 : https://www.youtube.com/watch?v=A6Rg0qRwTYs
引用 : https://arxiv.org/pdf/2206.14176.pdf
UR5 Multi-Object Visual Pick and Place
 タスク詳細
 5DOFのロボットアームで複数物体のpick and placeを行うタスク
 片方の容器からもう片方の容器へ移動させることが目標
 入力はロボットの位置、RGB画像
 アクションはグリッパのx, y, zの変位とグリッパの開閉
 報酬
 物体をつかむと+1
 つかんだ物体を同じ容器内で離してしまうと-1
 つかんだ物体を異なる容器内で離すと+10
 結果
 8時間後に人がテレオペした時に近い性能
 RainbowやPPOは物体をつかんでも同じ容器に落としてしまう
11
引用 : https://arxiv.org/pdf/2206.14176.pdf
XArm Visual Pick and Place
 タスク詳細
 7DOFのロボットアームで単一物体のpick and placeを行うタスク
 片方の容器からもう片方の容器へ移動させることが目標
 紐でロボットアームと物体を接続
 物体が角でスタックしないようにするための工夫
 入力はロボットの位置、RGB画像、Depth画像
 アクション、報酬はUR5の実験と同様
 結果
 10時間後に人がテレオペした時に近い性能
 Rainbowでは学習できなかった
12
引用 : https://arxiv.org/pdf/2206.14176.pdf
XArm Visual Pick and Place
 結果
 照明条件が大きく変化した際性能が低下するが、5時間ほどで元の水準に
 Dreamerが適応的に学習していることを示している
 ここはあまり意義がわからなかった
 RGBに加えてDepthを入力している影響はどれくらいなのか
 Depthを使っていないUR5の方は照明条件に関する言及はない
13
引用 : https://arxiv.org/pdf/2206.14176.pdf
Sphero Navigation
 タスク詳細
 車輪付きロボットを目標位置までナビゲーションするタスク
 ロボットは左右対称なので観測履歴から方向を推定する必要がある
 入力はRGB画像
 アクションはロボットのトルク
 報酬
 ゴールとのL2距離を負にした値
 結果
 2時間でナビゲーションができるように
 DrQv2でも近い性能を達成
 DrQv2 : 画像ベース連続値制御モデルフリーRLアルゴリズム
14
引用 : https://arxiv.org/pdf/2206.14176.pdf
まとめ・感想
 実世界ロボットを用いたタスクをDreamerで直接学習
 モデルベースRLを用いることで低時間(〜10h)で実機のみで学習が可能
 Dreamerをそのまま適用してきちんと動作しているのが驚き
 実世界ロボット学習のための枠組みを示した
 実機を使って世界モデルを学習する新しいアプローチ
 人が設計するシミュレータと世界モデルをうまく組み合わせることができるとより高度
なことができそう
 ハードウェアや設定に論文に明示されていないトリックがありそう
 コードが公開されている&A1が利用できるので動かしてみたい
 本当は輪読会までに動かしたいと思っていたが準備が間に合わなかった
15

More Related Content

PPTX
[DL輪読会]World Models
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PDF
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
PDF
【DL輪読会】Mastering Diverse Domains through World Models
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]World Models
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
【DL輪読会】A Path Towards Autonomous Machine Intelligence
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Mastering Diverse Domains through World Models
[DL輪読会]Learning Latent Dynamics for Planning from Pixels

What's hot (20)

PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PDF
ドメイン適応の原理と応用
PDF
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
PDF
GAN(と強化学習との関係)
PDF
画像生成・生成モデル メタサーベイ
PPTX
backbone としての timm 入門
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PDF
[DL輪読会]Deep Learning 第15章 表現学習
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
PPTX
Curriculum Learning (関東CV勉強会)
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PPTX
近年のHierarchical Vision Transformer
PPTX
【DL輪読会】Hopfield network 関連研究について
PDF
実装レベルで学ぶVQVAE
PDF
Skip Connection まとめ(Neural Network)
PDF
【DL輪読会】Implicit Behavioral Cloning
PDF
【DL輪読会】Segment Anything
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
最適輸送の解き方
【DL輪読会】Transformers are Sample Efficient World Models
ドメイン適応の原理と応用
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
GAN(と強化学習との関係)
画像生成・生成モデル メタサーベイ
backbone としての timm 入門
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
[DL輪読会]Deep Learning 第15章 表現学習
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Curriculum Learning (関東CV勉強会)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
近年のHierarchical Vision Transformer
【DL輪読会】Hopfield network 関連研究について
実装レベルで学ぶVQVAE
Skip Connection まとめ(Neural Network)
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Segment Anything
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
最適輸送の解き方
Ad

Similar to 【DL輪読会】DayDreamer: World Models for Physical Robot Learning (20)

PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
PPTX
「機械学習とは?」から始める Deep learning実践入門
PDF
Ibis2016okanohara
PPTX
全脳関西編(松尾)
PDF
[DL輪読会]画像を使ったSim2Realの現況
PPTX
Hello deeplearning!
PDF
実社会・実環境におけるロボットの機械学習
PDF
Deep learningの概要とドメインモデルの変遷
PDF
Generative deeplearning #02
PDF
Akira shibata at developer summit 2016
PDF
実社会・実環境におけるロボットの機械学習 ver. 2
PDF
Deep Learningの基礎と応用
PPTX
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
PDF
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
PDF
[DL輪読会]Learning to Act by Predicting the Future
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PPTX
Robogen論文よみ勉強会の資料。論文の内容と使われている技術の整理をざっくりと説明
PDF
[DL輪読会]Learning Task Informed Abstractions
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
「機械学習とは?」から始める Deep learning実践入門
Ibis2016okanohara
全脳関西編(松尾)
[DL輪読会]画像を使ったSim2Realの現況
Hello deeplearning!
実社会・実環境におけるロボットの機械学習
Deep learningの概要とドメインモデルの変遷
Generative deeplearning #02
Akira shibata at developer summit 2016
実社会・実環境におけるロボットの機械学習 ver. 2
Deep Learningの基礎と応用
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
[DL輪読会]Learning to Act by Predicting the Future
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Robogen論文よみ勉強会の資料。論文の内容と使われている技術の整理をざっくりと説明
[DL輪読会]Learning Task Informed Abstractions
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...

【DL輪読会】DayDreamer: World Models for Physical Robot Learning

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ DayDreamer: World Models for Physical Robot Learning Yuya Ikeda, MatsuoLab B4
  • 2. 書誌情報  題名  DayDreamer: World Models for Physical Robot Learning  著者  Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel University of California, Berkeley  会議  CoRL2022  URL  https://arxiv.org/pdf/2206.14176.pdf 2
  • 3. 概要  実ロボットを用いたタスクをDreamerで直接学習  実機・オンラインで数時間で学習  4種類のタスク環境での検証を行なった  一貫したハイパーパラメータを使用  主要なモデルフリーRLアルゴリズムと比較実験を行い、Dreamerの有効性を検証  実世界ロボット学習のための枠組みを示した 3 引用 https://danijar.com/project/ daydreamer/
  • 5. 背景  人が設計したシミュレータを利用したデータ収集  環境・ロボットのモデルをシミュレータで再現しデータを集め学習  シミュレータ(sim)で学習した方策を実機(real)で利用(sim-to-real)  人が設計したシミュレータの課題  sim-to-realした際に性能が発揮できない場合がある  realの環境やモデルがsimで正確に再現できていないことに起因  この環境差はreality gapと呼ばれる  reality gapに対処する主な工夫  sim環境をランダム化する (domain randomization)  汎化性能の向上が期待できる 5 引用 : https://openai.com/blog/solving-rubiks-cube/
  • 6. 背景  学習によってシミュレータを獲得する方針  モデルベースRL  以下を繰り返し行う ・方策に基づき行動し、環境からデータを収集 ・データから環境のモデルを学習する ・学習した環境のモデル(世界モデル)から方策を更新  世界モデルをシミュレータとして利用できるためサンプル 効率が良い  Model-Based Reinforcement Learning for Atari  SimPLeと呼ばれるモデルベースRLでAtariをプレイ  モデルフリーRLと比較して数倍のサンプル効率 6 引用 : Model-Based Reinforcement Learning for Atari
  • 7. 背景 sim-to-real vs モデルベースRL  sim-to-real  reality gapが課題  domain randomizationなどによりある程度解ける  実機を用いたロボット学習では主流  モデルベースRL  正確な世界モデルを学習することが難しい  成果はAtariなどに限られており、実ロボットへの活用はあまりなかった → DayDreamerが登場 7
  • 8. DayDreamer  ネットワーク  DreamerV2  高いサンプル効率を発揮したモデルベースRLの一種  アルゴリズムはそのまま使用している  タスク  各タスクで同一のパラメータを使用  A1 Quadruped Walking  UR5 Multi-Object Visual Pick and Place  XArm Visual Pick and Place  Sphero Navigation 8 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 9. A1 Quadruped Walking  タスク詳細  12DOFの4脚ロボットで歩行を行うタスク  入力はモータの角度、姿勢、角速度  アクションは各モータの角度  初期状態は仰向けになった状態  報酬 9 Unitree A1
  • 10. A1 Quadruped Walking  実装上の工夫  訓練可能な領域の端に到達したら、ロボットの姿勢を変えず手動で位置を戻す (リ セットを用いない)  ロボットが転がりやすいようにシェルを3Dプリンタで作成  結果  1時間後には前進するように  10分の追加学習で外乱に耐えるように  SACは立ち上がることができなかった 10 引用 : https://www.youtube.com/watch?v=A6Rg0qRwTYs 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 11. UR5 Multi-Object Visual Pick and Place  タスク詳細  5DOFのロボットアームで複数物体のpick and placeを行うタスク  片方の容器からもう片方の容器へ移動させることが目標  入力はロボットの位置、RGB画像  アクションはグリッパのx, y, zの変位とグリッパの開閉  報酬  物体をつかむと+1  つかんだ物体を同じ容器内で離してしまうと-1  つかんだ物体を異なる容器内で離すと+10  結果  8時間後に人がテレオペした時に近い性能  RainbowやPPOは物体をつかんでも同じ容器に落としてしまう 11 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 12. XArm Visual Pick and Place  タスク詳細  7DOFのロボットアームで単一物体のpick and placeを行うタスク  片方の容器からもう片方の容器へ移動させることが目標  紐でロボットアームと物体を接続  物体が角でスタックしないようにするための工夫  入力はロボットの位置、RGB画像、Depth画像  アクション、報酬はUR5の実験と同様  結果  10時間後に人がテレオペした時に近い性能  Rainbowでは学習できなかった 12 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 13. XArm Visual Pick and Place  結果  照明条件が大きく変化した際性能が低下するが、5時間ほどで元の水準に  Dreamerが適応的に学習していることを示している  ここはあまり意義がわからなかった  RGBに加えてDepthを入力している影響はどれくらいなのか  Depthを使っていないUR5の方は照明条件に関する言及はない 13 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 14. Sphero Navigation  タスク詳細  車輪付きロボットを目標位置までナビゲーションするタスク  ロボットは左右対称なので観測履歴から方向を推定する必要がある  入力はRGB画像  アクションはロボットのトルク  報酬  ゴールとのL2距離を負にした値  結果  2時間でナビゲーションができるように  DrQv2でも近い性能を達成  DrQv2 : 画像ベース連続値制御モデルフリーRLアルゴリズム 14 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 15. まとめ・感想  実世界ロボットを用いたタスクをDreamerで直接学習  モデルベースRLを用いることで低時間(〜10h)で実機のみで学習が可能  Dreamerをそのまま適用してきちんと動作しているのが驚き  実世界ロボット学習のための枠組みを示した  実機を使って世界モデルを学習する新しいアプローチ  人が設計するシミュレータと世界モデルをうまく組み合わせることができるとより高度 なことができそう  ハードウェアや設定に論文に明示されていないトリックがありそう  コードが公開されている&A1が利用できるので動かしてみたい  本当は輪読会までに動かしたいと思っていたが準備が間に合わなかった 15