SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
Code as Policies: Language Model Programs
for Embodied Control
Keno Harada, M2, the University of Tokyo
http://deeplearning.jp/
書誌情報
論文名 Code as Policies: Language Model Programs for Embodied Control
著者 Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian
Ichter, Pete Florence, Andy Zeng (Robotics at Google)
概要 大規模言語モデルによるプログラム生成を用いて、指示文のコメントと小サンプ
ルのプロンプトからロボットの行動方策のプログラムを生成. あらかじめ準備する
行動、認識APIとプロンプト文を工夫することによりPerception-actionのフィー
ドバックループを必要とするようなタスクに応じた行動方策の記述を可能に.
Link https://code-as-policies.github.io/
https://ai.googleblog.com/2022/11/robots-that-write-their-own-
code.html
2
背景: 大規模言語モデルを用いたプランニング +
行動の課題
Perception-actionのフィードバックループを必要とするようなタス
ク(指示文)に応じた行動方策を柔軟に設計できない
• スキルをあらかじめ準備し、タスクプランニングを大規模言語モデルに
任せる(SayCanなど)
- あらかじめ準備したスキルの選択、順序を決めるのみ
- スキルの追加は大量のデータを用いたBC, RLが必要
現状のパイプラインで実行できないタスク
• 知覚と行動が結びついているタスク: “オレンジが見えたらリンゴを置い
て”
• 常識を反映するようなタスク: “より早く動いて”
• 空間の相対関係を考慮するタスク: “リンゴをもう少し左に動かして”
3
大規模言語モデルを用いたプログラム生成に着目
4
プロンプト
指示文
出力
From Code as Policies: Language Model Programs for Embodied Control
関連研究:大規模言語モデルを使用してタスクのサブタスクを記述、場面
に合わせたサブタスクの選択
5
From Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
関連研究:大規模言語モデルへ物体検出結果の組み
込み
6
From Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language
関連研究: 言語モデルを使用したプログラム生成
7
From Evaluating Large Language Models Trained on Code
関連研究との違い
8
From Code as Policies: Language Model Programs for Embodied Control
提案手法
• Prompting Language Model Programs
- Promptの構成要素
• Example Language Model Programs(Low‒level)
- Code-writing LLMの使用による学習データ中のthird-party library
の使用
- 関数名の工夫とHint/Examplesの工夫による自前libraryの使用
- タスク指示文とcodeを結びつけるLanguage reasoning
• Example Language Model Programs(High-level)
- while loop, nested function, hierarchically generation
9
Promptの構成要素
• Hints
- どのAPIが呼び出し可能か、そのAPIがどのように呼び出しうるかの
type hints
import numpy as np
from utils import get̲obj̲names, put̲first̲on̲second
• Examples
- 自然言語の指示文(#コメント)とそれを遂行するプログラムとのペア
- プロンプトに過去の指示とプログラム例を含めていくことで、”undo
the last action“というような指示も行える
10
Low-level
11
From Code as Policies: Language Model Programs for Embodied Control
Third-party library
Low-level
12
From Code as Policies: Language Model Programs for Embodied Control
自前ライブラリ
Language reasoning
High-level: control flow
13
From Code as Policies: Language Model Programs for Embodied Control
High-level: nested function
14
From Code as Policies: Language Model Programs for Embodied Control
High-level: Hierarchical generation
15
From Code as Policies: Language Model Programs for Embodied Control
High-level
16
From Code as Policies: Language Model Programs for Embodied Control
実験
• 階層的なプログラム生成の工夫の有効性の確認
- Code-Generation Benchmarksにおいてプログラム生成そのもの
の質の確認
• マニピュレーションタスクにおいて既存手法との比較
• 提案手法が異なるロボットにおいても容易に適用可能であることの確認
17
RoboCodeGenを新しく提案・評価
空間情報、幾何情報を考慮したプログラム生成問題の追加
生成結果に含まれるプログラムに外部ライブラリの使用許可・推奨
Docstingなし
18
From Code as Policies: Language Model Programs for Embodied Control
Flat vs Hierarchical(未定義の関数使用)
19
From Code as Policies: Language Model Programs for Embodied Control
このpromptにおける階層の工夫が提案手法での独特な工夫
既存手法より高い汎化性能を確認
• 階層的なプログラム生成の工夫の有効性の確認
- Code-Generation Benchmarksにおいてプログラム生成そのもの
の質の確認
U: Unseen, S: Seen, A: Attribute(物体の特徴), I: Instruction(指示文)
20
From Code as Policies: Language Model Programs for Embodied Control
既存手法より高い汎化性能を確認
21
From Code as Policies: Language Model Programs for Embodied Control
既存手法より高い汎化性能を確認
22
From Code as Policies: Language Model Programs for Embodied Control
Mobile Manipulatorへの適用
23
# take the coca cola can from the cart and put it in the middle of the fruits on the table.
From Code as Policies: Language Model Programs for Embodied Control
おまけ
24
From Code as Policies: Language Model Programs for Embodied Control
まとめ
指示文のコメントと小サンプルのプロンプトからロボットの行動方策の
プログラムを生成. あらかじめ準備する行動、認識APIとプロンプト文を
工夫.
Limitation
あらかじめ準備するAPI, プロンプト文に制限される
Exampleにない抽象度の行動は苦手らしい
感想
プロンプトエンジニアの記述力が試される(appendix Aオモロイ)
25

More Related Content

PDF
「世界モデル」と関連研究について
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PPTX
強化学習における好奇心
PDF
Pythonではじめる OpenAI Gymトレーニング
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
近年のHierarchical Vision Transformer
PDF
Transformerを多層にする際の勾配消失問題と解決法について
「世界モデル」と関連研究について
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
強化学習における好奇心
Pythonではじめる OpenAI Gymトレーニング
[DL輪読会]相互情報量最大化による表現学習
近年のHierarchical Vision Transformer
Transformerを多層にする際の勾配消失問題と解決法について

What's hot (20)

PPTX
モデルアーキテクチャ観点からの高速化2019
PDF
GAN(と強化学習との関係)
PDF
深層生成モデルと世界モデル
PDF
SSII2019企画: 点群深層学習の研究動向
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PPTX
【DL輪読会】マルチモーダル 基盤モデル
PPTX
Triplet Loss 徹底解説
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PDF
Active Learning 入門
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PDF
0から理解するニューラルネットアーキテクチャサーチ(NAS)
PDF
数学で解き明かす深層学習の原理
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
CVPR2019読み会@関東CV
PDF
IIBMP2016 深層生成モデルによる表現学習
PDF
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PDF
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
モデルアーキテクチャ観点からの高速化2019
GAN(と強化学習との関係)
深層生成モデルと世界モデル
SSII2019企画: 点群深層学習の研究動向
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
強化学習と逆強化学習を組み合わせた模倣学習
【DL輪読会】マルチモーダル 基盤モデル
Triplet Loss 徹底解説
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Active Learning 入門
【DL輪読会】時系列予測 Transfomers の精度向上手法
0から理解するニューラルネットアーキテクチャサーチ(NAS)
数学で解き明かす深層学習の原理
Semi supervised, weakly-supervised, unsupervised, and active learning
【論文紹介】How Powerful are Graph Neural Networks?
CVPR2019読み会@関東CV
IIBMP2016 深層生成モデルによる表現学習
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
Ad

Similar to 【DL輪読会】Code as Policies: Language Model Programs for Embodied Control (20)

PDF
Force.com開発基礎
PDF
Case study of DevOps for Hadoop in Recruit.
PDF
Case study of DevOps for Hadoop in Recruit.
PDF
OSSを利用したプロジェクト管理
PDF
アイデアを形にする ③3時間でアプリ公開!ゼロからのプログラミング講座
PPTX
NAO/Pepper 開発環境 について
PDF
2005 re-reverse engineering goal models from legacy code
PDF
三位一体の自動化で壊せ DevとOpsの壁~アラサーエンジニアの挑戦~
PDF
concrete5で社内システムのお話し
PPTX
サービス開発における工程
PPTX
Azure serverless!! azure functionsでサーバーを意識しない開発
PPTX
Klocworkのご紹介
PDF
2012年度中鉢PBLシラバス
PDF
Developer-Controlled Packages (DCPs) を試してみた
PPTX
コンテナ&サーバーレス:トレンドの考察と少し先の未来の展望
PDF
CodeIgniter 〜 2008年大躍進のPHPフレームワーク
PDF
Azure Webinar Cognitive Services Overview_20170831
PDF
テスト勉強会よしおか100311 1
PDF
20111203 gdd2011フィードバック 公開用
PDF
SQLアンチパターン「ディプロマティック・イミュニティ」
Force.com開発基礎
Case study of DevOps for Hadoop in Recruit.
Case study of DevOps for Hadoop in Recruit.
OSSを利用したプロジェクト管理
アイデアを形にする ③3時間でアプリ公開!ゼロからのプログラミング講座
NAO/Pepper 開発環境 について
2005 re-reverse engineering goal models from legacy code
三位一体の自動化で壊せ DevとOpsの壁~アラサーエンジニアの挑戦~
concrete5で社内システムのお話し
サービス開発における工程
Azure serverless!! azure functionsでサーバーを意識しない開発
Klocworkのご紹介
2012年度中鉢PBLシラバス
Developer-Controlled Packages (DCPs) を試してみた
コンテナ&サーバーレス:トレンドの考察と少し先の未来の展望
CodeIgniter 〜 2008年大躍進のPHPフレームワーク
Azure Webinar Cognitive Services Overview_20170831
テスト勉強会よしおか100311 1
20111203 gdd2011フィードバック 公開用
SQLアンチパターン「ディプロマティック・イミュニティ」
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

【DL輪読会】Code as Policies: Language Model Programs for Embodied Control