SlideShare a Scribd company logo
Unsupervised Learning for
Physical Interaction through
Video Prediction
Chelsea Finn@UC Berkeley
Ian Goodfellow@OpenAI
Sergey Levine@Google Brain, UC Berkeley
担当:
落合 幸治
理化学研究所
@第2回NIPS読み会・関西 2016/12/26
※発表後追記:動画は画像下のリンクで確認できます
https://www.sites.google.com/site/robotprediction/
目次
 概要
 デモ
 アーキテクチャー
 実験結果
 まとめ
目次
 概要
 デモ
 アーキテクチャー
 実験結果
 まとめ
概要
 目的
 カメラの画像とロボットアームの制御データから未来の画像(ピクセル値)を
予測する
 工夫
 ピクセルの移動を表現するベクトル(motion transformation 𝑚)をニューラル
ネットワークから出力し直前の画像に適用する
 マスクを使い、変化していないピクセルは直前の状態をそのまま出力する
 制御信号を畳み込みの途中でconcatenateする
 結果
 見たことのない物体に対しても移動の予測に成功
 制御信号の変更で予測画像も変化
目次
 概要
 デモ
 アーキテクチャー
 実験結果
 まとめ
デモ
Ground truth expected
https://www.sites.google.com/site/robotprediction/
学習済みの物体
デモ
Ground truth expected
https://www.sites.google.com/site/robotprediction/
初めて見る物体
何が嬉しい?
 教師なし(人によるラベル付け作業無し)で物理法則(画像内の不変
量)を学ばせることができる
 行動ごとに異なる未来を予測
 ゴール指向の行動計画
 起こりうる未来の問題の予測(自動運転などで)
 予測の文脈における興味深い現象の検出
 (物体の領域検出)
応用
目次
 概要
 デモ
 アーキテクチャー
 バリエーション
 実験結果
 まとめ
アーキテクチャ
アーキテクチャ
入力画像
アーキテクチャ
出力画像
アーキテクチャ
convolutionにrecurrent結合を
持たせたレイヤー
アーキテクチャ
skip
アーキテクチャ
制御信号
(アクションと状態)
アーキテクチャ
マスク
アーキテクチャ
motion transformation 𝑚 ̂
バリエーション
1. Dynamic Neural Advection(DNA)
2. Convolutional Dynamic Neural Advection(CDNA)
3. Spatial Transformer Predictors(STP)
motion transformation 𝑚 ̂の計算方法は以下の3つが提案されている。
どれを選んでも、パフォーマンスはほぼ同じ。
Dynamic Neural Advection(DNA)
Dynamic Neural Advection(DNA)
過去フレームの
ピクセル
Dynamic Neural Advection(DNA)
予測フレームの
ピクセル
Dynamic Neural Advection(DNA)
座標
Dynamic Neural Advection(DNA)
重み
Dynamic Neural Advection(DNA)
出力先座標の周りで足し合わせ
Dynamic Neural Advection(DNA)
重み
ここをニューラルネットで推定
Convolutional Dynamic Neural Advection(CDNA)
ここを畳み込みに変更
(DNAは画像全体に適用)
Spatial Transformer Predictors(STP)
現在の座標
Spatial Transformer Predictors(STP)
1フレーム前の座標
Spatial Transformer Predictors(STP)
変換行列
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
画像生成の式
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
𝑥𝑡−1 = 𝑘のとき1それ以外0
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
𝑦𝑡−1 = 𝑙のとき1それ以外0
アーキテクチャ
元画像
アーキテクチャ
元画像 motion transformation
・・・
アーキテクチャ
元画像 motion transformation
・・・
10個
アーキテクチャ
元画像 motion transformation conv
・・・
・・・
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1)
・・・
・・・
・・・
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1)
・・・
・・・
・・・
10+1個
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1) result
・・・
・・・
・・・
・・・
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1) result
・・・
・・・
・・・
・・・
画素の補完
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1) result
・・・
・・・
・・・
・・・
+
+
=
画素の補完
目次
 概要
 デモ
 アーキテクチャー
 実験結果
 定量評価
 アクションの変更
 マスク可視化
 まとめ
定量評価
学習済みの物体
better
提案手法 画像を直接予測 画像の差分を予測 Skipなし
定量評価
初めて見る物体
提案手法 画像を直接予測 画像の差分を予測 Skipなし
better
アクションの変更
アクションの変更
最初のフレームのみ入力
アクションの変更
最初のフレームのみ入力
変更
アクションの変更
初めて見る物体
Action x 0 Action x 1 Action x 1.5
https://www.sites.google.com/site/robotprediction/
マスク可視化
ここを可視化
(10+1個ある)
マスク可視化
初めて見る物体
prediction Mask 0(background) Mask 2
https://www.sites.google.com/site/robotprediction/
目次
 概要
 デモ
 アーキテクチャー
 実験結果
 まとめ
まとめ
 目的
 カメラの画像とロボットアームの制御データから未来の画像(ピクセル値)を
予測する
 工夫
 ピクセルの移動を表現するベクトル(motion transformation 𝑚)をニューラル
ネットワークから出力し直前の画像に適用する
 マスクを使い、変化していないピクセルは直前の状態をそのまま出力する
 制御信号を畳み込みの途中でconcatenateする
 結果
 見たことのない物体に対しても移動の予測に成功
 制御信号の変更で予測画像も変化
以降参考スライド
定量評価
𝑃𝑆𝑁𝑅 = 10 log10
𝑀𝐴𝑋2
𝑀𝑆𝐸
𝑆𝑆𝐼𝑅(𝑥, 𝑦) =
(2𝜇 𝑥 𝜇 𝑦 + 𝑐1)(2𝜎𝑥𝑦 + 𝑐2)
(𝜇 𝑥
2
+ 𝜇 𝑦
2
+ 𝑐1)(𝜎𝑥
2
+ 𝜎 𝑦
2
+ 𝑐2)
𝑀𝐴𝑋 =輝度のmax(通常255) 𝑐1 = 0.01𝐿 2
𝑐2 = 0.03𝐿 2
人の感覚に合わせた画像誤差の評価指標
-1~1の値を取り1で完全一致
画像評価指標
大きいほど誤差が少ない

More Related Content

PDF
変分推論と Normalizing Flow
PDF
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
PDF
【DL輪読会】Mastering Diverse Domains through World Models
PDF
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
PDF
強化学習の実適用に向けた課題と工夫
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PDF
GAN(と強化学習との関係)
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
変分推論と Normalizing Flow
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
強化学習の実適用に向けた課題と工夫
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
GAN(と強化学習との関係)
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...

What's hot (20)

PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
PDF
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PPTX
A3C解説
PDF
【DL輪読会】Patches Are All You Need? (ConvMixer)
PPTX
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PPTX
[DL輪読会]Explainable Reinforcement Learning: A Survey
PDF
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
PPTX
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
PDF
ゆるふわ強化学習入門
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PPTX
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
PPTX
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PPTX
【DL輪読会】大量API・ツールの扱いに特化したLLM
PPTX
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
A3C解説
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]Explainable Reinforcement Learning: A Survey
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
ゆるふわ強化学習入門
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】Scaling Laws for Neural Language Models
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
[DL輪読会]Dense Captioning分野のまとめ
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
Ad

Similar to 第2回nips読み会・関西資料『unsupervised learning for physical interaction through video prediction』 (20)

PDF
【ECCV 2018】Interpretable Intuitive Physics Model
PDF
実社会・実環境におけるロボットの機械学習 ver. 2
PDF
実社会・実環境におけるロボットの機械学習
PDF
[DL輪読会]Reasoning About Physical Interactions with Object-Oriented Prediction ...
PPTX
Eccv2018 report day2
PPTX
CVPR2018 参加報告(速報版)2日目
PPTX
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
PPTX
CVPR 2017 報告
PDF
IROS2020 survey
PPTX
TPNet: Trajectory Proposal Network for Motion Prediction
PPTX
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
PDF
[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...
PDF
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
PPTX
Cvpr2018 参加報告(速報版)3日目
PPTX
CVPR2018 参加報告(速報版)初日
PPTX
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
PDF
論文 Solo Advent Calendar
PPTX
[DL輪読会]Visual Grounding of Learned Physical Models
PPTX
SimGAN 輪講資料
PPTX
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
【ECCV 2018】Interpretable Intuitive Physics Model
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習
[DL輪読会]Reasoning About Physical Interactions with Object-Oriented Prediction ...
Eccv2018 report day2
CVPR2018 参加報告(速報版)2日目
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
CVPR 2017 報告
IROS2020 survey
TPNet: Trajectory Proposal Network for Motion Prediction
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
Cvpr2018 参加報告(速報版)3日目
CVPR2018 参加報告(速報版)初日
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
論文 Solo Advent Calendar
[DL輪読会]Visual Grounding of Learned Physical Models
SimGAN 輪講資料
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
Ad

More from koji ochiai (6)

PPTX
General ai challenge round1 中間報告
PPTX
第3回nips読み会・関西『variational inference foundations and modern methods』
PPTX
落合 Wba hackathon2_成果報告_最終版
PPTX
第7回sig wba 眼球運動
PPTX
Pred netにおけるl1lossとl2lossの比較
PPTX
Pred net使ってみた
General ai challenge round1 中間報告
第3回nips読み会・関西『variational inference foundations and modern methods』
落合 Wba hackathon2_成果報告_最終版
第7回sig wba 眼球運動
Pred netにおけるl1lossとl2lossの比較
Pred net使ってみた

第2回nips読み会・関西資料『unsupervised learning for physical interaction through video prediction』