第2回nips読み会・関西資料『unsupervised learning for physical interaction through video prediction』

Unsupervised Learning for
Physical Interaction through
Video Prediction
Chelsea Finn@UC Berkeley
Ian Goodfellow@OpenAI
Sergey Levine@Google Brain, UC Berkeley
担当：
落合幸治
理化学研究所
@第2回NIPS読み会・関西 2016/12/26
※発表後追記：動画は画像下のリンクで確認できます
https://www.sites.google.com/site/robotprediction/

目次
 概要
 デモ
 アーキテクチャー
 実験結果
 まとめ

概要
 目的
 カメラの画像とロボットアームの制御データから未来の画像（ピクセル値）を
予測する
 工夫
 ピクセルの移動を表現するベクトル(motion transformation 𝑚)をニューラル
ネットワークから出力し直前の画像に適用する
 マスクを使い、変化していないピクセルは直前の状態をそのまま出力する
 制御信号を畳み込みの途中でconcatenateする
 結果
 見たことのない物体に対しても移動の予測に成功
 制御信号の変更で予測画像も変化

デモ
Ground truth expected
学習済みの物体

デモ
Ground truth expected
初めて見る物体

何が嬉しい？
 教師なし（人によるラベル付け作業無し）で物理法則（画像内の不変
量）を学ばせることができる
 行動ごとに異なる未来を予測
 ゴール指向の行動計画
 起こりうる未来の問題の予測（自動運転などで）
 予測の文脈における興味深い現象の検出
 （物体の領域検出）
応用

目次
 概要
 デモ
 バリエーション
 実験結果
 まとめ

アーキテクチャ
入力画像

出力画像

convolutionにrecurrent結合を
持たせたレイヤー

制御信号
（アクションと状態）

マスク

motion transformation 𝑚 ̂

バリエーション
1. Dynamic Neural Advection(DNA)
2. Convolutional Dynamic Neural Advection(CDNA)
3. Spatial Transformer Predictors(STP)
motion transformation 𝑚 ̂の計算方法は以下の３つが提案されている。
どれを選んでも、パフォーマンスはほぼ同じ。

Dynamic Neural Advection(DNA)
過去フレームの
ピクセル

予測フレームの
ピクセル

座標

重み

出力先座標の周りで足し合わせ

重み
ここをニューラルネットで推定

Convolutional Dynamic Neural Advection(CDNA)
ここを畳み込みに変更
(DNAは画像全体に適用）

Spatial Transformer Predictors(STP)
現在の座標

1フレーム前の座標

変換行列

画像生成の式

𝑥𝑡−1 = 𝑘のとき1それ以外0

𝑦𝑡−1 = 𝑙のとき1それ以外0

元画像

元画像 motion transformation
・・・

元画像 motion transformation
・・・
10個

元画像 motion transformation conv
・・・
・・・

mask
(sum=1)
・・・
・・・
・・・

mask
(sum=1)
・・・
・・・
・・・
10+1個

mask
(sum=1) result
・・・
・・・
・・・
・・・

mask
(sum=1) result
・・・
・・・
・・・
・・・
画素の補完

mask
(sum=1) result
・・・
・・・
・・・
・・・
+
+
=
画素の補完

目次
 概要
 デモ
 実験結果
 定量評価
 アクションの変更
 マスク可視化
 まとめ

定量評価
学習済みの物体
better
提案手法画像を直接予測画像の差分を予測 Skipなし

定量評価
提案手法画像を直接予測画像の差分を予測 Skipなし
better

アクションの変更
最初のフレームのみ入力

最初のフレームのみ入力
変更

Action x 0 Action x 1 Action x 1.5

マスク可視化
ここを可視化
(10+1個ある）

マスク可視化
prediction Mask 0(background) Mask 2

まとめ
 目的
 カメラの画像とロボットアームの制御データから未来の画像（ピクセル値）を
予測する
 工夫
 ピクセルの移動を表現するベクトル(motion transformation 𝑚)をニューラル
ネットワークから出力し直前の画像に適用する
 マスクを使い、変化していないピクセルは直前の状態をそのまま出力する
 制御信号を畳み込みの途中でconcatenateする
 結果
 見たことのない物体に対しても移動の予測に成功
 制御信号の変更で予測画像も変化

定量評価
𝑃𝑆𝑁𝑅 = 10 log10
𝑀𝐴𝑋2
𝑀𝑆𝐸
𝑆𝑆𝐼𝑅(𝑥, 𝑦) =
(2𝜇 𝑥 𝜇 𝑦 + 𝑐1)(2𝜎𝑥𝑦 + 𝑐2)
(𝜇 𝑥
2
+ 𝜇 𝑦
2
+ 𝑐1)(𝜎𝑥
2
+ 𝜎 𝑦
2
+ 𝑐2)
𝑀𝐴𝑋 =輝度のmax(通常255) 𝑐1 = 0.01𝐿 2
𝑐2 = 0.03𝐿 2
人の感覚に合わせた画像誤差の評価指標
-1～1の値を取り1で完全一致
画像評価指標
大きいほど誤差が少ない

第2回nips読み会・関西資料『unsupervised learning for physical interaction through video prediction』

More Related Content

What's hot (20)

Similar to 第2回nips読み会・関西資料『unsupervised learning for physical interaction through video prediction』 (20)

More from koji ochiai (6)

第2回nips読み会・関西資料『unsupervised learning for physical interaction through video prediction』