SlideShare a Scribd company logo
1
NeRF in the Palm of Your Hand:
Corrective Augmentation for Robotics via Novel-View Synthesis
2023.1.27 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab
画像入力の模倣学習の方策の学習時に,NeRFをdata
augmentationするためのツールとして利用し,
模倣学習におけるcompound errorを低減
• Eye-in-hand(ロボット
アームの手先にカメラを
固定)の設定において提案
• 手先の座標にノイズを
加えた姿勢からの画像を
NeRFで生成しデータ
セットに加える
• シミュレータと実機で検証
概要
2
NeRF in the Palm of Your Hand:
Corrective Augmentation for Robotics via Novel-View
Synthesis
• Allan Zhou1, Moo Jin Kim1, Lirui Wang2, Pete
Florence3, Chelsea Finn1
• 1Stanford, 2MIT CSAIL,3Google
• https://arxiv.org/abs/2301.08556
• v1: 2023/1/18 (フォーマット的にICRA2023にsubmit?)
• サイト:https://bland.website/spartn/
※特に出典が明記されていない図は当論文・サイトから引用
書誌情報
3
最近,Implicit Neural Representation (INR)やNeRF周りの研究がたくさん出ている
①NeRF @DL輪読会 2020/3/27(土居さん)
• https://www.slideshare.net/DeepLearningJP2016/dlnerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis
②NeRFの派生研究まとめ @DL輪読会 2021/3/19(土居さん)
• https://www.slideshare.net/DeepLearningJP2016/dlneural-radiance-field-nerf
③NeRF-VAE @DL輪読会 2021/4/16(谷口さん)
• NeRFを潜在変数モデル(VAE)と組み合わせて複数のシーンに汎化させる.ICML2021.
• https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
④GIRFFE @DL輪読会 2021/4/30(松嶋)
• 複数のNeRFを組み合わせてシーンのdisentangleを目指す.CVPR2021 best paper.
⑤Grasping Field @DL輪読会 2021/6/18(近藤さん)
• INRの一種のDeep SDFを複数組み合わせて手と物体の衝突や把持を扱う.3DV2020 best paper.
• https://www.slideshare.net/DeepLearningJP2016/dlgrasping-field-learning-implicit-representations-for-human-grasps
⑥NeRFlow @DL輪読会 2021/8/6(松嶋)
• NeRFを動的なシーンを学習できるように拡張.ICCV2021.
• https://deeplearning.jp/neural-radiance-flow-for-4d-view-synthesis-and-video-processing-nerflow/
⑦HyperNeRF @DL輪読会 2021/10/1(近藤さん)
• 動的でdeformableなシーンを一つの映像だけで3D再構成.SIGGRAPH Asia2021.
• https://deeplearning.jp/a-higher-dimensional-representation-for-topologically-varying-neural-radiance-fields/
⑧LIIF @DL輪読会 2021/11/19(秋田さん)
• INRで2D画像の超解像,CVPR2021.
• https://www.slideshare.net/DeepLearningJP2016/learning-continuous-image-representation-with-local-implicit-image-function-cvpr2021
…and more
本発表について(背景の解説資料)
4
3次元座標 ( ) と視線方向 ( ) を
入力として輝度 ( ) と
密度 を出力するNN (シーン関数)
様々な角度から撮った写真で学習
➡︎
別の角度から撮った写真を
生成できる(novel view synthesis)
x d
r, g, b
σ
Fθ : (x, d) ↦ ((r, g, b), σ)
NeRF (谷口さんのDL輪読会スライド)
5
https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
NeRF (谷口さんのDL輪読会スライド)
• シーンを3次元座標と視線方向から輝度と密度 への関数として表現
• この関数がわかると、volume renderingを用いて任意の視点から
の画像を生成可能(詳しくは土居さんの資料参照)
6
https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
• 学習はレンダリングした画像と
真の画像との2乗誤差の最小化
• volume renderingが微分可能なので
end-to-endに学習可能
• レンダリング時に使うサンプル点の
選び方などには様々な工夫あり
NeRF (谷口さんのDL輪読会スライド)
7
https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
NeRF (谷口さんのDL輪読会スライドを編集)
Pros
• 連続的な3D表現として画期的
• 従来は点群・メッシュなどの
離散的な表現を利用
Cons
• シーンごとにたくさんの画像
を用意して学習が必要
• 未知のシーンに汎化しない
• 基本的にレンダリング手法
• 獲得される表現に関して
あまり議論されていない
8
https://www.slideshare.net/DeepLearningJP2016/dlnerfvae-a-geometry-aware-3d-scene-generative-model
https://www.matthewtancik.com/nerf
Instant NGP
• 2022年1月にNeRFの学習が数秒で終わる
デモが公開され世界が震撼
• ハッシュエンコーディングを活用して高速化
• NeRFだけではなくDeepSDFなど
ほかのINRにも使える
• https://arxiv.org/abs/2201.05989
• https://github.com/NVlabs/instant-ngp 9
INRの高速化
問題設定:画像入力による物体把持の模倣学習
模倣学習:オフラインに集められたデータセットから方策を学習
• Behavior Cloning (BC):観測(入力)と行動(出力)のマッピン
グ(方策)を教師あり学習で学習
• データセットが最適(エキスパート)と仮定
• 共変量シフトに弱いことが知られている
• 小さい誤差によってデータ分布から外れてしまい戻ってくるのが難しくなる
• コストの高い環境とのオンラインの相互作用が不要
• RLはオンラインでデータを集める
10
アイデア:NeRFでエキスパートにノイズを加える
• オフラインに収集したエキスパートで
シーンごとにNeRF(instantNeRF)を
学習
• エキスパートにノイズを加えた擬似軌道
を生成し,対応する画像をNeRFで生成
• ノイズを加えた軌道から,エキスパート
の軌道に修正する行動をデータセットに
• 入力にNeRFで生成した画像を利用
11
アルゴリズム
12
系列(エピソード)ごとに
NeRFを学習(軌道で)
アルゴリズム
13
手先の姿勢にノイズを加える
アルゴリズム
14
正解の行動を再計算
(手先姿勢制御の場合
次の姿勢から計算可能)
アルゴリズム
15
ノイズを加えた手先座標での
画像をNeRFを使って生成
アルゴリズム
16
データセットに追加
エキスパートからのNeRFの学習
• 世界座標系でのカメラ姿勢にはカメラキャリブレーションの誤差が
乗るので,カメラの姿勢を画像からCOLMAPを使って推定
• 姿勢なしの画像からNeRFするときと同じ方法
• COLMAPで推定した姿勢と世界座標系でのカメラ姿勢を対応づける
(appendex D2)
• NeRFのstaticな制約を満たすために,
エキスパートからgripperから物体を
掴むまでの画像を利用
• 画像からgripperに対応する
ピクセルをマスクしてNeRFを学習
17
Instant-NGPの活用
元々のNeRFの学習は非常に重いので,Instant-NGPを活用
• 各シーン(エピソード)ごとに,Instant-NGPを3.5k step学習
• それぞれRTX2080Tiで30秒かかる
• 2500シーンを4GPUで並列に学習して計7時間程度かかる
• でも,オフラインの学習なので,テスト時には問題ない
18
シミュレータでの実験
1500個のShapeNetの物体に対してで2500個のエキスパートを
生成
• ACRONYMデータセットにある
把持姿勢から軌道を生成
• 各軌道は20ステップ以内
• 各軌道につき100パターンaugument
• 学習時にないShapeNetとYCBで評価
19
実機での実験
Franka Pandaで実験
• 行動空間は前ステップとの姿勢の差分
• 4HzでCartesian Impedance制御
• VRコントローラでエキスパート作成
• 各軌道50パターンでaugument
20
その他実験の結果
ウェブサイトに行くつか動画がある
https://bland.website/spartn/
21
まとめ・感想
• 手法は非常にシンプル
• 計算量の大きいNeRFはオフライン学習なら使えるということを
うまく生かしている
• NeRFを方策学習のデータ生成器として利用する観点では,
(一般的な)モデルベースRLと同じような仕組みになっている
• 世界のモデルを学習し,そのモデルをシミュレータとして擬似データを
大量に生成,方策学習を効率化する
• ここまで一般化すると世界モデルみが出る
(3D世界・レンダリングの事前知識を導入した世界モデルといえそ
う)
22
23

More Related Content

PDF
画像生成・生成モデル メタサーベイ
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PDF
Domain Adaptation 発展と動向まとめ(サーベイ資料)
画像生成・生成モデル メタサーベイ
【DL輪読会】A Path Towards Autonomous Machine Intelligence
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Pay Attention to MLPs (gMLP)
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Domain Adaptation 発展と動向まとめ(サーベイ資料)

What's hot (20)

PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PPTX
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
PDF
[DL輪読会]Hindsight Experience Replay
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PPTX
backbone としての timm 入門
PDF
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
PPTX
Curriculum Learning (関東CV勉強会)
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
PDF
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
PDF
ELBO型VAEのダメなところ
PDF
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PDF
Attentionの基礎からTransformerの入門まで
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
実装レベルで学ぶVQVAE
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
[DL輪読会]Hindsight Experience Replay
How Much Position Information Do Convolutional Neural Networks Encode?
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
backbone としての timm 入門
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
Curriculum Learning (関東CV勉強会)
【メタサーベイ】数式ドリブン教師あり学習
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
ELBO型VAEのダメなところ
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
【メタサーベイ】Vision and Language のトップ研究室/研究者
Attentionの基礎からTransformerの入門まで
【論文紹介】How Powerful are Graph Neural Networks?
実装レベルで学ぶVQVAE
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Ad

【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via Novel-View Synthesis