SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Differentiable Mapping Networks: Learning
Structured Map Representations for Sparse
Visual Localization Jumpei Arima
書誌情報
• タイトル:
Differentiable Mapping Networks:
Learning Structured Map Representations for Sparse Visual Localization
• 著者: Peter Karkus, Anelia Angelova, Vincent Vanhoucke, Rico Jonschkowski
– first authorはNational University of Singapore
– Robotics at Googleでのインターン中の成果
• 会議:ICRA2020
• project page: https://sites.google.com/view/differentiable-mapping
• arxiv: https://arxiv.org/abs/2005.09530
2
背景
• Robot 学習の課題
– 実データのコストが高い、reality gap、Long horizon task、…
• Visual Navigation
– DD-PPO: LEARNING NEAR-PERFECT POINTGOAL NAVIGATORS FROM 2.5 BILLION FRAMES[ICLR2020]
• simでのvisual navigation方策獲得に2.5 billion steps(180 days of GPU-time)
3
・データ効率を上げる
・従来のRoboticsの技術の活用
・Robotics特有の事前知識の導入
背景
• Differentiable Algorithm Networks for Composable Robot Learning[RSS2019]
– データ駆動とモデル駆動の利点を融合した手法
• Learning Explore Using Active Neural SLAM[CVPR2020]
– habitat challenge2019優勝チームの手法
– Mapping, Localization, Planningを別々に学習(一部解析的手法含む)
– 階層的なシステムで、サンプル効率・性能ともに向上
4
背景
• 微分可能なRobotics研究
5
問題設定
<Sparse visual mapping and localization>
→street viewから得られるな情報(数視点からの画像)からMappingし
与えられた画像から位置を推定する
<課題>
• 疎な情報だけからマッピングをする
• 視点が大きく変わったところから
推定する必要がある
<応用先>
• 自動運転(都市環境での自己位置推定)
• multi-robot mapping
• 外観の変化が多い倉庫 etc.
6
背景
<良い地図表現とは>
• 地図は環境の変化と下位タスク(自己位置推定など)のために
柔軟に対応する必要がある
• 少ないデータから空間構造を構築する必要がある
<従来のマッピング> <DNNを用いた手法>
・空間構造 ・柔軟に対応可能
・変化に対応しづらい ・タスクに特化したマップ生成可能
・タスクごとに変更できない ・空間構造が欠ける 7
Proposed Method
• DNNによる柔軟な環境表現と幾何情報による空間把握を
組み合わせた方法を提案
→全体が微分可能なモデルなので、タスクに特化したマップ表現が可能
8
Proposed Method
<Mapping>
数視点からの画像から潜在Mapを生成
<Egocentric Spatial Attention>
query視点から潜在Mapを解釈
するための注意機構
(query視点に潜在Mapを座標変換)
<Particle Filter Localization>
微分可能なPFで自己位置推定
9
Proposed Method
<Mapping>
• Context画像を
画像埋め込み表現: 𝑉 𝑖
視点座標:
𝑠 𝑖
= (𝑥, 𝑦, 𝑠𝑖𝑛𝜑, 𝑐𝑜𝑠𝜑)
で表現された潜在マップ m を生成
• Feature Extractorは4層のCNN
– Context画像間で重みは共有
10
𝑚 = < 𝑉 𝑖, 𝑠 𝑖 > 𝑖 = 1: 𝑁𝑐
Proposed Method
<Egocentric Spatial Attention>
• query基準の空間構造に対しての注意機構
• query keyとview keysのスカラ積を重みとした
Context画像埋め込み表現を重み付け和を算出
• 地図の空間構造を活用し、特徴量抽出の難易度を大幅に減少する
11
Proposed Method
<Particle Filter Localization>
• Differentiable PFを用いて潜在マップとquery画像から自己位置推定を行う
• 𝑏𝑡 𝑠 ≈< 𝑠𝑡
𝑘
, log 𝜔 𝑡
𝑘
> 𝑘 = 1: 𝐾
– 𝑠𝑡
𝑘
: ロボットの候補位置(query画像の視点)←初期分布𝑏0
– log 𝜔 𝑡
𝑘
: particleの対数尤度
12
Observation Model
log 𝜔 𝑡
𝑘
=
log 𝑙 𝜃 + log 𝜔 𝑡−1
𝑘
+ 𝜂
m:View embedding map
Transition Model
𝑠𝑡
𝑘
= 𝑓𝑇(𝑠𝑡−1
𝑘
−, ∆ 𝑡)
𝑠𝑡 =
𝑘
𝜔 𝑡
𝑘
𝑠𝑡
𝑘
Proposed Method
<Observation Model>
• particleの位置𝑠𝑡
𝑘
と潜在マップ𝑚 を与えられたとき
画像𝑄𝑡 を観測する条件付き対数確率
𝑙 𝜃(𝑄𝑡, 𝑠𝑡
𝑘
, 𝑚) ≈ log 𝑝(𝑄𝑡|𝑠𝑡
𝑘
, 𝑚) を推定
• Networkはparticleの対数尤度𝑙 𝑡
𝑘
= log 𝑝(𝑄𝑡|𝑠𝑡
𝑘
, 𝑚)を直接出力する
log 𝜔 𝑡
𝑘
= log 𝑙 𝜃(𝑄𝑡, 𝑠𝑡
𝑘
, 𝑚) + log 𝜔 𝑡−1
𝑘
+ 𝜂
– 正規化されてないので
𝜂 = − log 𝑗=1
𝐾
𝑒log 𝜔 𝑡
𝑘
で正規化する
• particle間で学習パラメータは共有
13
Proposed Method
<End-to-End training>
• DMNは全体が微分可能であるので、localizationのタスクに対してマッピン
グを最適化するように学習が可能。
• 損失関数はMSE (αはハイパラ(0.5))
ℒ = 𝑠 − 𝑠∗ 2 = 𝑥 − 𝑥∗ 2 + (𝑦 − 𝑦∗)2+ 𝛼(𝜑 − 𝜑∗)2
コンテキストの数とパーティクルの数は重みを共有しているので
変えることが可能
14
Experiments
<dataset>
• sim: GQN dataset(データ量はGQNの1%)
– Rooms(100k env * 10img), Mazes(960 env * 300 img)
• real: Street View dataset
– 40*40mの範囲からランダムに10画像をsample(train:3838746test: 16359)
<評価>
• Global LocalizationとTrackingにおける自己位置推定精度
– (x,yのRMSEが8.94m以下(範囲の約15%)のときglobal localizationが成功とする)
15
Experiments
<比較手法>
• Mapping
– Latent image map
• 空間構造を明に表現しないnetwork
– Latent vector map
• Latent image mapのmap部分をvectorで表現
• Localization
– Regression
• 回帰によってposeを直接推定(DMNのparticleが一つと同じ)
– Closet context
• query poseに最も近いcontextのpose(画像の類似度による手法の上限としての指標)
– Uninformed estimate
• 初期分布から狀態遷移のみを考慮した場合(タスクの難しさを示す)
16
Experiments
<simでのGlobal Localization>
• 複雑な環境になると(Rooms →Mazes)
RegressionよりPFが優れていることがわかる
17
Experiments
<realでのGlobal Localization>
• 提案手法であるView-embed(提案手法)とPF(提案手法)の双方が
real dataの複雑で広範囲のlocalizationには効果的であることがわかる
18
Experiments
<5stepのtracking後の自己位置推定精度>
• Street Viewで最も提案手法の有用性が示せてる
• PFが複雑な環境で効果的
19
Experiments
<データ効率(Fig. 7)>
比較手法に比べてtrainingデータ量が少ない時に性能が高い
<Contextの数(Fig. 8,9)>
Contextの数の上昇によっての成功率の増加率は提案手法が高い
20
Experiments
<長距離tracking精度 (Fig. 10) >
PFが長距離を考えるには適している
<particleの数 (Fig. 11) >
増やした方が良い結果(計算コストとトレードオフ)
21
Conclusion
• Sparseな画像のみが与えられるLocalizationに最適化された
微分可能な地図生成ネットワーク(DMN)を提案
• Egocentric Spatial Attentionで空間的に構造化された潜在マップを
用いることで、広範囲な複雑な環境において、
学習データが少なくても適用できることを示した
<Future Work>
• 世界中どこでもVisual Localizationを可能にする
• 微分可能なVisual SLAMへの応用
22

More Related Content

PDF
K means tracker study
PPTX
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
PPTX
北大調和系 DLゼミ A3C
PPTX
強化学習 DQNからPPOまで
PDF
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
PDF
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
PPTX
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
PDF
End-to-end Recovery of Human Shape and Pose
K means tracker study
[DL輪読会]BADGR: An Autonomous Self-Supervised Learning-Based Navigation System
北大調和系 DLゼミ A3C
強化学習 DQNからPPOまで
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
End-to-end Recovery of Human Shape and Pose

What's hot (20)

PPTX
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)
PPTX
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
PDF
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
PDF
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
PDF
【CVPR 2019】Learning spatio temporal representation with local and global diff...
PDF
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
PDF
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
PDF
PCAの最終形態GPLVMの解説
PDF
FPGAX2016 ドキュンなFPGA
PPTX
[DL輪読会]Graph R-CNN for Scene Graph Generation
PDF
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
PDF
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
PDF
semantic segmentation サーベイ
PPTX
CNNの構造最適化手法(第3回3D勉強会)
PDF
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
PDF
(公開版)FPGAエクストリームコンピューティング2017
PDF
Taking a Deeper Look at the Inverse Compositional Algorithm
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
Deep learning入門
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Learning spatio temporal representation with local and global diff...
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
PCAの最終形態GPLVMの解説
FPGAX2016 ドキュンなFPGA
[DL輪読会]Graph R-CNN for Scene Graph Generation
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
semantic segmentation サーベイ
CNNの構造最適化手法(第3回3D勉強会)
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
(公開版)FPGAエクストリームコンピューティング2017
Taking a Deeper Look at the Inverse Compositional Algorithm
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Deep learning入門
Ad

Similar to [DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization (20)

PDF
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
PDF
Deep learning実装の基礎と実践
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PPTX
[DL輪読会]Learning to Navigate in Cities Without a Map
PDF
2012-03-08 MSS研究会
PPTX
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
PPTX
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
PDF
【CVPR 2019】Do Better ImageNet Models Transfer Better?
PDF
Top-K Off-Policy Correction for a REINFORCE Recommender System
PDF
PPTX
PyTorch, PixyzによるGenerative Query Networkの実装
PPTX
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
PDF
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
PDF
ICCV2019 report
PDF
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
PDF
【チュートリアル】コンピュータビジョンによる動画認識 v2
PPTX
Globally and Locally Consistent Image Completion
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
PDF
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
Deep learning実装の基礎と実践
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]Learning to Navigate in Cities Without a Map
2012-03-08 MSS研究会
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
【CVPR 2019】Do Better ImageNet Models Transfer Better?
Top-K Off-Policy Correction for a REINFORCE Recommender System
PyTorch, PixyzによるGenerative Query Networkの実装
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
ICCV2019 report
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
【チュートリアル】コンピュータビジョンによる動画認識 v2
Globally and Locally Consistent Image Completion
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization