SlideShare a Scribd company logo
Mobility Technologies Co., Ltd.
2020年7月4日 全日本コンピュータビジョン勉強会
3D Packing for Self-Supervised Monocular Depth Estimation
株式会社Mobility Technologies
宮澤 一之
Mobility Technologies Co., Ltd.
宮澤 一之
AI技術開発部
グループリーダー
株式会社Mobility Technologies
経歴
2019年4月〜2020年3月
AI研究開発エンジニア@DeNA
2010年4月〜2019年3月
主任研究員@三菱電機
2010年3月
博士(情報科学)@東北大学
自己紹介
2
@kzykmyzw
Mobility Technologies Co., Ltd.
紹介論文
3
CVPR2020 Open Access
GitHub
Mobility Technologies Co., Ltd.4
Unsupervised CNN: Geometry
to the Rescue
MonoDepth
SfMLearner
SfM-Net
vid2depth
Deep-VO-Feat
GeoNet
LEGO
MonoDepth2
Every Pixel Counts
Depth from Videos in
the Wild
Depth
Depth + Egomotion
Depth + Egomotion + Object Motion
Depth + Egomotion + Object Motion + Camera Intrinsic
struct2depth
(extended)
struct2depth
SfMLearner++
Every Pixel Counts++
SceneNet
2016 2017 2018 2019 2020
Explainability
Monocular Depth Estimation
Visualization of CNN for
mono-Depth Estimation
How do NNs see depth in
single images?
Uncertainty of Self
supervised mono-
Depth Estimation
PackNet-SfM
SuperDepth
SC-SfMLearner
DualNetworks
Mobility Technologies Co., Ltd.5
Unsupervised CNN: Geometry
to the Rescue
MonoDepth
SfMLearner
SfM-Net
vid2depth
Deep-VO-Feat
GeoNet
LEGO
MonoDepth2
Every Pixel Counts
Depth from Videos in
the Wild
Depth
Depth + Egomotion
Depth + Egomotion + Object Motion
Depth + Egomotion + Object Motion + Camera Intrinsic
struct2depth
(extended)
struct2depth
SfMLearner++
Every Pixel Counts++
SceneNet
2016 2017 2018 2019 2020
Explainability
Monocular Depth Estimation
Visualization of CNN for
mono-Depth Estimation
How do NNs see depth in
single images?
Uncertainty of Self
supervised mono-
Depth Estimation
PackNet-SfM
SuperDepth
SC-SfMLearner
DualNetworks
Mobility Technologies Co., Ltd.
Tutorial on Monocular Depth Estimation @ CVPR2020
6
■ 単眼カメラ映像からのデプス推定に関するチュートリアル
■ Stereo supervision
■ Monocular supervision
■ Understanding single image depth estimation
■ Auxiliary supervision
■ Learning single image depth estimation in the wild
■ Mobile depth estimation
■ スライドおよび講演ビデオが公開 [link]
Mobility Technologies Co., Ltd.
■ 単眼映像を使った教師なし学習によるデプスとエゴモーション推定の先駆け
■ 別視点画像を生成する処理を微分可能にし、学習プロセスに組み込み
SfMLearner
7
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
Mobility Technologies Co., Ltd.
SfMLearner
8
Depth CNN:ターゲット画像からデプスマップを生成
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
Mobility Technologies Co., Ltd.
SfMLearner
9
Pose CNN:ソース画像とターゲット画像間の相対的なカメラ運動を推定
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
Mobility Technologies Co., Ltd.
View Synthesis as Supervision
10
I1
IN
It
Is
View Synthesis Objective学習用映像
画素
ターゲット画像
ソース画像をターゲット画像の視点にワープした画像
■ 推定したデプスとカメラ運動を使ってソース画像をターゲット画像の視点にワ
ープさせることで新たな画像を生成
■ ターゲット画像と生成画像の誤差をロスとすることで教師なしで学習
Mobility Technologies Co., Ltd.
SfMLearnerによるデプス推定結果
11
デプスの解像度が低い
Mobility Technologies Co., Ltd.
紹介論文
12
Mobility Technologies Co., Ltd.
■ Main contribution
■ 高解像度なデプス推定を実現するためのアーキテクチャPackNetを提案
■ packing/unpackingにより画像が持つ空間情報を最大限活用しつつリアルタイム処理を実現
■ Second contribution
■ 単眼デプス推定におけるスケールの不定性という課題を解決
■ 車やロボット、スマホから得られる速度情報を利用したロスを導入
■ Third contribution
■ 最大250mの長距離LiDARにより収集した新たなデータセットを公開
■ アメリカに加え日本でもデータを取集
Contributions
13
Mobility Technologies Co., Ltd.
PackNet-SfM
14
Mobility Technologies Co., Ltd.
target image It
set of source images Is ∈ IS (実装では It-1, It+1)
estimated depth Dt
synthesized target image It
目的関数
15
^
^
Mobility Technologies Co., Ltd.
target image It
set of source images Is ∈ IS (実装では It-1, It+1)
estimated depth Dt
synthesized target image It
Appearance Matching Loss
16
^
^
オクルージョンの影響を軽減するためそれぞれのソー
ス画像に対して求めたロスの画素ごとの最小値を採用
推定したデプスによりソース画像をターゲット画像と
一致するようにワープさせた際の誤差(ワープ画像と
ターゲット画像間のSSIMとL1ロスの重み付き和)
Mobility Technologies Co., Ltd.
target image It
set of source images Is ∈ IS (実装では It-1, It+1)
estimated depth Dt
synthesized target image It
Appearance Matching Loss
17
^
^ ワープ対象領域外を
除外するマスク
ワープによって逆に誤差が大きくなる領域を除外する
マスク(静止シーンやカメラと等速で運動する物体を
除外するため)
Mobility Technologies Co., Ltd.
target image It
set of source images Is ∈ IS (実装では It-1, It+1)
estimated depth Dt
synthesized target image It
Depth Smoothness Loss
18
^
^
テクスチャの少ない領域では滑らかなデプスとな
るように制御するためのロス(画素勾配が小さい
場合にデプス勾配が大きくなるとペナルティも大
きくなる)
画素勾配
デプス勾配
Mobility Technologies Co., Ltd.
■ Main contribution
■ 高解像度なデプス推定を実現するためのアーキテクチャPackNetを提案
■ packing/unpackingにより画像が持つ空間情報を最大限活用しつつリアルタイム処理を実現
Contributions
19
Mobility Technologies Co., Ltd.
PackNet
20
画像 It デプス Dt
Conv2D
Packing
Residual Block
Unpacking
^
Mobility Technologies Co., Ltd.
Packing
21
Mobility Technologies Co., Ltd.
Packing
22
Ci x H x W 4Ci x H/2 x W/2
D x 4Ci x H/2 x W/2
4DCi x H/2 x W/2
Co x H/2 x W/2
■ poolingを使わず空間情報の損失を回避
■ 空間方向 → チャネル方向変換+Conv3D
■ 逆順にすることでunpacking
Mobility Technologies Co., Ltd.
■ 入力画像を再構成するencoder-decoderを学習
■ poolingとバイリニア補間によるアップサンプルでは再構成画像がぼやける
■ packing/unpackingを利用した場合はほぼ完全に入力画像を再構成可能
Packingの効果
23
入力画像 Max Pooling + Bilinear Upsample Pack + Unpack
Mobility Technologies Co., Ltd.
■ Second contribution
■ 単眼デプス推定におけるスケールの不定性という課題を解決
■ 車やロボット、スマホから得られる速度情報を利用したロスを導入
Contributions
24
Mobility Technologies Co., Ltd.
■ 推定するフレーム間の並進ベクトルの絶対値にロスを定義
■ 車両の速度を教師信号として利用し、速度と時刻から算出したフレーム間の移
動量を真値として与える
Velocity Supervision Loss
25
target image It
source image
Is
tt → s
^
フレーム間の並進ベクトル
速度
フレーム間の時刻差
Mobility Technologies Co., Ltd.
Experiments
26
■ KITTI
■ train / val / eval:39,810 / 4,424 / 697フレーム
■ 5フレーム分のLiDAR点群を集約し真値デプスマップをrefine:652フレーム
■ NuScenes
■ KITTIで学習したモデルで推論することで汎化性能を評価:6,019フレーム
■ CityScapes
■ KITTIでの学習前にpretrainingとして利用:88,250フレーム
■ KITTIと同パラメータで20エポック学習
■ DDAD
■ 長距離LiDARを用いて独自にデータセットを構築
■ train / eval:17,050 / 4,150フレーム
Mobility Technologies Co., Ltd.
■ Third contribution
■ 最大250mの長距離LiDARにより収集した新たなデータセットを公開
■ アメリカに加え日本でもデータを取集
Contributions
27 https://github.com/TRI-ML/DDAD
Mobility Technologies Co., Ltd.
DDAD (Dense Depth for Autonomous Driving)
28
■ カメラ6台(1936 x 1216)+ デプスマップ(train/val = 17,050/4,150 frames)
■ デプスはLuminar社製のLuminar-H2で取得しており最大250m(従来は約80m)
■ アメリカ(ベイエリア、デトロイト、アナーバー)と日本(東京、お台場)で収集
https://github.com/TRI-ML/DDAD
Mobility Technologies Co., Ltd.
■ ResNetベースの従来手法Monodepth2とデプスマップ(640 x 384)の精度を比較
■ 複数の評価尺度の全てにおいてPackNet-SfMはMonodepth2を上回る
■ 距離ごとの精度比較では遠方になるほどPackNet-SfMが優勢となる
DDADにおけるデプス推定精度
29
*1 *2 *3 *4 *5
*1 Absolute relative difference
*2 Squared relative difference
*3 Root Mean Squared Error (linear)
*4 Root Mean Squared Error (log)
*5 Inlier ratio (pred / ground truth < 1.25)
Mobility Technologies Co., Ltd.
KITTI(オリジナル)における精度比較
30
M:単眼画像のみで学習
M+v:単眼画像と速度で学習
K:KITTIのみで学習
CS+K:CityScapesで事前学習してからKITTIでfine-tuning
Mobility Technologies Co., Ltd.
KITTI(オリジナル)における精度比較
31
M:単眼画像のみで学習
M+v:単眼画像と速度で学習
K:KITTIのみで学習
CS+K:CityScapesで事前学習してからKITTIでfine-tuning
データ投入で精度改善
Mobility Technologies Co., Ltd.
KITTI(オリジナル)における精度比較
32
M:単眼画像のみで学習
M+v:単眼画像と速度で学習
K:KITTIのみで学習
CS+K:CityScapesで事前学習してからKITTIでfine-tuning
デプス高解像度化で精度改善
Mobility Technologies Co., Ltd.
KITTI(高精度版*)における比較
33
*5フレーム分の結果を集約することで真値を高精度化
D:真値デプスで教師あり学習
Mobility Technologies Co., Ltd.
KITTI(高精度版*)における比較
34
*5フレーム分の結果を集約することで真値を高精度化
D:真値デプスで教師あり学習
Mobility Technologies Co., Ltd.
各手法によるデプスマップの比較
35
Mobility Technologies Co., Ltd.
■ パラメータ数を増やしていった場合、ResNetは約70Mで改善が頭打ち
■ PackNetはパラメータ数を増やすことでコンスタントに性能が改善していく
■ デプスマップを高解像化することによる改善効果もPackNetの方が顕著
パラメータ数と精度の関係
36
MR: 640 x 192
HR: 1280 x 384
60ms on Titan V100
(< 30ms using TensorRT)
Mobility Technologies Co., Ltd.
■ packing/unpackingおよびConv3Dの導入による性能改善が顕著
■ ResNetベースの手法はImageNetによるpretrainingの効果が大きいのに対し、
PackNetはフルスクラッチでの学習でより高い精度を達成
Ablation Study
37
ImageNet pretraining →
ImageNet pretraining →
packing/unpackingを
畳み込みのストライド
とアップサンプリング
に置き換え
→
Conv3Dのフィルタ
数を増加(D=0は
Conv3D未使用)
Mobility Technologies Co., Ltd.
■ CityScapesとKITTIで学習したモデルを使ってNuScenesに対する性能を評価
■ ImageNetでpretrainingしたResNetベースの手法よりも高い汎化性能
未知データに対する汎化性能
38
Mobility Technologies Co., Ltd.
■ ロスに対する工夫などが多かった従来手法に対し、新しいアーキテクチャを提
案することで高解像度なデプスマップ生成を実現
■ packing/unpackingとConv3Dにより空間方向の情報を最大限活用
■ 容易に取得可能なカメラの移動速度を教師信号とすることでスケールの不定性
という単眼デプス推定における根本的な問題を解決
■ 次世代LiDARを使った長距離デプス(〜250m)データセットを独自に構築
まとめ
39
2017201820192020
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
40

More Related Content

PPTX
SfM Learner系単眼深度推定手法について
PPTX
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
PDF
ICLR2020の異常検知論文の紹介 (2019/11/23)
PPTX
[DL輪読会]モデルベース強化学習とEnergy Based Model
PDF
【DL輪読会】Segment Anything
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PDF
ガイデットフィルタとその周辺
PDF
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SfM Learner系単眼深度推定手法について
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
ICLR2020の異常検知論文の紹介 (2019/11/23)
[DL輪読会]モデルベース強化学習とEnergy Based Model
【DL輪読会】Segment Anything
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
ガイデットフィルタとその周辺
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​

What's hot (20)

PDF
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PDF
Anomaly detection survey
PDF
動作認識の最前線:手法,タスク,データセット
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
PDF
確率モデルを用いた3D点群レジストレーション
PPTX
全体セミナー20170629
PPTX
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
実装レベルで学ぶVQVAE
PDF
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
PDF
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
PDF
[DL輪読会]Taskonomy: Disentangling Task Transfer Learning
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PDF
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
PPTX
深層学習の非常に簡単な説明
PPTX
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
PDF
異常音検知に対する深層学習適用事例
PDF
SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attentio...
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
Anomaly detection survey
動作認識の最前線:手法,タスク,データセット
How Much Position Information Do Convolutional Neural Networks Encode?
確率モデルを用いた3D点群レジストレーション
全体セミナー20170629
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
実装レベルで学ぶVQVAE
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
[DL輪読会]Taskonomy: Disentangling Task Transfer Learning
これからの Vision & Language ~ Acadexit した4つの理由
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
深層学習の非常に簡単な説明
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
異常音検知に対する深層学習適用事例
SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attentio...
Ad

Similar to [CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation (20)

PDF
Transformer 動向調査 in 画像認識(修正版)
DOCX
march report in japanese
PDF
リクルートにおける画像解析事例紹介
PDF
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
PPTX
Pythonで簡単動画解析
PDF
20120623 cv勉強会 shirasy
PDF
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
PDF
拡散する画像生成.pdf
PDF
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
PDF
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
PDF
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
PDF
Active Learning の基礎と最近の研究
PPTX
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
CV分野での最近の脱○○系3選
PDF
object detection with lidar-camera fusion: survey
PDF
機械学習 (AI/ML) 勉強会 #1 基本編
PDF
Teslaにおけるコンピュータビジョン技術の調査 (2)
PDF
単一の深層学習モデルによる不確実性の定量化の紹介 ~その予測結果正しいですか?~
Transformer 動向調査 in 画像認識(修正版)
march report in japanese
リクルートにおける画像解析事例紹介
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Pythonで簡単動画解析
20120623 cv勉強会 shirasy
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
拡散する画像生成.pdf
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
Active Learning の基礎と最近の研究
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
CV分野での最近の脱○○系3選
object detection with lidar-camera fusion: survey
機械学習 (AI/ML) 勉強会 #1 基本編
Teslaにおけるコンピュータビジョン技術の調査 (2)
単一の深層学習モデルによる不確実性の定量化の紹介 ~その予測結果正しいですか?~
Ad

More from Kazuyuki Miyazawa (9)

PDF
Data-Centric AIの紹介
PDF
Teslaにおけるコンピュータビジョン技術の調査
PDF
ドラレコ + CV = 地図@Mobility Technologies
PDF
MLP-Mixer: An all-MLP Architecture for Vision
PDF
kaggle NFL 1st and Future - Impact Detection
PDF
3D Perception for Autonomous Driving - Datasets and Algorithms -
PPTX
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
PPTX
SIGGRAPH 2019 Report
PPTX
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Data-Centric AIの紹介
Teslaにおけるコンピュータビジョン技術の調査
ドラレコ + CV = 地図@Mobility Technologies
MLP-Mixer: An all-MLP Architecture for Vision
kaggle NFL 1st and Future - Impact Detection
3D Perception for Autonomous Driving - Datasets and Algorithms -
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
SIGGRAPH 2019 Report
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations

[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation

  • 1. Mobility Technologies Co., Ltd. 2020年7月4日 全日本コンピュータビジョン勉強会 3D Packing for Self-Supervised Monocular Depth Estimation 株式会社Mobility Technologies 宮澤 一之
  • 2. Mobility Technologies Co., Ltd. 宮澤 一之 AI技術開発部 グループリーダー 株式会社Mobility Technologies 経歴 2019年4月〜2020年3月 AI研究開発エンジニア@DeNA 2010年4月〜2019年3月 主任研究員@三菱電機 2010年3月 博士(情報科学)@東北大学 自己紹介 2 @kzykmyzw
  • 3. Mobility Technologies Co., Ltd. 紹介論文 3 CVPR2020 Open Access GitHub
  • 4. Mobility Technologies Co., Ltd.4 Unsupervised CNN: Geometry to the Rescue MonoDepth SfMLearner SfM-Net vid2depth Deep-VO-Feat GeoNet LEGO MonoDepth2 Every Pixel Counts Depth from Videos in the Wild Depth Depth + Egomotion Depth + Egomotion + Object Motion Depth + Egomotion + Object Motion + Camera Intrinsic struct2depth (extended) struct2depth SfMLearner++ Every Pixel Counts++ SceneNet 2016 2017 2018 2019 2020 Explainability Monocular Depth Estimation Visualization of CNN for mono-Depth Estimation How do NNs see depth in single images? Uncertainty of Self supervised mono- Depth Estimation PackNet-SfM SuperDepth SC-SfMLearner DualNetworks
  • 5. Mobility Technologies Co., Ltd.5 Unsupervised CNN: Geometry to the Rescue MonoDepth SfMLearner SfM-Net vid2depth Deep-VO-Feat GeoNet LEGO MonoDepth2 Every Pixel Counts Depth from Videos in the Wild Depth Depth + Egomotion Depth + Egomotion + Object Motion Depth + Egomotion + Object Motion + Camera Intrinsic struct2depth (extended) struct2depth SfMLearner++ Every Pixel Counts++ SceneNet 2016 2017 2018 2019 2020 Explainability Monocular Depth Estimation Visualization of CNN for mono-Depth Estimation How do NNs see depth in single images? Uncertainty of Self supervised mono- Depth Estimation PackNet-SfM SuperDepth SC-SfMLearner DualNetworks
  • 6. Mobility Technologies Co., Ltd. Tutorial on Monocular Depth Estimation @ CVPR2020 6 ■ 単眼カメラ映像からのデプス推定に関するチュートリアル ■ Stereo supervision ■ Monocular supervision ■ Understanding single image depth estimation ■ Auxiliary supervision ■ Learning single image depth estimation in the wild ■ Mobile depth estimation ■ スライドおよび講演ビデオが公開 [link]
  • 7. Mobility Technologies Co., Ltd. ■ 単眼映像を使った教師なし学習によるデプスとエゴモーション推定の先駆け ■ 別視点画像を生成する処理を微分可能にし、学習プロセスに組み込み SfMLearner 7 Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
  • 8. Mobility Technologies Co., Ltd. SfMLearner 8 Depth CNN:ターゲット画像からデプスマップを生成 Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
  • 9. Mobility Technologies Co., Ltd. SfMLearner 9 Pose CNN:ソース画像とターゲット画像間の相対的なカメラ運動を推定 Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
  • 10. Mobility Technologies Co., Ltd. View Synthesis as Supervision 10 I1 IN It Is View Synthesis Objective学習用映像 画素 ターゲット画像 ソース画像をターゲット画像の視点にワープした画像 ■ 推定したデプスとカメラ運動を使ってソース画像をターゲット画像の視点にワ ープさせることで新たな画像を生成 ■ ターゲット画像と生成画像の誤差をロスとすることで教師なしで学習
  • 11. Mobility Technologies Co., Ltd. SfMLearnerによるデプス推定結果 11 デプスの解像度が低い
  • 12. Mobility Technologies Co., Ltd. 紹介論文 12
  • 13. Mobility Technologies Co., Ltd. ■ Main contribution ■ 高解像度なデプス推定を実現するためのアーキテクチャPackNetを提案 ■ packing/unpackingにより画像が持つ空間情報を最大限活用しつつリアルタイム処理を実現 ■ Second contribution ■ 単眼デプス推定におけるスケールの不定性という課題を解決 ■ 車やロボット、スマホから得られる速度情報を利用したロスを導入 ■ Third contribution ■ 最大250mの長距離LiDARにより収集した新たなデータセットを公開 ■ アメリカに加え日本でもデータを取集 Contributions 13
  • 14. Mobility Technologies Co., Ltd. PackNet-SfM 14
  • 15. Mobility Technologies Co., Ltd. target image It set of source images Is ∈ IS (実装では It-1, It+1) estimated depth Dt synthesized target image It 目的関数 15 ^ ^
  • 16. Mobility Technologies Co., Ltd. target image It set of source images Is ∈ IS (実装では It-1, It+1) estimated depth Dt synthesized target image It Appearance Matching Loss 16 ^ ^ オクルージョンの影響を軽減するためそれぞれのソー ス画像に対して求めたロスの画素ごとの最小値を採用 推定したデプスによりソース画像をターゲット画像と 一致するようにワープさせた際の誤差(ワープ画像と ターゲット画像間のSSIMとL1ロスの重み付き和)
  • 17. Mobility Technologies Co., Ltd. target image It set of source images Is ∈ IS (実装では It-1, It+1) estimated depth Dt synthesized target image It Appearance Matching Loss 17 ^ ^ ワープ対象領域外を 除外するマスク ワープによって逆に誤差が大きくなる領域を除外する マスク(静止シーンやカメラと等速で運動する物体を 除外するため)
  • 18. Mobility Technologies Co., Ltd. target image It set of source images Is ∈ IS (実装では It-1, It+1) estimated depth Dt synthesized target image It Depth Smoothness Loss 18 ^ ^ テクスチャの少ない領域では滑らかなデプスとな るように制御するためのロス(画素勾配が小さい 場合にデプス勾配が大きくなるとペナルティも大 きくなる) 画素勾配 デプス勾配
  • 19. Mobility Technologies Co., Ltd. ■ Main contribution ■ 高解像度なデプス推定を実現するためのアーキテクチャPackNetを提案 ■ packing/unpackingにより画像が持つ空間情報を最大限活用しつつリアルタイム処理を実現 Contributions 19
  • 20. Mobility Technologies Co., Ltd. PackNet 20 画像 It デプス Dt Conv2D Packing Residual Block Unpacking ^
  • 21. Mobility Technologies Co., Ltd. Packing 21
  • 22. Mobility Technologies Co., Ltd. Packing 22 Ci x H x W 4Ci x H/2 x W/2 D x 4Ci x H/2 x W/2 4DCi x H/2 x W/2 Co x H/2 x W/2 ■ poolingを使わず空間情報の損失を回避 ■ 空間方向 → チャネル方向変換+Conv3D ■ 逆順にすることでunpacking
  • 23. Mobility Technologies Co., Ltd. ■ 入力画像を再構成するencoder-decoderを学習 ■ poolingとバイリニア補間によるアップサンプルでは再構成画像がぼやける ■ packing/unpackingを利用した場合はほぼ完全に入力画像を再構成可能 Packingの効果 23 入力画像 Max Pooling + Bilinear Upsample Pack + Unpack
  • 24. Mobility Technologies Co., Ltd. ■ Second contribution ■ 単眼デプス推定におけるスケールの不定性という課題を解決 ■ 車やロボット、スマホから得られる速度情報を利用したロスを導入 Contributions 24
  • 25. Mobility Technologies Co., Ltd. ■ 推定するフレーム間の並進ベクトルの絶対値にロスを定義 ■ 車両の速度を教師信号として利用し、速度と時刻から算出したフレーム間の移 動量を真値として与える Velocity Supervision Loss 25 target image It source image Is tt → s ^ フレーム間の並進ベクトル 速度 フレーム間の時刻差
  • 26. Mobility Technologies Co., Ltd. Experiments 26 ■ KITTI ■ train / val / eval:39,810 / 4,424 / 697フレーム ■ 5フレーム分のLiDAR点群を集約し真値デプスマップをrefine:652フレーム ■ NuScenes ■ KITTIで学習したモデルで推論することで汎化性能を評価:6,019フレーム ■ CityScapes ■ KITTIでの学習前にpretrainingとして利用:88,250フレーム ■ KITTIと同パラメータで20エポック学習 ■ DDAD ■ 長距離LiDARを用いて独自にデータセットを構築 ■ train / eval:17,050 / 4,150フレーム
  • 27. Mobility Technologies Co., Ltd. ■ Third contribution ■ 最大250mの長距離LiDARにより収集した新たなデータセットを公開 ■ アメリカに加え日本でもデータを取集 Contributions 27 https://github.com/TRI-ML/DDAD
  • 28. Mobility Technologies Co., Ltd. DDAD (Dense Depth for Autonomous Driving) 28 ■ カメラ6台(1936 x 1216)+ デプスマップ(train/val = 17,050/4,150 frames) ■ デプスはLuminar社製のLuminar-H2で取得しており最大250m(従来は約80m) ■ アメリカ(ベイエリア、デトロイト、アナーバー)と日本(東京、お台場)で収集 https://github.com/TRI-ML/DDAD
  • 29. Mobility Technologies Co., Ltd. ■ ResNetベースの従来手法Monodepth2とデプスマップ(640 x 384)の精度を比較 ■ 複数の評価尺度の全てにおいてPackNet-SfMはMonodepth2を上回る ■ 距離ごとの精度比較では遠方になるほどPackNet-SfMが優勢となる DDADにおけるデプス推定精度 29 *1 *2 *3 *4 *5 *1 Absolute relative difference *2 Squared relative difference *3 Root Mean Squared Error (linear) *4 Root Mean Squared Error (log) *5 Inlier ratio (pred / ground truth < 1.25)
  • 30. Mobility Technologies Co., Ltd. KITTI(オリジナル)における精度比較 30 M:単眼画像のみで学習 M+v:単眼画像と速度で学習 K:KITTIのみで学習 CS+K:CityScapesで事前学習してからKITTIでfine-tuning
  • 31. Mobility Technologies Co., Ltd. KITTI(オリジナル)における精度比較 31 M:単眼画像のみで学習 M+v:単眼画像と速度で学習 K:KITTIのみで学習 CS+K:CityScapesで事前学習してからKITTIでfine-tuning データ投入で精度改善
  • 32. Mobility Technologies Co., Ltd. KITTI(オリジナル)における精度比較 32 M:単眼画像のみで学習 M+v:単眼画像と速度で学習 K:KITTIのみで学習 CS+K:CityScapesで事前学習してからKITTIでfine-tuning デプス高解像度化で精度改善
  • 33. Mobility Technologies Co., Ltd. KITTI(高精度版*)における比較 33 *5フレーム分の結果を集約することで真値を高精度化 D:真値デプスで教師あり学習
  • 34. Mobility Technologies Co., Ltd. KITTI(高精度版*)における比較 34 *5フレーム分の結果を集約することで真値を高精度化 D:真値デプスで教師あり学習
  • 35. Mobility Technologies Co., Ltd. 各手法によるデプスマップの比較 35
  • 36. Mobility Technologies Co., Ltd. ■ パラメータ数を増やしていった場合、ResNetは約70Mで改善が頭打ち ■ PackNetはパラメータ数を増やすことでコンスタントに性能が改善していく ■ デプスマップを高解像化することによる改善効果もPackNetの方が顕著 パラメータ数と精度の関係 36 MR: 640 x 192 HR: 1280 x 384 60ms on Titan V100 (< 30ms using TensorRT)
  • 37. Mobility Technologies Co., Ltd. ■ packing/unpackingおよびConv3Dの導入による性能改善が顕著 ■ ResNetベースの手法はImageNetによるpretrainingの効果が大きいのに対し、 PackNetはフルスクラッチでの学習でより高い精度を達成 Ablation Study 37 ImageNet pretraining → ImageNet pretraining → packing/unpackingを 畳み込みのストライド とアップサンプリング に置き換え → Conv3Dのフィルタ 数を増加(D=0は Conv3D未使用)
  • 38. Mobility Technologies Co., Ltd. ■ CityScapesとKITTIで学習したモデルを使ってNuScenesに対する性能を評価 ■ ImageNetでpretrainingしたResNetベースの手法よりも高い汎化性能 未知データに対する汎化性能 38
  • 39. Mobility Technologies Co., Ltd. ■ ロスに対する工夫などが多かった従来手法に対し、新しいアーキテクチャを提 案することで高解像度なデプスマップ生成を実現 ■ packing/unpackingとConv3Dにより空間方向の情報を最大限活用 ■ 容易に取得可能なカメラの移動速度を教師信号とすることでスケールの不定性 という単眼デプス推定における根本的な問題を解決 ■ 次世代LiDARを使った長距離デプス(〜250m)データセットを独自に構築 まとめ 39 2017201820192020