Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unknown Cameras

第5回3D勉強会＠関東
Depth from Videos in the Wild:
Unsupervised Monocular Depth Learning
from Unknown Cameras
宮澤一之
AI本部 AIシステム部
株式会社ディー・エヌ・エー

自己紹介
2
• 2007〜2010年東北大学博士課程
生体認証やステレオビジョンの研究に従事
日本学術振興会特別研究員（DC1）
• 2010〜2019年電機メーカ研究所
映像符号化、標準化活動
車載・監視カメラ物体認識、外観検査
• 2019年〜 DeNA
@kzykmyzw
宮澤一之
株式会社ディー・エヌ・エー
AI本部 AIシステム部 AI研究開発エンジニア

● 論文情報
○ 2019年4月にarXiv公開され、ICCV2019にアクセプト
○ ソースコードも公開されている
● 論文概要
○ 単眼カメラ映像から教師なしでデプス、エゴモーション、物体の動き、
カメラパラメータを学習
○ オクルージョンとなる画素を学習時に推定してロスの計算から除外
○ 新たな正則化手法（Randomized Layer Normalization）を導入
4
arXiv
ICCV Camera-ready
GitHub

Unsupervised Learning of Monocular Depth Estimation
Unsupervised CNN:
Geometry to the Rescue
2016 2017 2018 2019
MonoDepth
SfMLearner
SfM-Net
vid2depth
Deep-VO-Feat
GeoNet
LEGO
MonoDepth2
Every Pixel Counts
Depth from
Videos in the Wild
Depth
Depth + Egomotion
Depth + Egomotion + Object Motion
Depth + Egomotion + Object Motion + Camera Intrinsic
struct2depth
(extended)
struct2depth
SfMLearner++
Every Pixel Counts++
SceneNet

SfMLearner
7
Tinghui Zhou, et al., “Unsupervised Learning of Depth and Ego-Motion from Video,” CVPR2017
● 単眼映像を使った教師なし学習によるデプスとエゴモーション推定の先駆け
● 別視点画像を生成する処理を微分可能にし、学習プロセスに組み込み

SfMLearner
8
Depth CNN：ターゲット視点画像からデプスマップを生成

SfMLearner
9
Pose CNN：ソース視点と隣接視点間の相対的なカメラ運動を推定

View Synthesis as Supervision
10
I1
IN
It
Is
View Synthesis Objective学習用映像
画素
ターゲット視点画像
ソース視点画像をターゲット視点にワープした画像

11
I1
IN
It
Is
View Synthesis Objective学習用映像
画素
ターゲット視点画像
ソース視点画像をターゲット視点にワープした画像
● ソース視点画像をターゲット視点画像にワープするためには、ソース視
点とターゲット視点との間で画素の対応関係を知る必要がある
● CNNで推定したターゲット視点におけるデプスと視点間のカメラ運動を
利用して対応関係を求める

12
ターゲット視点画像上の画素 ptとソース視点画像上の画素 ps の対応関係
ターゲット視点のデプスマップ
ターゲット視点からソース視点へのカメラ運動
カメラ内部行列（既知）

13
ターゲット視点画像上の画素 ptとソース視点画像上の画素 ps の対応関係
Differentiable Bilinear Sampling Mechanism*
*Max Jaderberg, et al., “Spatial Transformer Networks,” NIPS2015

● 他視点画像の生成においては、以下の前提条件がある
○ シーンはスタティックであり、カメラ以外に運動する物体を含まない
○ ターゲット視点とソース視点の間にはオクルージョンがない
● 実際には上記前提が成り立たない画素が存在し、学習に悪影響となるた
め、そうした画素のロスへの寄与率を下げるExplainability Maskを導入
● Explainability Maskも教師なし学習で推定するが、オールゼロという自
明解に収束することを避けるため非ゼロ化を促進する正則化を導入
Explainability Mask
14
Target
View
Explainability Mask Target
View
Explainability Mask

Network Architecture
15
Single-view Depth Network Pose/Explainability Network

struct2depth
17Vincent Casser, et al., “Depth Prediction Without the Sensors:
Leveraging Structure for Unsupervised Learning from Monocular Videos,” AAAI2019
● デプスとエゴモーションに加え、シーン中の物体の動きも推定
● セグメンテーションマスクを入力し、物体ごとに3次元モーションを推定
● 推論時にも学習を行うことで精度を上げるTest Time Refinmentを提案

Motion Model
18
I1
I2
I3
I1→2
I2
I3→2
V V V
S1→2
S2
S3→2
映像物体マスク
映像
（エゴモーション補正済）
背景マスク
（エゴモーション補正済）
Ego-motion
Network
Object Motion
Network
Ego-motion
i-th Object Motion
物体
Vincent Casser, et al., “Depth Prediction Without the Sensors:
Leveraging Structure for Unsupervised Learning from Monocular Videos,” AAAI2019

Contributions
1. レンズ歪みも含めてカメラの内部パラメータを教師なしで学習
2. 推定したデプスに基づき、オクルージョンを幾何的に考慮
3. シーン中の移動物体の扱いを簡易化（セグメンテーションやト
ラッキングが不要）
20

Network Architecture
21
Motion-prediction Network
● デプス推定とモーション推定を異なるネットワークで実施
● デプス推定：UNet with ResNet18
● モーション推定：UNet inspired by FlowNet*
*Alexey Dosovitskiy, et al., “FlowNet: Learning Optical Flow with Convolutional Networks,” ICCV2015

Learning the Intrinsics
22
視点間の画素の対応関係
● 視点間の画素の対応関係は KRK-1 および Kt に依存するため、学習により
これらが正しい値に近づいていく
● しかし、正しくない内部行列 Ke に対して、やはり正しくない並進ベクト
ルを te = Ke
-1Kt と推定すると、Kete = Kt となり学習時のロスに影響しない
● つまり、エゴモーションが並進のみとなる場合カメラの内部パラメータ
は学習できない
K: カメラ内部行列
p, p’: 視点間の対応点
z, z’: pとp’でのデプス
R: 回転行列
t: 並進ベクトル

Learning the Intrinsics
23
K: カメラ内部行列
p, p’: 視点間の対応点
z, z’: pとp’でのデプス
R: 回転行列
t: 並進ベクトル
視点間の画素の対応関係
● 本論文では、KeReKe
-1 = KRK-1 となるような誤った推定 Ke, Re は存在しな
いことを証明
● エゴモーションに回転が含まれれば内部パラメータの学習は可能
● 回転角度と焦点距離の推定誤差との関係も導出（回転角度が大きいほど
学習効果が高い）
δfx, δfy: 焦点距離の誤差
rx, ry: 各軸の回転角度
w, h: 画像サイズ
s: max(w, h)

Learning Object Motion
● 前処理で自動車や人などを検出し、バウンディングボックスレベルでマスク
● マスク領域で並進ベクトル t の正則化を緩和（固定値からの逸脱を許容）
● バウンディングボックスレベルのマスクしか与えなくても、学習により移動
物体の境界に沿った動きの推定が可能であることを確認 24
画像＋マスク
Motion field

Occlusion-aware Consistency
25Target View Source View

推定したモーションに
したがってデプスをワープ

オクルージョン発生
（デプスが複数の値をとる）

ターゲット視点で推定したデプス
よりも前側にくる点だけをロスの
計算に含める（ZR’ ZL）

ターゲット視点で推定したデプス
よりも前側にくる点だけをロスの
計算に含める（ZR’ ZL）
ソース視点とターゲット視点を入
れ替えて同様にオクルージョンを
考慮する（ZL’ ZR）

Losses
● 推定したデプスマップ、内部パラメータ、回転・並進に基づいてソース
視点画像をターゲット視点画像にワープし、以下のロスを適用
○ Structured Similarity（SSIM）ロス
○ カラーチャンネルごとのL1ロス
● モーションの推定についてはForwardとBackwardが一致するように
Cycle Consistencyを適用
● 推定結果が空間方向、時間方向に滑らかとなるような拘束を導入
30

Randomized Layer Normalization
● バッチ正規化について、以下の現象が発生
○ 推論時に学習モードでバッチ正規化を適用した方が精度が高い
○ 学習時にバッチサイズを大きくするにつれて精度が低下
● バッチ正規化からレイヤ正規化に変更し、さらに平均と分散にガウシアン
ノイズを乗ずることで大きな改善がみられた
● ノイズが正則化として働いたためと考えられる
31
Yuxin Wu, et al., “Group Normalization,” ECCV2018BatchChannel
Spatial

Experiments
● Datasets
○ KITTI
○ Cityscapes
○ EuRoC Micro Aerial Vehicle Dataset
○ YouTube8M videos
● Evaluation
○ Depth prediction
○ Recovery of camera intrinsics
○ Odometry estimation
32

Depth（KITTI・Cityscapes）
33
KITTI Cityscapes
● KITTI、Cityscapes共にいずれの評価指標でも従来手法を上回る
● 既知の内部パラメータよりも推定したパラメータを使った方が高精度

Ablation Study
● 物体領域のマスクをバウンディングボックスからセグメンテーションマ
スクに置き換えてもデプスの推定精度に大きな変化はない
● シーンが複雑なCityscapesでは移動物体の考慮が大きな効果を発揮
36

Effect of Occlusion Aware Losses
37

Effect of Occlusion Aware Losses
38

Camera Intrinsics（EuRoC）
● EuRoCデータセットの11個のサブセット（カメラは全て同じ）でそれぞ
れ内部パラメータが収束するまで学習し、パラメータの統計量を評価
● 真値からのズレは数ピクセル程度に収まっている
39

Odometry（KITTI）
● ATE、trel のいずれの評価尺度でも従来手法を上回る
● 内部パラメータが既知の場合、推定結果と照らし合わせることで推論時
に補正を行うことが可能であり、これにより精度が大幅に改善
（Learned & corrected が補正後の結果） 40
ATE: Absolute Trajectory Error
trel: Average relative translational drift

まとめ
● 教師なし学習でデプスやモーションに加えてカメラの内部パラメータま
で推定したのは世界初
● ジオメトリを考慮したシンプルな正攻法でオクルージョンをケア
● 移動物体の扱いが簡単（バウンディングボックスを用意するだけ）
● 多様なデータセットと実験のいずれにおいてもSoTA性能を達成
● ソースコードが公開されている
● Randomized Layer Normalizationはちょっと謎な工夫
● 論文の記述にあいまいな箇所があり、arXiv版 → ICCVカメラレディ版で
改善されているもののカメラレディ版ではSupplementary Materialに詳
細な記述が回されている（そしてSMはまだ未公開）
● ICCVでの発表に期待
● 公開コードの再検証も必要 41
�
�
�
�
�
�
�
�
�

Inference-time Correction Using Known Intrinsics
● 回転角度と焦点距離のそれぞれに微小な誤差が含まれる場合、以下が成
り立つ
rx fy, ry fx ~ constant
● 推定値を f’x , r’y とすると、内部パラメータの真値が fx と与えられていれ
ば次式で推定値を補正できる
ry = r’y f’x / fx
42

Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unknown Cameras

More Related Content

What's hot (20)

Similar to Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unknown Cameras (20)

More from Kazuyuki Miyazawa (11)

Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unknown Cameras

Editor's Notes