（文献紹介）Depth Completionの最新動向

Copyright © 2019 Morpho, Inc. All Rights Reserved.
Non-Local Spatial Propagation
Network for
Depth Completion
＜文献紹介＞

概要
RGB画像とsparse depth mapからdense depth mapを直接推論
同時に出力した３枚の特徴マップでrefinement
の2段階構成をend-to-endに学習する
• 各ピクセルの「近傍系」を選択的に学習
• Refinement時の重みの無駄な正規化を抑制
• Confidenceのrefinementへの組み込み
により11月現在おそらく最高性能を達成（2020/7/20に投稿）

結果
エッジ保存性が従来手法に比べて比較的良い
細い線などの細かいテクスチャも取れている
([1] Fig.6.)

結果
([1] Table 1.)

手法
全体像は
初期depth推定 ⇒ Refinement
の２段構成
([1] Fig.2.)Copyright © 2020 Morpho, Inc. All Rights Reserved.

手法
以下３つのポイントを順に解説する
1. 各ピクセルの「近傍系」を選択的に学習
2. Refinement時の重みの無駄な正規化を抑制
3. Confidenceのrefinementへの組み込み

手法
1. 各ピクセルの「近傍系」を選択的に学習
2. Refinement時の重みの無駄な正規化を抑制
が、その前にrefinementについて先に概説する

手法
Refinementは下式を繰り返し適用することで行われる：
• 𝑥 𝑚,𝑛：depth mapの(m, n)座標におけるdepth値
• 𝑤 𝑚,𝑛
𝑖,𝑗
：ピクセル𝑥𝑖,𝑗 が𝑥 𝑚,𝑛にもたらす重み
• 𝑁 𝑚,𝑛：座標(m, n)の近傍
で、𝑤 𝑚,𝑛 + σ 𝑖,𝑗 ∈𝑁 𝑚,𝑛
𝑤 𝑚,𝑛
𝑖,𝑗
= 1 とする。𝑡はイテレータ
𝑥 𝑚,𝑛
𝑡
= 𝑤 𝑚,𝑛
𝑐
𝑥 𝑚,𝑛
𝑡−1
෍
𝑖,𝑗 ∈𝑁 𝑚,𝑛
𝑤 𝑚,𝑛
𝑖,𝑗
𝑥𝑖,𝑗
𝑡−1

手法
Refinementは下式を繰り返し適用することで行われる：
• 𝑥 𝑚,𝑛：depth mapの(m, n)座標におけるdepth値
• 𝑤 𝑚,𝑛
𝑖,𝑗
：ピクセル𝑥𝑖,𝑗 が𝑥 𝑚,𝑛にもたらす重み
• 𝑁 𝑚,𝑛：座標(m, n)の近傍
で、𝑤 𝑚,𝑛 + σ 𝑖,𝑗 ∈𝑁 𝑚,𝑛
𝑤 𝑚,𝑛
𝑖,𝑗
= 1 とする。𝑡はイテレータ。
この２つをrefinement前に
学習で求める
𝑥 𝑚,𝑛
𝑡
= 𝑤 𝑚,𝑛
𝑐
𝑥 𝑚,𝑛
𝑡−1
෍
𝑤 𝑚,𝑛
𝑖,𝑗
𝑥𝑖,𝑗
𝑡−1

手法
1. 各ピクセルの「近傍系」を選択的に学習（ 𝑁 𝑚,𝑛 ）
2. Refinement時の重みの無駄な正規化を抑制（ 𝑤 𝑚,𝑛
𝑖,𝑗
）

手法
従来のrefinement手法では近傍画素の配置を固定にすると
境界付近で不要なピクセル情報を拾ってしまう
([1] Fig.3.)

手法
従来のrefinement手法では近傍画素の配置を固定にすると
境界付近で不要なピクセル情報を拾ってしまう
そこで、近傍系の形を適応的に変形することを考える
([1] Fig.3.)

手法
座標(m, n)の近傍は以下で定める：
φをパラメータとする「(m, n)
のK個の近傍」を返す関数
これを学習により求める
注目すべき点として、p, qは実数値
→サブピクセル精度で近傍探索が行われる！
𝑁 𝑚,𝑛
𝑁𝐿
= {𝑥 𝑚+𝑝,𝑛+𝑞| 𝑝, 𝑞 ∈ 𝑓φ 𝑰, 𝑫, 𝑚, 𝑛 , 𝑝, 𝑞 ∈ 𝑹}

手法
以下近傍を８個にした場合
カラー画像のエッジをうまく
とらえている
([1] Fig.8.)

手法
実はCNNの場合には元ネタが存在（[2], [3]）
• Deformable Convolutional Networks
• Deformable ConvNets v2: More Deformable, Better Results
（上の論文のインターン生による改良版）
これら2つの論文では、convolutionのカーネルの形を動的に変
形（長方形でなく）することで物体形状の変化にロバストに対
応させることを提案している
これをカーネルではなくrefinementに援用したのがミソ
([2] Fig.1.)

手法
実際に𝑓𝜑がどう定義されるかの記述は存在しなかったが、
前述の論文を見る限りおそらく次の通り
Inputの注目画素
(m,n)を中心に
普通のconv.を
2N枚かける
2枚かけるごとに(m,n)の
近傍としてoffset vector
(p,q)が1つ定まる
得られたN個の近
傍でrefinementを
実行
([2] Fig.2.)

手法
2. Refinement時の重みの無駄な正規化を抑制（ 𝒘 𝒎,𝒏
𝒊,𝒋
）

手法
Refinement時の重みについて以下の事実が知られている
（[4] Theorem 3）
⚫ Refinementが収束する十分条件は
σ 𝑖,𝑗 ∈𝑁 𝑚,𝑛
|𝑤 𝑚,𝑛
𝑖,𝑗
| ≤ 1
ここでrefinementの式を思い出しておく
𝑥 𝑚,𝑛
𝑡
= 𝑤 𝑚,𝑛
𝑐
𝑥 𝑚,𝑛
𝑡−1
෍
𝑤 𝑚,𝑛
𝑖,𝑗
𝑥𝑖,𝑗
𝑡−1

手法
なので|𝑤 𝑚,𝑛
𝑖,𝑗
|の合計が１を上回る場合には正規化処理が必要
しかし単純に以下のように合計値で割るのは問題がある
𝑤 𝑚,𝑛
𝑖,𝑗
=
ෝ𝑤 𝑚,𝑛
𝑖,𝑗
σ 𝑖,𝑗 ∈𝑁 𝑚,𝑛
|ෝ𝑤 𝑚,𝑛
𝑖,𝑗
|
𝑁 𝑚,𝑛 = 2としてその理由を示す
𝑥 𝑚,𝑛
𝑡
= 𝑤 𝑚,𝑛
𝑐
𝑥 𝑚,𝑛
𝑡−1
෍
𝑤 𝑚,𝑛
𝑖,𝑗
𝑥𝑖,𝑗
𝑡−1

手法
𝑤1, 𝑤2 の𝐿1
ノルムによる正規化した結果を図示すると、
このように枠線上に 𝑤1, 𝑤2 が集中してしまい
𝑤1, 𝑤2の自由度（＝モデルの表現力）が減ってしまう
( [1] Fig.4.)

手法
では𝐿1
ノルムが１を超えた時だけ正規化したらどうなのか？
→これも実は失敗する
正規化が発生する頻度がどの程度かを考えればよいが、
𝑤1, 𝑤2が独立に標準正規分布に従うとして同じく図示すると、

手法
大半が正規化されて端に寄っている
もし４変数にすると、９８％が端に位置する
( [1] Fig.4.)

手法
正規化しても自由度が減らないようスケール変換したい
→本論文では以下で解決
ここでKは変数の個数
これならσ 𝑖,𝑗 ∈𝑁 𝑚,𝑛
|𝑤 𝑚,𝑛
𝑖,𝑗
| ≤ 1
は常に成立するが果たして自由度は？
𝑤 𝑚,𝑛
𝑖,𝑗
= tanh(ෝ𝑤 𝑚,𝑛
𝑖,𝑗
)/𝐶 , 𝐶 ≥ 𝐾

手法
正規化後も端に寄りにくくなっている
すなわち、この方がモデルの表現力が高い
( [1] Fig.4.)

手法
そこで σ 𝑖,𝑗 ∈𝑁 𝑚,𝑛
|𝑤 𝑚,𝑛
𝑖,𝑗
| が１を超えたときのみtanhによる正規
化を行うことで表現力をできる限り高める

手法
そこで σ 𝑖,𝑗 ∈𝑁 𝑚,𝑛
|𝑤 𝑚,𝑛
𝑖,𝑗
| が１を超えたときのみtanhによる正規
化を行うことで表現力をできる限り高める
結果：
( [1] Fig.4.)

手法
一覧すると以下の通り
右端のグラフは 𝑤1,, 𝑤2 を複数生成したときに
正規化されるものの割合を示したもの
（青が単純な割り算、黄がtanhを使う方法）
( [1] Fig.4.)

手法
ところでtanhを使う場合には
よりCを決める必要があった
→Cも学習で自動的に決定されるようにする
𝑤 𝑚,𝑛
𝑖,𝑗
= tanh(ෝ𝑤 𝑚,𝑛
𝑖,𝑗
)/𝐶

手法
以下３つのポイントを順に解説する。
𝑖,𝑗
）

手法
取得したconfidence、𝑐 𝑖,𝑗
∈ [0, 1]はrefinement時の重み𝑤 𝑚,𝑛
𝑖,𝑗
を
弱めるのに用いる
𝑤 𝑚,𝑛
𝑖,𝑗
= 𝑐 𝑖,𝑗
⋅ tanh(ෝ𝑤 𝑚,𝑛
𝑖,𝑗
)/𝛾

手法
以下confidenceありなしで結果を比較
Depthの誤測定が修正されているのが分かる

手法
𝑖,𝑗
）
最後に実際のネットワーク構造を確認する

手法
( [1] Fig.A.)

手法
ロスは単純に入力時点でdepthが観測されたピクセルの集合
Vに対して
ここでρ = 1,2のどちらでもよいが、ρ = 1の方が一般に
エッジのキレが良いらしい
その他の中間出力に対してロスは定めない（データ取得が困難）

考察
⚫ Initial estimation → refinementは効果が出る
⚫ Deformable convolutionがエッジ保存の肝か
⚫ Weight normalizationの効果は如何ほどか疑問
⚫ Confidence mapが実測できている場合には、ロスに組み込
めばさらに精度向上する？（スケール合わせが問題？）
正規化の定数Cは学習データの傾向によって変動する模様
使う環境が不定の場合は中々最適に決まらなそう
入力がearly fusionなのは改善の余地ありか？

参考文献
[1] J. Park, K. Joo, Z. Hu, C.-K. Liu, and I. S. Kweon.: Nonlocal spatial propagation network for depth
completion. In: Proc. Of European Conference on Computer Vision (ECCV), 2020
[2] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei. Deformable convolutional networks. In
ICCV, 2017.
[3] Zhu, X., Hu, H., Lin, S., & Dai, J. (2019). Deformable convnets V2: More deformable, better results.
Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,
2019-June, 9300–9308. https://doi.org/10.1109/CVPR.2019.00953
[4] Liu, S., De Mello, S., Gu, J., Zhong, G., Yang, M.H., Kautz, J.: Learning affinity via spatial
propagation networks. In: Proc. of Advances in Neural Information Processing Systems (2017)

（文献紹介）Depth Completionの最新動向

More Related Content

What's hot (20)

Similar to （文献紹介）Depth Completionの最新動向 (20)

More from Morpho, Inc. (10)

（文献紹介）Depth Completionの最新動向