SlideShare a Scribd company logo
Unsupervised Learning of Probably
Symmetric Deformable 3D Objects
from Images in the Wild
2020/07/04
第三回 全日本コンピュータビジョン勉強会(前編)
書誌情報
• CVPR2020 Best Paper
• 今年のbest paperは3D系ばかりでしたね!
• OxfordのVisual Geometry Groupによる研究
• 選定理由
• この論文の前身となる論文を読んだはずだがスルーしてしまっていたので、
best paperに選ばれたタイミングで再度読み直そうと思った
• デモが面白いので試してみてください
• http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of-
probably-symmetric-deformable-3d-objects-from-images-in-the-
wild.html?image=037_abstract&type=cat
論文概要
• 単一視点画像のみから教師なしで3Dの非剛体オブジェクトを学習
• 具体的には、画像からデプス、アルベド、カメラ姿勢、照明を推定
• 教師なしで学習するために物体の対称性を利用
• 人間の顔、動物の顔、車など左右対称な物体は非常に多い
• 対称性は特に照明の推定と密接に関わる
Symmetry in 3D Vision
• 本研究では不良設定問題の制約として、物体の対称性を利用
• 物体の対称性は、有用な制約として活用できる
• 例) 対称性を利用したステレオマッチング (François+ 2003)
• 物体の対称性を仮定すると、画像の反転により別視点の画像が作れる
François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry.
Image and Vision Computing, 2003.
Symmetry in 3D Vision
• 前述のように、対称性の活用が鍵
• しかし、非対称性への対処をする必要がある
1. 形状の非対称性 (e.g. 人間の髪型)
2. アルベドの非対称性 (e.g. 猫の模様の違い)
3. 照明条件による非対称性
• 2つのアプローチで対処
1. 照明の明示的なモデリング
• shapeを復元するのにも役立つ
2. 各ピクセルが線対称である確率を推論する
ここまでが、基本的なアイデアの話
次のスライドから詳細を説明します
Deep Learning x 3D
• 既存手法との比較
• この表を精査したわけではな
いですが、画像のみから4つの
パラメータを推定する問題設
定はかなりチャレンジングに
見えます
提案手法: 全体図
• AutoEncoder型のネッ
トワークで、デプス、
アルベド、カメラ姿勢、
照明を推定
• 推定した値から元の画
像を復元
再構成誤差で学習
提案手法: Photo-geometric autoencoders
• 入力画像: (3 x W x H) のテンソル
• 物体がだいたい中央にあるように撮影
• 画像から次の4つの要素を推定
• 𝑑 : デプスマップ
• 𝑎 : アルベド画像
• 𝑙 : 照明の方向 (global light direction)
(2自由度)
• 𝑤 : カメラ姿勢 (6自由度)
DNNで4つの要素を推定
提案手法: Photo-geometric autoencoders
• 4つの要素から以下の関数で画像を復元
• Λ : lighting function
• Π : reprojection
• Λ, Πには以下のような役割がある
• Λは、デプス、照明、アルベドから正面画
像 (canonical view) を復元する
• Πは、デプス、カメラ視点を用いて、正面
画像を目的の視点に再投影する
Λ, Πの詳細は後ほど説明します Λにより正面画像
の復元
Πで正面画像を
元の画像のview
に再投影
提案手法: Probably symmetric objects
• 対称性を活用するためには、対称の軸
をうまく発見する必要がある
• 本研究では、これを暗黙的に解いた
• 入力画像からデプス、アルベドを推定す
る時に左右対称の正面画像として推定
• 推定したデプス、アルベドを反転させて
も同じ画像が復元されるように学習
左右対称を保証するため
デプスとアルベドを左右対称
の正面画像として推定
提案手法: 損失関数
• モデルは以下の損失学習で訓練
• confidence 𝜎 で重み付けしたL1 loss (ラプラス分布のnegative loss
likelihoodと等価)
• confidenceについては次のスライドで説明します
• 反転させたデプスとアルベドから再構成した画像についても同じ損失を計算
• 左右対称なデプス、アルベドの学習を促進
• 反転なし + 反転あり の合計を最終的な損失とする
再構成誤差 反転画像の再構成誤差
提案手法: Probably symmetric objects
• 予測の不確かさ・物体の非対称性のモ
デリング
• confidence map 𝜎, 𝜎′ として出力
• 𝜎, 𝜎′
はそれぞれ損失関数の中で用いら
れる
• 特に𝜎′は非対称性をモデリング
• 右図の𝜎′では髪の毛の領域の不確かさが
大きくなっている
• 髪は左右非対称の可能性が高い
モデルの不確かさを推定
Image formation model
• Π, Λの詳細についての説明
• Πはデプス、カメラ視点を用いて、正
面画像を目的の視点に再投影する
• カメラの内部パラメータK
• R, tは外部パラメータ
ここ
Image formation model
• Λは、デプス、照明、アルベドから正
面画像 (canonical view) を復元する
• 𝑘 𝑠, 𝑘 𝑑 : アンビエント光とデフューズ光
の係数
• 𝑙 : 照明の方向ベクトル
• 𝑛 𝑢𝑣 : デプスから算出した法線ベクトル
• 𝑎 𝑢𝑣 : アルベド光
• 照明と法線の内積によりデフューズ
の強さが決まる
照明による画像の非対称性をモデリング
できる ここ
提案手法: 全体図 (再掲)
• AutoEncoder型のネッ
トワークで、デプス、
アルベド、カメラ姿勢、
照明を推定
• 推定した値から元の画
像を復元
再構成誤差で学習
左右反転させて同じこと
をやる
実験
• Dataset
• CelebA : 人間の顔のデータセット
• 3DFAW: 人間の顔のデータセット (キーポイント付き)
• BFM : 人間の顔のデータセット (3Dモデルあり)
• cat dataset: 猫の顔のデータセット (一部キーポイントあり)
• ShapeNet: 車の3Dモデルのデータを使用
• Metrics
• scale-invariant depth error (SIDE) : デプスの誤差
• mean angle deviation (MAD) : 法線の誤差
実験: (ベースラインとの比較)
• BFM dataset (人間の顔の3Dモデル)を用いてデプスとカメラ姿勢が
正しく推定できているか検証
• 教師ありで学習した結果よりは悪いがデプスの平均値をで予測するよりは良
い
実験: (Ablation)
• 何が効いているのか確認
• アルベドとデプスのflipはよく効いている
• 照明もよく効いている
実験 (Qualitative Results)
• CelebA, 3DFAW, cat
faces, ShapeNetの結果
• いい感じに三次元形状が
復元されている
• 珍しい表情には対応でき
てない? (2列目)
実験 (symmetry and asymmetry detection)
• 対象の軸の可視化 (左図)
• 非対称領域の可視化 (右図)
• 人間の髪の毛や猫の顔の模様
実験 (Limitation)
• 照明条件が極端な場合 (a)
• 鏡面反射や影を仮定していないため
• テクスチャに暗い色がノイズ的に含まれる場合 (b)
• shadingと暗いテクスチャの区別がつかない
• 物体が学習データにあまりないポーズの時 ©
まとめ
• 単一画像から非剛体物体の3Dモデルを学習
• 推定したパラメータから画像を復元し、再構成誤差により学習
• 対称性と照明が、形状復元の重要な手がかりとなった
• Future work
• 複数の正面画像の生成
• デプスの代わりにメッシュやボクセルの使用
より複雑な形状の物体に対応できるように!
• 感想
• 対称性を活用するというアイデアが面白い
• 適用対象が人間の顔画像が中心だったが、さらに複雑なデータに適用できるように
なるのか(CIFAR-10から復元するとか)
参考文献
• S. Wu et al. Unsupervised Learning of Probably Symmetric
Deformable 3D Objects from Images in the Wild. CVPR, 2020.
• D. Shao et al. FineGym: A Hierarchical Video Dataset for Fine-
grained Action Understanding, CVPR, 2020.
• François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry. Image
and Vision Computing, 2003.

More Related Content

PPTX
Deepfakesの生成および検出
PPTX
【論文LT資料】 Gait Recognition via Disentangled Representation Learning (CVPR2019)
PDF
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
PPTX
SLAM勉強会(3) LSD-SLAM
PDF
第2回cv勉強会@九州 LSD-SLAM
PDF
Sift特徴量について
PDF
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
PDF
Cvpr 2021 manydepth
Deepfakesの生成および検出
【論文LT資料】 Gait Recognition via Disentangled Representation Learning (CVPR2019)
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
SLAM勉強会(3) LSD-SLAM
第2回cv勉強会@九州 LSD-SLAM
Sift特徴量について
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
Cvpr 2021 manydepth

What's hot (20)

PDF
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
PDF
[DL輪読会]End-to-end Recovery of Human Shape and Pose
PPTX
Direct Sparse Odometryの解説
PPTX
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
PDF
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
PDF
Perception distortion-tradeoff 20181128
PDF
1 6.変数選択とAIC
PPTX
Structure from Motion
PDF
20190706cvpr2019_3d_shape_representation
PDF
VIEW2013 Binarycode-based Object Recognition
PDF
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
PPTX
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
PDF
Visual slam
PDF
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
PDF
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
PDF
SSII2018TS: 3D物体検出とロボットビジョンへの応用
PPTX
SfM Learner系単眼深度推定手法について
PDF
Siftによる特徴点抽出
PPTX
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
PDF
AI勉強会用スライド
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
[DL輪読会]End-to-end Recovery of Human Shape and Pose
Direct Sparse Odometryの解説
CNNの可視化手法Grad-CAMの紹介~CNNさん、あなたはどこを見ているの?~ | OHS勉強会#6
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
Perception distortion-tradeoff 20181128
1 6.変数選択とAIC
Structure from Motion
20190706cvpr2019_3d_shape_representation
VIEW2013 Binarycode-based Object Recognition
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
Visual slam
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SfM Learner系単眼深度推定手法について
Siftによる特徴点抽出
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
AI勉強会用スライド
Ad

Similar to Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild (20)

PPTX
[DL輪読会]Unsupervised Learning of Probably Symmetric Deformable 3D Objects from...
PDF
【2015.08】(5/5)cvpaper.challenge@CVPR2015
PDF
[DL輪読会]Unsupervised Learning of 3D Structure from Images
PDF
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
PPTX
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PDF
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...
PPTX
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
PDF
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
PPTX
[DL輪読会]Exploiting Cyclic Symmetry in Convolutional Neural Networks
PPTX
PDF
静岡Developers勉強会コンピュータビジョンvol4発表用資料
PDF
2020/07/04 BSP-Net (CVPR2020)
PPTX
SSII2020TS: 物理ベースビジョンの過去・現在・未来 〜 カメラ・物体・光のインタラクションを モデル化するには 〜
PDF
Fusion4dIntroduction
PDF
【2015.08】(4/5)cvpaper.challenge@CVPR2015
PDF
Taking a Deeper Look at the Inverse Compositional Algorithm
PDF
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
PDF
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
PDF
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
[DL輪読会]Unsupervised Learning of Probably Symmetric Deformable 3D Objects from...
【2015.08】(5/5)cvpaper.challenge@CVPR2015
[DL輪読会]Unsupervised Learning of 3D Structure from Images
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
[DL輪読会]Exploiting Cyclic Symmetry in Convolutional Neural Networks
静岡Developers勉強会コンピュータビジョンvol4発表用資料
2020/07/04 BSP-Net (CVPR2020)
SSII2020TS: 物理ベースビジョンの過去・現在・未来 〜 カメラ・物体・光のインタラクションを モデル化するには 〜
Fusion4dIntroduction
【2015.08】(4/5)cvpaper.challenge@CVPR2015
Taking a Deeper Look at the Inverse Compositional Algorithm
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Ad

More from Kento Doi (11)

PPTX
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PPTX
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
PPTX
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
PDF
Few-Shot Unsupervised Image-to-Image Translation
PPTX
StyleGAN解説 CVPR2019読み会@DeNA
PDF
20190406_nlp/cv_勉強会
PDF
Semi-convolutional Operators for Instance Segmentation
PDF
Style-GAN
PDF
カメラキャリブレーション
PDF
CVPR2018読み会_20180701
PDF
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
Few-Shot Unsupervised Image-to-Image Translation
StyleGAN解説 CVPR2019読み会@DeNA
20190406_nlp/cv_勉強会
Semi-convolutional Operators for Instance Segmentation
Style-GAN
カメラキャリブレーション
CVPR2018読み会_20180701
“Domain Adaptive Faster R-CNN for Object Detection in theWild (CVPR 2018) 他

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

  • 1. Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild 2020/07/04 第三回 全日本コンピュータビジョン勉強会(前編)
  • 2. 書誌情報 • CVPR2020 Best Paper • 今年のbest paperは3D系ばかりでしたね! • OxfordのVisual Geometry Groupによる研究 • 選定理由 • この論文の前身となる論文を読んだはずだがスルーしてしまっていたので、 best paperに選ばれたタイミングで再度読み直そうと思った • デモが面白いので試してみてください • http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of- probably-symmetric-deformable-3d-objects-from-images-in-the- wild.html?image=037_abstract&type=cat
  • 3. 論文概要 • 単一視点画像のみから教師なしで3Dの非剛体オブジェクトを学習 • 具体的には、画像からデプス、アルベド、カメラ姿勢、照明を推定 • 教師なしで学習するために物体の対称性を利用 • 人間の顔、動物の顔、車など左右対称な物体は非常に多い • 対称性は特に照明の推定と密接に関わる
  • 4. Symmetry in 3D Vision • 本研究では不良設定問題の制約として、物体の対称性を利用 • 物体の対称性は、有用な制約として活用できる • 例) 対称性を利用したステレオマッチング (François+ 2003) • 物体の対称性を仮定すると、画像の反転により別視点の画像が作れる François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry. Image and Vision Computing, 2003.
  • 5. Symmetry in 3D Vision • 前述のように、対称性の活用が鍵 • しかし、非対称性への対処をする必要がある 1. 形状の非対称性 (e.g. 人間の髪型) 2. アルベドの非対称性 (e.g. 猫の模様の違い) 3. 照明条件による非対称性 • 2つのアプローチで対処 1. 照明の明示的なモデリング • shapeを復元するのにも役立つ 2. 各ピクセルが線対称である確率を推論する ここまでが、基本的なアイデアの話 次のスライドから詳細を説明します
  • 6. Deep Learning x 3D • 既存手法との比較 • この表を精査したわけではな いですが、画像のみから4つの パラメータを推定する問題設 定はかなりチャレンジングに 見えます
  • 8. 提案手法: Photo-geometric autoencoders • 入力画像: (3 x W x H) のテンソル • 物体がだいたい中央にあるように撮影 • 画像から次の4つの要素を推定 • 𝑑 : デプスマップ • 𝑎 : アルベド画像 • 𝑙 : 照明の方向 (global light direction) (2自由度) • 𝑤 : カメラ姿勢 (6自由度) DNNで4つの要素を推定
  • 9. 提案手法: Photo-geometric autoencoders • 4つの要素から以下の関数で画像を復元 • Λ : lighting function • Π : reprojection • Λ, Πには以下のような役割がある • Λは、デプス、照明、アルベドから正面画 像 (canonical view) を復元する • Πは、デプス、カメラ視点を用いて、正面 画像を目的の視点に再投影する Λ, Πの詳細は後ほど説明します Λにより正面画像 の復元 Πで正面画像を 元の画像のview に再投影
  • 10. 提案手法: Probably symmetric objects • 対称性を活用するためには、対称の軸 をうまく発見する必要がある • 本研究では、これを暗黙的に解いた • 入力画像からデプス、アルベドを推定す る時に左右対称の正面画像として推定 • 推定したデプス、アルベドを反転させて も同じ画像が復元されるように学習 左右対称を保証するため デプスとアルベドを左右対称 の正面画像として推定
  • 11. 提案手法: 損失関数 • モデルは以下の損失学習で訓練 • confidence 𝜎 で重み付けしたL1 loss (ラプラス分布のnegative loss likelihoodと等価) • confidenceについては次のスライドで説明します • 反転させたデプスとアルベドから再構成した画像についても同じ損失を計算 • 左右対称なデプス、アルベドの学習を促進 • 反転なし + 反転あり の合計を最終的な損失とする 再構成誤差 反転画像の再構成誤差
  • 12. 提案手法: Probably symmetric objects • 予測の不確かさ・物体の非対称性のモ デリング • confidence map 𝜎, 𝜎′ として出力 • 𝜎, 𝜎′ はそれぞれ損失関数の中で用いら れる • 特に𝜎′は非対称性をモデリング • 右図の𝜎′では髪の毛の領域の不確かさが 大きくなっている • 髪は左右非対称の可能性が高い モデルの不確かさを推定
  • 13. Image formation model • Π, Λの詳細についての説明 • Πはデプス、カメラ視点を用いて、正 面画像を目的の視点に再投影する • カメラの内部パラメータK • R, tは外部パラメータ ここ
  • 14. Image formation model • Λは、デプス、照明、アルベドから正 面画像 (canonical view) を復元する • 𝑘 𝑠, 𝑘 𝑑 : アンビエント光とデフューズ光 の係数 • 𝑙 : 照明の方向ベクトル • 𝑛 𝑢𝑣 : デプスから算出した法線ベクトル • 𝑎 𝑢𝑣 : アルベド光 • 照明と法線の内積によりデフューズ の強さが決まる 照明による画像の非対称性をモデリング できる ここ
  • 15. 提案手法: 全体図 (再掲) • AutoEncoder型のネッ トワークで、デプス、 アルベド、カメラ姿勢、 照明を推定 • 推定した値から元の画 像を復元 再構成誤差で学習 左右反転させて同じこと をやる
  • 16. 実験 • Dataset • CelebA : 人間の顔のデータセット • 3DFAW: 人間の顔のデータセット (キーポイント付き) • BFM : 人間の顔のデータセット (3Dモデルあり) • cat dataset: 猫の顔のデータセット (一部キーポイントあり) • ShapeNet: 車の3Dモデルのデータを使用 • Metrics • scale-invariant depth error (SIDE) : デプスの誤差 • mean angle deviation (MAD) : 法線の誤差
  • 17. 実験: (ベースラインとの比較) • BFM dataset (人間の顔の3Dモデル)を用いてデプスとカメラ姿勢が 正しく推定できているか検証 • 教師ありで学習した結果よりは悪いがデプスの平均値をで予測するよりは良 い
  • 18. 実験: (Ablation) • 何が効いているのか確認 • アルベドとデプスのflipはよく効いている • 照明もよく効いている
  • 19. 実験 (Qualitative Results) • CelebA, 3DFAW, cat faces, ShapeNetの結果 • いい感じに三次元形状が 復元されている • 珍しい表情には対応でき てない? (2列目)
  • 20. 実験 (symmetry and asymmetry detection) • 対象の軸の可視化 (左図) • 非対称領域の可視化 (右図) • 人間の髪の毛や猫の顔の模様
  • 21. 実験 (Limitation) • 照明条件が極端な場合 (a) • 鏡面反射や影を仮定していないため • テクスチャに暗い色がノイズ的に含まれる場合 (b) • shadingと暗いテクスチャの区別がつかない • 物体が学習データにあまりないポーズの時 ©
  • 22. まとめ • 単一画像から非剛体物体の3Dモデルを学習 • 推定したパラメータから画像を復元し、再構成誤差により学習 • 対称性と照明が、形状復元の重要な手がかりとなった • Future work • 複数の正面画像の生成 • デプスの代わりにメッシュやボクセルの使用 より複雑な形状の物体に対応できるように! • 感想 • 対称性を活用するというアイデアが面白い • 適用対象が人間の顔画像が中心だったが、さらに複雑なデータに適用できるように なるのか(CIFAR-10から復元するとか)
  • 23. 参考文献 • S. Wu et al. Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild. CVPR, 2020. • D. Shao et al. FineGym: A Hierarchical Video Dataset for Fine- grained Action Understanding, CVPR, 2020. • François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry. Image and Vision Computing, 2003.