Implicit 3D Orientation Learning for
6D Object Detection from RGB Images
(ECCV 2018 Oral; Best Paper)
Martin Sundermeyer1, Zoltan-Csaba Marton1, Maximilian Durner1,
Manuel Brucker1, Rudolph Triebel1,2
1German Aerospace Center (DLR), 2 Technical University of Munich
1
http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html
資料作成:⽚岡 裕雄
6D物体検出 (6D Object Detection)?
2
XYZ空間で (1) 物体検出 (2) 姿勢推定を同時実⾏
– とにかく難しい!
• 2Dと⽐較すると3Dの検出は空間が劇的に広がる
• その上,物体の回転⾓も3Dで求める
https://www.youtube.com/watch?v=YBwHZ8yOXfc
アノテーション作業もただ2D bboxを付与すれば良いと
いうわけではなく,3D空間上で位置と姿勢を対応付
=> CAD等を使い,⾃動でデータ作成したい
@LineMOD dataset
この論⽂,何がすごいか?(Why Best Paper?)
3
• 6D物体検出(3次元空間上での位置+姿勢推定問題)に対し,
– 合成データ使⽤,リアルデータなし/姿勢ラベルなしで⾼
精度モデルを学習,RGB画像のみ⼊⼒で推論
– オクルージョン,複雑背景,環境の同的変化に対応
– 計算を効率化,リアルタイムで処理可能
関連研究(1/4)
4
– 6D物体検出のコンペティション
– 統合データセット(下記)により構成
同コンペの統合DBと⼿法ごとの解析もまたECCV2018にacceptされている
Hodan+, “BOP: Benchmark for 6D Object Pose Estimation,” in ECCV 2018.
https://arxiv.org/pdf/1808.08319.pdf
応⽤先
• 産業ロボット,VR/AR
Workshop/Competition
• この分野を流⾏らせたい,研究者を増やし
たいという意気込みで開催することが多い
• 今後,さらにアクティブになる?
関連研究(2/4)
5
• Point Pair Feature (PPF)
– SIXD Challenge 2017でも優勝(と書いてある)
– 参照点とそのペアとなる部分に投票,共起性が強⼒な拘
束となり強い特徴となる
関連研究(3/4)
6
• Domain Randomization
– CAD学習(下図),実空間6D検出(右図)
– ベースモデル: Faster R-CNN
– 学習パラメータ固定*発⾒
Hinterstoisser+, “On Pre-Trained Image Features and Synthetic Images for Deep Learning,” in arXiv
preprint 1710.10710, 2017. https://arxiv.org/pdf/1710.10710.pdf
* CADの⼤量データで学習したパラメータを固定,出⼒に近い
CNNパラメータのみをFinetuning
関連研究(4/4)
7
• SSD-6D
– 物体検出 => 3D 姿勢検出という流れ
– 異なる⼤きさの物体をSSDでマルチスケール検出
– 3D Rotationの学習をCADで実施
Kehl+, “SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again,” in ICCV, 2017.
http://openaccess.thecvf.com/content_ICCV_2017/papers/Kehl_SSD-6D_Making_RGB-
Based_ICCV_2017_paper.pdf
提案⼿法のポイント(1/3)
8
• AAEを⽤いた3次元姿勢推定問題
– 3Dの回転を求めるのが(⼀般的にも)難しい
– AE: Autoencoder
• Encoder Ψ / Decoder Φ を経て⼊出⼒を⼀致させるよう学習
– AAE: Augmented Autoencoder
• Encoderの潜在空間を変化,どの要素を使⽤するか操作
• ⼊⼒画像にRandom Augmentation faugmを加える
AAEは変化するスケール/並進にて回転の推定を実施!
提案⼿法のポイント(2/3)
9
• AAEを⽤いた3次元姿勢推定問題
– AAE: Augmented Autoencoder
• Encoderの潜在空間を変化,どの要素を使⽤するか操作
• ⼊⼒画像にRandom Augmentation faugmを加える
(d) -> (a)にて,スケール変化/並進が起こっ
た場合でも⾓度の推定を正確に実現
提案⼿法のポイント(3/3)
10
• AAEによるEnc./Dec.(3D姿勢推定)の学習
a) 3次元モデルから2次元画像 x に投影
b) faugmにて画像拡張: 証明や背景等を変動
c) Enc./Dec.にて画像を復元,x^ との誤差計算
提案⼿法のアーキテクチャ/パラメータ(2/2)
11
• 本提案のフロー(右図)
• RGB: SSD, AAE 3D回転推定,距離推定
• Depth(オプション): ICPによる距離調整
• AAEのパラメータ(左図)
• L2 pixel loss, 128x128 [pixel]
• 20,000 views w/ OpenGL
• 学習率: 2.0 x 10-4, 初期化: Xavier
• バッチサイズ: 64, 学習回数: 30,000
• 4 hours on NVIDIA GeForce GTX 1080
提案⼿法のアーキテクチャ/パラメータ(2/2)
12
Offline
• 3Dモデルの回転を網羅した画像を⽣成
• AAEのエンコーダを通してコードブック(zi = {z1, …, zn}; 128-dim)を⽣成
Online
• 検出領域をAAEのエンコーダに通してベクトル(ztest)抽出
• ziとztestを⽐較,最近傍ベクトルを割り当てることで回転⾓推定
処理時間
13
• リアルタイム処理(40fps)を実現
• 各⼯程における時間配分
• 4CPUs/GPU (GTX1080)を使⽤
• SoTAなモデルとの⽐較
• 提案法は42fpsとかなり良好な処理時間
Ablation Study
14
• 異なるセンサ間での評価
– 3Dモデルと任意のセンサでもかなり良好な精度を実現!
• 評価はSIXD challenge@ICCV2017を参照
• 誤差20mmを許容してerr < 0.3 & obj. visibility > 10%
• 上のrecallを計算,その⾯積でAUCを算出
Ablation Study
15
• Latent Space Size
• CAD vs. Textured 3D Reconstruction
AAEの潜在空間のサイズ
• 64-dimで頭打ち
モデルはCADか?3Dモデルの2D投影?
• 学習回数25,000までを評価
• Textured 3D Reconstructionの勝利
異なるデータセット間の学習・テスト
16
• AAE(提案⼿法) vs. SSD6D
– 実空間の姿勢ラベルなし/RGBのみ使⽤で6D物体検出
• AAE 28.65 vs. SSD6D 2.42
所感
17
• 6D物体検出アツい!
– 産業応⽤の⾃動化にダイレクトに繋がる
• ⽣産数が多い⾃動⾞等⼯業製品の労働を代替可能
• 1秒単位(どころか0.1秒単位)の時間短縮を重要視するので⾃動化したい
– 2D検出よりも3D検出はかなり難しそう
• アノテーション⼤変なのでドメイン変換したい
• ビューポイント変換やセンサ計測等の基礎技術を考える
– 本⼿法はラベルなしに3D姿勢推定ができるの凄い!
• 変換画像 faugmを挟んで特徴抽出を学習するのGood Idea(さすがBP)
• シンプルに構成されていて精度が出ているので完成度⾼い

More Related Content

PDF
三次元表現まとめ(深層学習を中心に)
PDF
自己教師学習(Self-Supervised Learning)
PDF
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
[DL輪読会]自動運転技術の課題に役立つかもしれない論文3本
PDF
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
PDF
全力解説!Transformer
PDF
ガイデットフィルタとその周辺
三次元表現まとめ(深層学習を中心に)
自己教師学習(Self-Supervised Learning)
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
【メタサーベイ】数式ドリブン教師あり学習
[DL輪読会]自動運転技術の課題に役立つかもしれない論文3本
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
全力解説!Transformer
ガイデットフィルタとその周辺

What's hot (20)

PDF
[DL輪読会]Deep Learning 第15章 表現学習
PDF
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
PDF
多様な強化学習の概念と課題認識
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
PPTX
【DL輪読会】Reward Design with Language Models
PDF
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
PDF
点群深層学習 Meta-study
PPTX
[DL輪読会]Focal Loss for Dense Object Detection
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
PDF
Skip Connection まとめ(Neural Network)
PDF
生成モデルの Deep Learning
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
Generative Models(メタサーベイ )
PPTX
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
PPTX
[DL輪読会]Flow-based Deep Generative Models
PPTX
カルマンフィルタ入門
PDF
ドメイン適応の原理と応用
PDF
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
PDF
点群SegmentationのためのTransformerサーベイ
[DL輪読会]Deep Learning 第15章 表現学習
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
多様な強化学習の概念と課題認識
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
【DL輪読会】Reward Design with Language Models
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
点群深層学習 Meta-study
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会] マルチエージェント強化学習と心の理論
Skip Connection まとめ(Neural Network)
生成モデルの Deep Learning
【DL輪読会】ViT + Self Supervised Learningまとめ
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Generative Models(メタサーベイ )
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
[DL輪読会]Flow-based Deep Generative Models
カルマンフィルタ入門
ドメイン適応の原理と応用
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
点群SegmentationのためのTransformerサーベイ
Ad

Similar to 【ECCV 2018】Implicit 3D Orientation Learning for 6D Object Detection from RGB Images (Oral; Best Paper) (20)

PPTX
cvsaisentan20141004 kanezaki
PPTX
[DL輪読会]Human Pose Estimation @ ECCV2018
PPTX
都市3Dメッシュを使ってみる
PPTX
3Dマップを活用したVisual Localization
PDF
【メタサーベイ】Face, Gesture, and Body Pose
PDF
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PDF
Slide computational design2016_06_161026
PPTX
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
PPTX
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
PDF
論文 Solo Advent Calendar
PDF
Reconstructing the World’s Museums
PPTX
石造物3Dアーカイブプロジェクト―その手法と可能性―
PDF
第126回 ロボット工学セミナー 三次元点群と深層学習
PDF
幾何と機械学習: A Short Intro
PDF
[DL輪読会]Grasping Field: Learning Implicit Representations for Human Grasps
PDF
先端技術とメディア表現 第4回レポートまとめ
PDF
object detection with lidar-camera fusion: survey (updated)
PDF
SSII2020 [O3-01] Extreme 3D センシング
PDF
Introduction to YOLO detection model
cvsaisentan20141004 kanezaki
[DL輪読会]Human Pose Estimation @ ECCV2018
都市3Dメッシュを使ってみる
3Dマップを活用したVisual Localization
【メタサーベイ】Face, Gesture, and Body Pose
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
Slide computational design2016_06_161026
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
論文 Solo Advent Calendar
Reconstructing the World’s Museums
石造物3Dアーカイブプロジェクト―その手法と可能性―
第126回 ロボット工学セミナー 三次元点群と深層学習
幾何と機械学習: A Short Intro
[DL輪読会]Grasping Field: Learning Implicit Representations for Human Grasps
先端技術とメディア表現 第4回レポートまとめ
object detection with lidar-camera fusion: survey (updated)
SSII2020 [O3-01] Extreme 3D センシング
Introduction to YOLO detection model
Ad

【ECCV 2018】Implicit 3D Orientation Learning for 6D Object Detection from RGB Images (Oral; Best Paper)