SlideShare a Scribd company logo
3D物体検出の
理論と取り組み
第33回 Machine Learning 15minutes!
自己紹介
● Tier4 技術本部
○ 関谷 英爾
● 経歴
○ DeNA 2014/04 ~ 2018/03
■ 分析基盤 (Hadoop, Vertica)
■ 機械学習 (レコメンド, 強化学習, 組合せ最適化)
○ Tier IV 2018/03~
■ データ基盤・機械学習基盤
@eratostennis
今日のお話
● 3D物体検出の理論について丁寧な説明はしません
● 動向と自動運転での付き合い方について説明します
概要
● 自動運転のコンポーネント
● 3Dの物体検出手法の紹介
● ラベリングツール
● 今後の開発
自動運転OSS Autoware
Retrieved from https://github.com/CPFL/Autoware
自動運転OSS Autoware
Retrieved from https://github.com/CPFL/Autoware
自動運転に組み込まれているDeep Learning
● 検出タスク (2D Bounding Box)
○ Yolov3
● 検出タスク (3D Bounding Box)
○ VoxelNet
● 分類タスク (信号色認識)
○ DenseNet
● etc.
自動運転に組み込まれているDeep Learning
● 検出タスク (2D Bounding Box)
○ Yolov3, etc.
● 検出タスク (3D Bounding Box)
○ VoxelNet, etc.
● 分類タスク (信号色認識)
○ DenseNet
● etc.
3Dの物体検出の特徴
● 点群データの特徴
○ 3D, Sparse
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
Euclidean Cluster
単純に距離の近いものを同一クラスタとみなす
EuclideanClusterで障害物検出と十分な計算量削減が可能
ただし、Semantic情報があれば、さらにトラッキング精度なども上がってくる
ちゃんと物体単位で検出したい
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
3D物体検出の精度評価
Bird’s Eye View (BEV)
3D Bounding Box
The KITTI Vision Benchmark Suite. Retrieved from http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=bev
The KITTI Vision Benchmark Suite. Retrieved from http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d
MV3D
● 特徴
○ 画像とPCDをFusion
○ PCDは2D Convで扱えるようBirdViewとFrontViewに変換
Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, Tian Xia. 2017.
Multi-View 3D Object Detection Network for Autonomous Driving
arXiv:1611.07759.
Retrieved from https://arxiv.org/abs/1611.07759
MV3D
● 精度
○ 当時のSOTAを達成
● 課題
○ 処理が重く律速となる
30 Hz
10 Hz
VoxelNet
● 特徴
○ 3D 物体検出初のEnd-to-end学習
○ Convolution Middle Layersは3D CNNで遅い (4.4Hz)
Yin Zhou, Oncel Tuzel. 2017.
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.
arXiv:1711.06396.
Retrieved from https://arxiv.org/abs/1711.06396
PointPillars
● 特徴
○ 3D CNNを使わずに高速化 (62Hz)
○ Single Shot Detectorによる位置の回帰とクラス分類
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Performance
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Performance
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
PointPillars
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Failure Case
歩行者とサイクリストの誤分類
街路樹を歩行者と分類
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
3D物体検出との付き合い方
● 精度が上がって来たが、まだまだ3D物体検出単体で使うには
いまいち
● 使い方
○ 画像とFusionする
■ Deep Learningで行う必要はない
○ 地図のレーン情報など他に持っているデータも利用する
● Trackingの精度向上
○ 単純な2Dだけで推測するより距離などは正確
○ 物体の運動モデルがだいたい分かっていれば役に立つ
● 2D & 3Dの物体検出教師データ作成ツール
Annotation Tool開発 Automan
● 2D & 3Dの物体検出教師データ作成ツール
Automan
Automan Architecture
Automan Architecture API Server
● User/Group登録
● Raw Data登録
● Annotation登録
Job Container
● Calibration
● Sampling
● AutoLabeling
OSSに向け準備中...
● 現在
○ Input
■ ROSBAG
○ Output
■ 2D & 3D Bounding Box
● 計画
○ Input
■ どんなサポートが欲しい?MP4?
○ Output
■ Polygon Labeling (Semantic Segmentation)
■ Landmark Labeling (Semantic Segmentation)
課題と今後の展望
● データ節約
○ 通信量 & ラベリング工数 & ストレージ
○ 学習できていないデータに絞った収集
● シミュレーションによるデータ生成
○ 精度の高い教師データの作成 (特に3D)
○ リアルとの違いの分析 (ノイズなどの影響や再現)
● 学習評価システム
○ 環境ごとのあるべき状態の定義・テストデータ整備
○ モデル説明性・解釈性 (Interpretability) の検討

More Related Content

PPTX
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
PDF
Point net
PPTX
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
PDF
Transformer メタサーベイ
PPTX
近年のHierarchical Vision Transformer
PPTX
[DL輪読会]Graph R-CNN for Scene Graph Generation
PDF
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
Point net
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
Transformer メタサーベイ
近年のHierarchical Vision Transformer
[DL輪読会]Graph R-CNN for Scene Graph Generation
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
三次元点群を取り扱うニューラルネットワークのサーベイ

What's hot (20)

PPTX
backbone としての timm 入門
PDF
Domain Adaptation 発展と動向まとめ(サーベイ資料)
PPTX
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
PDF
【メタサーベイ】Video Transformer
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild
PDF
Skip Connection まとめ(Neural Network)
PDF
敵対的生成ネットワーク(GAN)
PPTX
モデル高速化百選
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
ドメイン適応の原理と応用
PPTX
劣モジュラ最適化と機械学習1章
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
Automatic Mixed Precision の紹介
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PPTX
[DL輪読会]Objects as Points
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
最近のSingle Shot系の物体検出のアーキテクチャまとめ
PPTX
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
backbone としての timm 入門
Domain Adaptation 発展と動向まとめ(サーベイ資料)
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
【メタサーベイ】Video Transformer
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild
Skip Connection まとめ(Neural Network)
敵対的生成ネットワーク(GAN)
モデル高速化百選
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
ドメイン適応の原理と応用
劣モジュラ最適化と機械学習1章
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Automatic Mixed Precision の紹介
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]Objects as Points
【メタサーベイ】数式ドリブン教師あり学習
最近のSingle Shot系の物体検出のアーキテクチャまとめ
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
Ad

Similar to Trend of 3D object detections (20)

PDF
object detection with lidar-camera fusion: survey (updated)
PDF
object detection with lidar-camera fusion: survey
PDF
IEEE ITSS Nagoya Chapter
PDF
物体検知(Meta Study Group 発表資料)
PPTX
Sprint ronbunsyoukai
PDF
DeepLearningDay2016Summer
PDF
SSII2018TS: 3D物体検出とロボットビジョンへの応用
PDF
20181130 lidar object detection survey
PDF
3DFeat-Net
PDF
Tutorial-DeepLearning-PCSJ-IMPS2016
PDF
Muramatsu Bachelor Thesis
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
PDF
点群深層学習 Meta-study
PDF
CVPR 2019 report (30 papers)
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PDF
三次元表現まとめ(深層学習を中心に)
PDF
CVPR2013の論文紹介(車載カメラ関連)
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
PDF
第126回 ロボット工学セミナー 三次元点群と深層学習
PDF
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey
IEEE ITSS Nagoya Chapter
物体検知(Meta Study Group 発表資料)
Sprint ronbunsyoukai
DeepLearningDay2016Summer
SSII2018TS: 3D物体検出とロボットビジョンへの応用
20181130 lidar object detection survey
3DFeat-Net
Tutorial-DeepLearning-PCSJ-IMPS2016
Muramatsu Bachelor Thesis
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
点群深層学習 Meta-study
CVPR 2019 report (30 papers)
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
三次元表現まとめ(深層学習を中心に)
CVPR2013の論文紹介(車載カメラ関連)
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
第126回 ロボット工学セミナー 三次元点群と深層学習
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
Ad

Trend of 3D object detections