SlideShare a Scribd company logo
第5回 3D勉強会@関東
最新論文読み会
東北大学 橋本研究室 D2
千葉 直也
自己紹介
名前: 千葉直也 (Naoya Chiba)
所属: 東北大学大学院情報科学研究科 橋本研究室
学年: 博士課程後期2年
主な研究分野:
三次元ロボットビジョン
点群深層学習の人と
思われがちですが,
本業は三次元計測です・・・
Twitter: @n_chiba_
HP: https://sites.google.com/view/n-chiba-
2
紹介する論文
PointNetLK: Robust & Efficient Point Cloud
Registration Using PointNet
Yasuhiro Aoki, Hunter Goforth, Rangaprasad Arun Srivatsan,
Simon Lucey
CVPR2019, arXiv: 1903.05711
一行要約
Lucas-Kanade法(LK法)にPointNetを利用して
点群の位置合わせを行う
関連: 点群深層学習を使った位置合わせ
結構提案されている
• 3DMatch (CVPR2017)
Voxelベースの局所特徴量
• LORAX (CVPR2017)
局所座標系でのDepthベースの局所特徴量
• Compact Geometric Features (ICCV2017)
局所座標系でのヒストグラムベースの局所特徴量
• 3DFeat-Net (ECCV2018)
地面方向を利用,SharedMLP+Poolingによる局所特徴量
• 3DSmoothNet: (CVPR2019)
局所座標系でのボクセルベースの局所特徴量
これは一部のはず.
ICCV2019, BMVC2019あたりはまだ全然追えてないです
関連: 点群深層学習を使った位置合わせ
結構提案されている
• RelativeNet (CVPR2019)
生点群とPPFから得られる特徴量の差から剛体変換を推定
• IT-Net (CVPR2019WS)
SharedMLP+Poolingによる大域特徴量
• USIP (arXiv:1904.00229)
局所点群から位置合わせに適した特徴点検出
• 3DRegNet (arXiv:1904.01701)
点群同士の対応の確からしさと剛体変換を同時に推定
• Leveraging Shape Completion for 3D Siamese Trackin
(arXiv:1903.01784)
SharedMLP+Poolingによる局所特徴量+Siameseトラッカー
これは一部のはず.
ICCV2019, BMVC2019あたりはまだ全然追えてないです
関連: 周辺の研究
非Deepな手法もまだ発展している
• SDRSAC (CVPR2019)
• ランダムサンプリング+マッチングを効率よく計算
• 点同士の組合せを最適化問題に定式化
• 制約を半正定値制約に緩和して半正定値計画問題を解く
• A symmetric objective function for ICP (SIGGRAPH2019)
• ICPのPoint-to-Planeの改良,対応する両点の法線を利用
• ほとんど計算量に変化なく収束性が改善
その他に関連するDeepな話題
• PointFlow推定(Optical Flowの点群版)
最近arXivではよく見かける気がする・・・?
大まかな分類
点群深層学習を用いた位置合わせ
• 局所特徴量ベース
• よくある枠組み(局所形状→特徴量→マッチング→RANSACなど)を利用
• それ以外
• 大域特徴量ベース
• 一回で推定
• T-net (PointNet)など
• 反復して推定
• IT-Net, PointNetLKなど
今日着目する問題
点群同士の位置合わせ
• 一つと一つを剛体変換で位置合わせ
• 物体認識に近いタスクは取り扱わない
• 変形も取り扱わない
• ICP (Iterative Closest Point) がベースライン
• ノイズや隠れにロバスト(であってほしい)
PointNet
PointNet: Deep Learning on Point Sets for 3D
Classification and Segmentation
• CVPR2017, arXiv: 1612.00593
•三次元点群を直接ニューラルネットワークに
入力し,クラス分類/セマンティックセグメンテー
ションを行う
• Symmetric Functionによる順不同な入力への対応
(今回関連する部分)
• Spatial Transformer Networkによる剛体変換の正規化
関連研究: IT-Net[W. Yuan+, arXiv:1811.11209]
3D剛体変換を学習し回転をそろえるための
Iterative Transformer Network (IT-Net)を提案
• 剛体変換を反復して剛体変換を推定
入力点群
推定された
変換
入力点群に
変換を適用 一度変換した点群 変換の差分を推定・適用
全ての変換を合わせて最終的に出力する変換を得る
Lucas-Kanade法について
もともとは2Dでテンプレート画像の
レジストレーションを行う手法
「画像がどれくらい変化したか」を推定する
変形の推定→移動→変形の推定→移動→・・・を
反復することで推定する
橋本浩一.ビジュアルサーボ-VI : ビジュアルトラッキング.
システム/制御/情報 54(7), 264-273, 2010.
ソース テンプレート
Lucas-Kanade法について
•変形の推定
• min
𝚫𝒑
𝑰 𝑤 𝒑 + 𝚫𝒑 − 𝑰∗ 2
• 𝑰: (変形した)画像(便宜上ベクトル化したものと考える)
• 𝑰∗
: テンプレート画像(便宜上ベクトル化したものと考える)
• 𝑤: 画像の変形(warp)
• 𝒑: 変形のパラメータ・・・最終的に推定したい
• 𝚫𝒑: 微小変形・・・この最適化問題で推定
•移動の適用
• 𝒑 ← 𝒑 + 𝚫𝒑
変形の推定
• 𝑰 𝑤 𝒑 + 𝜟𝒑 を𝒑周りでテイラー展開
• 𝑰 𝑤 𝒑 + 𝜟𝒑 ≈ 𝑰 𝑤 𝒑 + 𝐽𝜟𝒑
• 𝐽: パラメータ𝒑に対する𝑰のヤコビアン
• 移動量𝜟𝒑は小さいという仮定
•最適化問題に代入
• min
𝜟𝒑
𝑰 𝑤 𝒑 + 𝐽𝜟𝒑 − 𝑰∗ 2
• ヤコビアン𝐽を用いたニュートン法で解くと
−𝐽𝜟𝒑 = 𝑰 𝑤 𝒑 − 𝑰∗
→ 𝜟𝒑 = −𝐽+
𝑰 𝑤 𝒑 − 𝑰∗
• ここの最適化については陽に擬似逆行列を計算しない,
ガウス・ニュートン法やLM法を用いるなど色々ある
Inverse Composition (IC) Algorithm
ソースとテンプレートを入れ替えることで
ヤコビアンの計算を一度で済むようにする
• min
𝚫𝒑
𝑰∗
𝑤 𝒑 + 𝚫𝒑 − 𝑰
2
・・・𝜟𝒑 = 𝐽+ 𝑰 𝑤 𝒑 − 𝑰∗
• ここでの𝐽はテンプレート画像𝑰∗
の𝒑に対する微分
:反復によらず固定できる
• 𝒑 ← 𝒑 + 𝚫𝒑
ソース テンプレート
テンプレート周りでの勾配の推定で済ませる
点群と剛体変換
•表記
• 𝑃𝑆: ソース点群(移動元)
• 𝑃𝑇: テンプレート点群(移動先)
• 𝐺: 剛体変換
• 𝑃 𝑇 = 𝐺 ⋅ 𝑃𝑆となるような𝐺を推定する
• 各反復で𝛥𝐺を推定,結合して最終的な推定結果とする
• 𝐺 = 𝛥𝐺 𝑛 ⋯ 𝛥𝐺2 ⋅ 𝛥𝐺1 ⋅ 𝛥𝐺0
ICを用いる
キーアイデア:
PointNet(𝜙と表記)を用いて剛体変換を比較する
𝜙 𝑃𝑆 − 𝜙 𝐺−1
⋅ 𝑃𝑇
2
→ min
テンプレート周りで勾配を考える
→ ヤコビアンの計算がテンプレート点群のみに
依存
→ テンプレートが決まれば(姿勢更新に関係
なく)ヤコビアンの計算ができる
ヤコビアンは数値的に求める(後述)ため,
計算コストが大きい
ここがオフラインで計算できると嬉しい
Δ𝐺 = exp ෍
𝑖
𝜉𝑖 𝑻𝑖
剛体変換をパラメトライズ
剛体変換 SE(3)の指数写像に対する生成元パラメータ(ベクトル)
𝝃 = 𝜉1, 𝜉2, ⋯ , 𝜉6
T
剛体変換:
三次元ユークリッド空間での運動群SE(3)の要素
SE(3)の指数写像に対する生成元の重み付け和を求め,
これを指数関数で変換した行列として剛体変換を記述
PointNetによる点群同士の比較
𝜙をPointNetによる特徴ベクトルへの変換とする
ICを導入することを前提にすると,
ICで考えるため,これを𝐺−1について解く
変換先のパラメータ周りで一次近似する
変換元の点群 変換先の点群求める剛体変換の逆変換
パラメータに対するヤコビアン パラメータ
𝜙 𝑃𝑠 = 𝜙 Δ𝐺−1
𝑃 𝑇
𝜙 𝑃𝑠 ≅ 𝜙 𝑃 𝑇 +
𝜕
𝜕𝝃
𝜙 Δ𝐺−1
⋅ 𝑃 𝑇 𝝃
PointNetのヤコビアン
パラメータに対するヤコビアンを𝐽とおく
𝜙 𝑃𝑠 = 𝜙 𝑃 𝑇 +
𝜕
𝜕𝝃
𝜙 Δ𝐺−1
⋅ 𝑃 𝑇 𝝃 = 𝜙 𝑃 𝑇 + 𝐽𝝃
𝐽 =
𝜕
𝜕𝝃
𝜙 Δ𝐺−1
⋅ 𝑃 𝑇
𝜙 𝑃𝑠 − 𝜙 𝑃 𝑇 = 𝐽𝝃
剛体変換のパラメータ=これを求めたい
ヤコビアンの計算
パラメータに対するPointNetの微分を考えるのは
非常に難しい → 数値的にヤコビアンを計算
ヤコビアン𝐽の各列𝑱𝑖をパラメータの微小変動で近似
𝑱𝑖 =
𝜕
𝜕𝜉 𝑖
𝜙 Δ𝐺−1 ⋅ 𝑃 𝑇
=
𝜕
𝜕𝜉 𝑖
𝜙 exp σ𝑖 𝜉𝑖 𝑻𝑖
−1
⋅ 𝑃 𝑇
=
𝜕
𝜕𝜉 𝑖
𝜙 exp σ𝑖 −𝜉𝑖 𝑻𝑖 ⋅ 𝑃 𝑇
=
𝜕
𝜕𝜉 𝑖
𝜙 exp −𝜉𝑖 𝑻𝑖 ⋅ 𝑃 𝑇
=
𝜙 exp −𝑡 𝑖 𝑻 𝑖 ⋅𝑃 𝑇 −𝜙(𝑃 𝑇)
𝑡 𝑖
差分で近似
ヤコビアンの計算
パラメータに対するPointNetの微分を考えるのは
非常に難しい → 数値的にヤコビアンを計算
ヤコビアン𝐉の各列𝐉𝑖をパラメータの微小変動で近似
𝐓に沿った
微小な剛体変換
微小な剛体変換後の点群に
対するPointNetの出力
元の点群に対する
点群のPointNetの出力
𝑱𝑖 =
𝜙 exp −𝑡𝑖 𝑻𝑖 ⋅ 𝑃 𝑇 − 𝜙(𝑃 𝑇)
𝑡𝑖
パラメータの更新
ヤコビアンの疑似逆行列によりパラメータを更新
ヤコビアンの疑似逆行列
𝐽𝝃 = 𝜙 𝑃𝑆 − 𝜙 𝑃 𝑇
𝝃 = 𝐽+
𝜙 𝑃𝑆 − 𝜙 𝑃 𝑇
求めたかった剛体変換のパラメータ
Δ𝐺 = exp ෍
𝑖
𝜉𝑖 𝑻𝑖
剛体変換をパラメトライズ
剛体変換 求めたパラメータ
求めたパラメータを用いて剛体変換を計算
𝐺 ← Δ𝐺 ⋅ 𝐺
剛体変換の更新
𝑃𝑆 ← Δ𝐺 ⋅ 𝑃𝑆
処理の流れとネットワーク構造
•PointNetに近い構造,T-Netを取り除いている
•行列対数関数を計算しなくて良いように,
順変換してから逆変換した行列と単位行列を比較
Shared MLP+Average Pooling
ヤコビアンの計算
パラメータ推定
推定剛体変換の更新
実装・実験の詳細
•PointNetのmax-pooling部分はAverage-poolingで
置き換え
• ノイズを与えたデータに対してのパフォーマンスを
比較したところ,こちらのほうが良かった
•ModelNet40のうち20Objectで学習
• クラス分類を学習させてからfine tuning
• ランダムな剛体変換を与えて学習データを生成
実験結果
学習に用いたクラスと用いなかったクラスでの比較
• 青: ICP
• 緑: PointNetLK(学習に用いたクラス)
• 橙: PointNetLK(学習に用なかったクラス)
実験結果
ノイズに対するロバスト性の評価
• 青: ICP
• 橙: PointNetLK(学習時ノイズなし)
• 緑: PointNetLK(学習時ノイズあり)
実験結果
未知クラス&ノイズありの場合でのICPとの比較
• 青: 初期姿勢/PointNetLK
• 橙: ICP
実験結果
全周ではない点群での比較
max-poolingに変更している
実験結果
計算時間の比較
• ICPは𝑂 𝑛2
• PointNetLKは近傍点探索を行わないため𝑂(𝑛)のオーダー
まとめと感想
•LKの特徴量計算にPointNetの構造を利用した論文
•ネットワークだけに頼らない,PointNetの
良い利用例
• ICとの相性も良い
•感想
• どのようにパラメータを取るか,が重要な印象
• End-to-Endが全てではない
• まだまだ位置合わせについてもやることはあるはず
• 複数物体,ノイズ,実データ,データセット不足,etc…

More Related Content

PDF
Point net
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PDF
SSII2019企画: 点群深層学習の研究動向
PDF
3次元レジストレーション(PCLデモとコード付き)
PDF
Semantic segmentation
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
PPTX
近年のHierarchical Vision Transformer
Point net
三次元点群を取り扱うニューラルネットワークのサーベイ
SSII2019企画: 点群深層学習の研究動向
3次元レジストレーション(PCLデモとコード付き)
Semantic segmentation
【メタサーベイ】数式ドリブン教師あり学習
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
近年のHierarchical Vision Transformer

What's hot (20)

PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PDF
3D CNNによる人物行動認識の動向
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
動作認識の最前線:手法,タスク,データセット
PPTX
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
点群深層学習 Meta-study
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
SfM Learner系単眼深度推定手法について
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
PDF
12. Diffusion Model の数学的基礎.pdf
PDF
【メタサーベイ】Neural Fields
PPTX
[DL輪読会]Objects as Points
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
グラフニューラルネットワーク入門
PPTX
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
[DL輪読会]Pay Attention to MLPs (gMLP)
3D CNNによる人物行動認識の動向
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
動作認識の最前線:手法,タスク,データセット
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Transformerを多層にする際の勾配消失問題と解決法について
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
点群深層学習 Meta-study
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
SfM Learner系単眼深度推定手法について
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
[DL輪読会]MetaFormer is Actually What You Need for Vision
12. Diffusion Model の数学的基礎.pdf
【メタサーベイ】Neural Fields
[DL輪読会]Objects as Points
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
グラフニューラルネットワーク入門
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
Ad

Similar to 論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」 (20)

PPT
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
PDF
Learning Convolutional Neural Networks for Graphs
PDF
Learning Convolutional Neural Networks for Graphs
PDF
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
PDF
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
PDF
Taking a Deeper Look at the Inverse Compositional Algorithm
PDF
第126回 ロボット工学セミナー 三次元点群と深層学習
PPTX
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
PPTX
[DL輪読会]Learning to Navigate in Cities Without a Map
PPTX
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
PDF
2012-03-08 MSS研究会
PPTX
20161203 cv 3_d_recon_tracking_eventcamera
PPTX
Chainer Familyで始めるComputer Visionの研究・開発【修正版】
PPTX
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
PDF
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
PPTX
関東CV勉強会20140802(Face Alignment at 3000fps)
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PPTX
Eccv2018 report day3
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
PDF
2020/07/04 BSP-Net (CVPR2020)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
Taking a Deeper Look at the Inverse Compositional Algorithm
第126回 ロボット工学セミナー 三次元点群と深層学習
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
2012-03-08 MSS研究会
20161203 cv 3_d_recon_tracking_eventcamera
Chainer Familyで始めるComputer Visionの研究・開発【修正版】
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
関東CV勉強会20140802(Face Alignment at 3000fps)
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Eccv2018 report day3
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
2020/07/04 BSP-Net (CVPR2020)
Ad

論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」