VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

© GO Inc.
2023年4月30日第58回コンピュータビジョン勉強会＠関東（深層学習＋
3D論文読み会）
VoxFormer: Sparse Voxel Transformer for
Camera-based 3D Semantic Scene Completion
GO株式会社（旧: Mobility Technologies）
宮澤一之

© GO Inc. 2
自己紹介
宮澤一之
GO株式会社（旧: Mobility Technologies）
AI技術開発部 AI研究開発第二グループ
グループマネージャー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
@kzykmyzw

© GO Inc.
論文情報
● arXiv初出は2023年2月23日
● CVPR 2023 Highlights（採択論文の10%）
● 著者の所属は多いが、NVIDIAメインの研究と思われる（GitHubリポジトリもNVlabs）
[paper] [code]
3

© GO Inc.
何ができるのか
RGB画像からのSemantic Scene Completion (SSC)
SSC = 完全な3次元ボリュームの復元＋セマンティックセグメンテーション
https://github.com/NVlabs/VoxFormer/blob/main/teaser/scene08_13_19.gif
4

© GO Inc.
● Semantic Scene Completion (SSC)というタスクを初めて定義
● 入力となるデプス画像を物体表面からの符号付き距離を各ボクセルに格納した
TSDF (Truncated
Signed Distance Function)に変換し、3D CNNに入力
● 広い受容野で3次元空間のコンテキストを取得するため、
dilated convを利用
● 屋内シーンをCGで合成したSUNCGデータセット*を新たに構築し、学習・評価を実施
関連研究 - SSCNet -
Shuran Song et al., “Semantic Scene Completion from a Single Depth Image,” CVPR 2017.
“our goal is to have a model that predicts both volumetric occupancy (i.e., scene completion)
and object category (i.e., scene labeling) from a single depth image of a 3D scene”
* データ盗用で訴えられ、公開を停止（原告側の訴えは却下）
[参考]
5

© GO Inc.
関連研究 - SemanticKITTI -
Jens Behley et al., “SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences,” ICCV 2019.
Semantic scene completion benchmarkでは不完全な
入力（左）から完全なシーン（右）の生成を行う
● KITTI Vision Odometry BenchmarkにおけるLiDAR点群に物体の種別を表すラベルを付与
● セマンティックセグメンテーションに加え、複数スキャンを統合した結果を真値とする
SSCのベンチ
マークも提供
● 屋外シーンの実データによるSSCベンチマークはこれが世界初
6

© GO Inc.
関連研究 - MonoScene -
Anh-Quan Cao et al., “MonoScene: Monocular 3D Semantic Scene Completion,” CVPR 2022.
● 2.5または3次元を入力とする従来手法に対し、
2次元入力（1枚のRGB画像）でSSCを実現
● 2D UNetで抽出した画像特徴を3D UNetに入力し、3次元ボリュームを出力
● FLoSPと3D CRPという新たなモジュールを提案
○ FLoSP (Features Line of Sight Projection)：2次元特徴から3次元特徴を生成
○ 3D CRP (3D Context Relation Prior)：ボクセル間の関係性（似ているかどうか）を陽に記述
https://astra-vision.github.io/MonoScene/
7

© GO Inc.
● 3次元ボリュームの各ボクセルの中心座標を
2次元画像に投影し、投影位置に対応する
2次元特徴
をマルチスケールでサンプリングして
3次元特徴を生成
● オクルージョンなどによる不可視領域も無理やり可視領域に投影されるため、たとえば
2つの物体
が重なっている場合、背面物体を前面物体の一部であるとみなしてしまう
● これを軽減するため、視錐台に含まれる
3次元ボリュームのラベル分布を真値に近づけるロスを導
入(Frustum Proportion Loss)
FLoSP (Features Line of Sight Projection)
FLoSP Frustum Proportion Loss
8

© GO Inc.
VoxFormerのモチベーション
(1) reconstruction-before-hallucination: まず画像中の可視領域について
3次元情報を獲得し、次に
それらを起点として不可視領域を推測
(2) sparsity-in-3D-space: カメラから見えない or 物体が存在しないボクセルも含めて密な
3次元ボ
リュームを扱うことは無駄が多いため、疎な表現を用いることで計算効率を改善
可視領域において物体が存在するボクセルを候補クエリとし、そのクエリを使って画像特徴からボクセル
特徴を獲得したうえで残りのボクセルを
MAE (Masked Autoencoder)ライクに補完
9

© GO Inc.
VoxFormerのアーキテクチャ
● Stage-1 (class-agnostic query proposal)：可視領域にあり、かつ物体が存在するボクセルを候
補クエリとして特定
● Stage-2 (class-specific segmentation)：cross-attentionで候補クエリに対応する画像特徴からボ
クセル特徴を獲得し、self-attentionで全ボクセルを補完して最終的な出力を生成
10

© GO Inc.
11

© GO Inc.
事前準備
● 入力は内部パラメータ既知のカメラから得られた連続
RGB画像（1枚でも可）
● ボクセルクエリの集合Qとして大きさh × w × zの3次元ボリュームを用意
● 計算量削減とロバスト性向上のため、
Qの解像度は最終出力の3次元ボリュームよりも小さくする
12

© GO Inc.
デプス推定
● Off-the-shelfのデプス推定モデルを使い入力画像からデプスマップ
Zを生成
● 次式により画像の各ピクセル(u, v)を3次元点群(x, y, z)に変換
cu
, cv
, fu
, fv
：カメラ内部パラメータ
13

© GO Inc.
候補クエリ生成
● 3次元点群から3次元ボリューム(occupancy map)を生成（点が存在するボクセルは
1、それ以外
は0）
● LMSCNetを使って精度を上げると共に解像度をクエリ集合
Qと一致させる
Depth Correction
↓
Query Proposal
Z
W
H
3次元点群から生成された
occupancy map
Min
補正されたoccupancy map
Mout
LMSCNet
14

© GO Inc.
LMSCNet (Lightweight Multiscale Semantic Completion Network)
Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020.
● 疎な3次元点群から密な3次元ボリュームを生成するUNetベースのSSC手法
● 高さ方向の次元を特徴の次元とみなして大半を
2D CNNで構成することで計算量を削減
● 最終出力を生成するためのヘッドにおいてのみ
3D CNNを使う
15

© GO Inc.
候補クエリ生成
● Occupancy map Mout
において物体に占有されているボクセル座標からクエリを取り出す
● 取り出したクエリQp
を候補クエリとしてstage-2以降で利用
● 密な3次元ボリュームではなく疎な候補クエリのみを扱うことで計算効率を改善
Depth Correction
↓
Query Proposal
16

© GO Inc.
17

© GO Inc.
候補クエリに対応する画像特徴の獲得
● 画像特徴はCNN (ResNet-50 + FPN)で抽出
● 候補クエリに対してlearnableなpositional embeddingを加算
● Deformable DETRで提案されたdeformable attentionを用いて候補クエリに対応する画像特徴を
獲得
18

© GO Inc.
Deformable Cross-Attention (DCA)
Xizhou Zhu et al., “Deformable DETR: Deformable Transformers for End-to-End Object Detection,” ICLR 2021.
● Attentionの計算範囲を局所領域に
限定することで特徴マップ全体を使
う通常のattentionにおける以下の
課題を解決
○ 特徴マップのサイズの二乗に比
例して計算量が増大
○ 収束が遅い
● 参照点とその近傍から特徴をサン
プリング（近傍点数はハイパーパラ
メータ）
● 参照点にlearnableなオフセットを
加えることでサンプリングに使う近
傍点を決める
Deformable DETR論文から引用した図であるため記号が VoxFormer論文とは異なる
19

© GO Inc.
Deformable Cross-Attention (DCA)
● VoxFormerにおいては、stage-1で
生成した候補クエリを使い、その
3
次元座標を画像に投影した点が参
照点となる
● 実際の入力は複数のRGB画像で
あるため、それぞれで計算した結果
を平均化する（投影点が範囲外とな
る画像は無視）
● 実装では参照点の近傍8点を使っ
たDCAを3回繰り返す
Stage-1で生成した候補クエリ
候補クエリの3
次元座標を画
像に投影した
2次元点
画像から抽出した
特徴マップ
20

© GO Inc.
疎なボクセル特徴の補完
● クエリ以外のボクセル（stage-1においてデプスが得られなかった領域）を
MAE (Masked
Autoencoder)に倣ってマスクトークンで埋め、self-attentionで補完することで完全なボクセル特徴
を獲得
● マスクトークンは全て共通のlearnableなベクトル
● 画像特徴の獲得時と同様、deformable attentionを用いる
21

© GO Inc.
Masked Autoencoder (MAE)
Kaiming He et al., “Masked Autoencoders Are Scalable Vision Learners,” CVPR 2022.
masked image MAE reconstruction ground truth
ImageNet-1Kにおける精度比較
● ViT (Vision Transformer)における入力パッチの大部分(e.g., 75%)をマスクし、autoencoderによ
りそれらを復元する事前学習を行う
● エンコーダはマスクされていないパッチのみを処理し、マスクされたパッチはマスクトークンに置き
換えてデコーダに入力
● モデルサイズが大きいほど他の事前学習手法に比べて効果が高い
22

© GO Inc.
Deformable Self-Attention (DSA)
● 候補クエリに選ばれなかったボクセ
ルをマスクトークンで埋めることで
ボクセル特徴を補完
● 候補クエリまたはマスクトークンの
3
次元座標を参照点とし、その近傍を
ボクセル特徴からサンプリングして
attentionを計算することでボクセル
特徴を更新
● 実装では参照点の近傍8点を使っ
たDSAを2回繰り返す
DCAでアップデートした候補クエリまたはマスクトークン
候補クエリまたはマ
スクトークンの3次
元座標
ボクセル特徴
23

© GO Inc.
学習
Occupancy mapの真値と比較
(binary cross-entropy)
SSCの真値と比較
(cross-entropy)
● Stage-1とstage-2の学習はそれぞれ独立に行われる
● Stage-2のcross-entropyロスにはクラスの出現頻度に応じた重みを適用
● 加えて、stage-2ではscene-class affinity lossも用いる
25

© GO Inc.
性能評価
6.4m
51.2m
51.2m
● SemanticKITTIのSSCベンチマークにより評価（RGB画像または疎なLiDARスキャンから完全な3
次元ボリュームをボクセルごとのラベルと共に復元）
● 車両の前方51.2m、左右51.2m、高さ6.4mが対象
● ボクセルの1辺は0.2mであり3次元ボリュームのサイズは256 × 256 × 32
● 2種類の尺度で評価
○ IoU：クラスを無視した3次元ボリューム全体の IoU（補完性能の評価）
○ mIoU：クラスごとに計算した IoUの平均（セグメンテーション性能の評価）
26

© GO Inc.
実装
入力はステレオ画像
● 現時刻のフレームのみ：VoxFormer-S
● 現時刻＆直前4フレーム：VoxFormer-T
学習済みの
MobileStereoNet [1] で
生成
128 × 128 × 16 256 × 256 × 32
ステレオ画像の片方のみを利用し、
ResNet-50 + FPNで特徴抽出（128次元）
LMSCNet [2]をスクラッチ学習
[1] Faranak Shamsafar et al., “MobileStereoNet: Towards Lightweight Deep Networks for Stereo Matching,” WACV 2022
[2] Luis Roldão et al., “LMSCNet: Lightweight Multiscale 3D Semantic Completion,” 3DV 2020.
x 3
x 2
27

© GO Inc.
評価結果 12.8 × 12.8 × 6.4m3
25.6 × 25.6 × 6.4m3
51.2 × 51.2 × 6.4m3
1st, 2nd, 3rd
RGB画像ONLY ステレオ画像デプスステレオ画像デプス
3つのレンジで評価
28

© GO Inc.
評価結果 12.8 × 12.8 × 6.4m3
25.6 × 25.6 × 6.4m3
51.2 × 51.2 × 6.4m3
1st, 2nd, 3rd
RGB画像ONLY ステレオ画像デプスステレオ画像デプス
LiDARスキャンを入力とする手法との比較
3つのレンジで評価
29

© GO Inc.
Ablation Study
ステレオ画像ではなく単眼画像だとどうか？候補クエリを全部 or ランダムにしたらどうか？
未来のフレームも使ったらどうか？どのアーキテクチャが効くか？
+N：現在のフレームから
Nフレーム後
30

© GO Inc.
所感
● モチベーションやそれに沿ったアルゴリズムとしてはわかりやすく、性能も高い
● Cross-attentionで画像特徴を獲得、self-attentionでボクセル特徴を更新というのも直感的
● 内部にデプス推定や他のSSC手法を取り込んでおり、純粋にRGB画像しか使っていない
MonoSceneを比較対象にするのはフェアでない気もする（実際、
VoxFormerからデプス推定を除く
とMonoSceneに負ける）
● 使う側からすると、学習用にラベル付きの
3次元ボリュームを用意することはかなりしんどいので他
カメラに対する汎化性能が気になるところ
31

© GO Inc.
We’re Hiring!
https://hrmos.co/pages/goinc/jobs?category=1342449154655301632
● エンジニアはフルリモートOK！
● いつでもカジュアル面談OKなので
お気軽にお声がけください
32

© GO Inc. 34
Scene-Class Affinity Loss
ボクセルiにおける真値
ボクセルiにおけるクラスcの推論確率
Iverson括弧
→ Precision → Recall → Specificity
● クラスごとのprecision、recall、specificityを直接的に最適化するロス
● ネットワークに対してグローバルな
SSC性能を陽にフィードバックする

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion

More Related Content

What's hot (20)

Similar to VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion (20)

More from Kazuyuki Miyazawa (12)

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion