Paper: Bounding Box Regression with Uncertainty for Accurate Object Detection

【画像処理&機械学習】論文LT会！#4
BoundingBoxRegression
withUncertainty
forAccurateObjectDetection
(https://arxiv.org/abs/1809.08545)
(https://github.com/yihui-he/KL-Loss) 2019/07/04
@fam_taro

Agenda
1. 概要
2. 提案手法
1. KL Loss
2. Variance Voting(var voting)
3. 所感
1

注意
特に注釈のない画像については
元論文から引用しています
2

1. 概要
 検出タスクにおいては、しばしばラベルが不確実なケースがある
 ラベルが不正確 (a), (c)
 遮蔽物によって曖昧 (b)
 物体の境界自身が曖昧 (d)
3

1. 概要
 最近の物体検出タスクは以下の複合タスク
 Object Localization (位置推定)
 Object Classification (クラス分類)
 SOTA な検出器は bounding box regression によって
物体の位置を推定している
 ただし従来の bounding box regression 用の loss(i.e.,
the smooth L1 loss) 正解ボックスの不確実性を考慮
していない
 また classification score が高いときは bounding box
regression も正確であると想定されるが、常にそ
うではない(右図)
 (a) 両方正確でない
 (b) classification score が低いボックスのほうが正確
4

1. 概要
5
 本論文では KL Loss を提案
 ボックス予測の不確実性を表現するため、ボックスを以下の分布としてモデリング
 予測: ガウス分布
 正解: ディラックのデルタ関数
 上記の 2つの分布間の KL divergence を loss としたものが KL Loss
 KL Loss は以下のメリットがある
 データセット内の曖昧さを捉えることができている
 bounding box regressor が曖昧な bonding box からより小さい loss を得ることができる
 学習した variance (正規分布の分散、box の曖昧さとも解釈できる) を post-processing に使
うことができる
 var voting(variance voting) を提案
 NMS(non-maximum suppression) 中に variance によって重み付けされた隣接ボックスの位置を使用して
候補ボックスの位置に投票する
 学習した確率分布は解釈可能
 ボックス予測の不確実を反映している
 下流(robotics 等)で役に立つ

1. 概要
6
 これらを使うこと処理時間をほとんど変えることなく(+2ms)、精度を大きく
上げることができた(var voting 時間) → fast R-CNN の APS が下がっている謎

2.1 提案手法(KL Loss)
 右のように予測ボックスを (x1, y1, x2,
y2) 形式に変換する
 (x, y, w, h) でないことに注意
 anchor box との差分を t で表す
 t が予測 offsets, t* が ground-truth
offsets
7

 以下の仮定をおく
 座標 x1, y1, x2, y2 はそれぞれ独立
 以後全て x とする
 各座標は独立にガウス分布から生成されるとする
 上記の仮定をおいて各座標に対する分布を以下のように表現できる
 Θは学習可能なパラメータ, xe は推定ボックス位置, σ は推定の不確実さを表す
8

 Region Proposal ネットワーク内の region-of-interest(RoI) 層の後の流れ
 Box std(分布の分散) で不確実性も出力している
9

 以下の仮定をおく
 座標 x1, y1, x2, y2 はそれぞれ独立
 以後全て x とする
 各座標は独立にガウス分布から生成されるとする
 上記の仮定をおいて各座標に対する分布を以下のように表現できる
 Θは学習可能なパラメータ, xe は推定ボックス位置, σ は推定の不確実さを表す
10

 ground truth は σ → 0 としたときで、ディラックのデルタ関数になる
 ここでのゴールは下記の KL divergence を最小化したい(N サンプル)
 ここでは bounding box regression 用の loss である Lreg にのみ適用する
 classification 用の loss は以前と同じ
11

 1サンプルに対しては以下のように表せる
 KL divergence の詳細は割愛
 上記のうち関係する項だけ抜き出すと以下のようになる
12

 ガウス分布のイメージ図
 青とグレーが予想分布例
 オレンジが ground truth 例
 σ2の値が大きいほど山も低くなる
13

 σ = 1 のときはただのユークリッド loss になる
 また loss は xe と σ のそれぞれについて微分可能
14

 ただし σ が分母にあるため、しばしば勾配は爆発しがちだった
 実用上ではとして下記のように変換した
 テスト時は σ に戻す
 一部で smooth L1 loss に近いこともしている
15

2.2 提案手法(var voting)
 予測位置に対する variance (分散、
本論文では不確実さ) を使った
post-processing
 NMS に対して 3行処理を加えた
 各パラメータ
 B: ボックス(N x 4)
 S: 検出スコア(N)
 C: 座標の variance (N x 4)
 D: 最終検出結果の集合
 σt: var voting に関するハイパーパラ
メータ
 各 b は下記をまとめたもの
16

17
 各内訳
候補ボックスが空になるまで
スコアが一番高い候補ボック
スを候補から抜き取る
bm と候補一覧を元に全体の
スコアを修正(soft-NMS)
最終結果にスコアが高かった
ボックスを加える
bm と少しでも重なっている
インデックス一覧
bm との IoU からなる len(idx)
次元の重み(IoU が高いほど
値が大きい)
重み p と各ボックスの不確
実さσを反映させたボックス
に修正する

18
 各内訳
bm との IoU からなる len(idx)
次元の重み(IoU が高いほど
値が大きい)
重み p と各ボックスの不確
実さσを反映させたボックス
に修正する
不確実さが低い(σが小さい)ボック
スの重みが大きくなる

3. 所感
 ボックス位置の曖昧さをモデリングして KL divergence に絡めた
のは面白いなと思いました
 one-stage 系でも検証してほしかった
 レイテンシ 2ms を強調していたし。。。
 Fast R-CNN の APS(小さい物体に対するAP)が KL Loss で下がってい
るのはよくわからない
 特に言及されてないような…？
 小さいのにアノテーションがついている時点で不確実性が低いので効
果がない？？？🤔
 小さいと他と重なることもなく不確実性が低い？？？🤔
 ボックスの不確実性などの、一種のボックスの質を評価してい
る点では Mask Scoring R-CNN[1] と似ている？
 これから読んで比較できるならしたい
 [1] https://arxiv.org/abs/1903.00241, CVPR2019 19

Paper: Bounding Box Regression with Uncertainty for Accurate Object Detection

More Related Content

Similar to Paper: Bounding Box Regression with Uncertainty for Accurate Object Detection (20)

More from Yusuke Fujimoto (6)

Paper: Bounding Box Regression with Uncertainty for Accurate Object Detection