【画像処理&機械学習】論文LT会!#4
BoundingBoxRegression
withUncertainty
forAccurateObjectDetection
(https://arxiv.org/abs/1809.08545)
(https://github.com/yihui-he/KL-Loss) 2019/07/04
@fam_taro
Agenda
1. 概要
2. 提案手法
1. KL Loss
2. Variance Voting(var voting)
3. 所感
1
注意
特に注釈のない画像については
元論文から引用しています
2
1. 概要
 検出タスクにおいては、しばしばラベルが不確実なケースがある
 ラベルが不正確 (a), (c)
 遮蔽物によって曖昧 (b)
 物体の境界自身が曖昧 (d)
3
1. 概要
 最近の物体検出タスクは以下の複合タスク
 Object Localization (位置推定)
 Object Classification (クラス分類)
 SOTA な検出器は bounding box regression によって
物体の位置を推定している
 ただし従来の bounding box regression 用の loss(i.e.,
the smooth L1 loss) 正解ボックスの不確実性を考慮
していない
 また classification score が高いときは bounding box
regression も正確であると想定されるが、常にそ
うではない(右図)
 (a) 両方正確でない
 (b) classification score が低いボックスのほうが正確
4
1. 概要
5
 本論文では KL Loss を提案
 ボックス予測の不確実性を表現するため、ボックスを以下の分布としてモデリング
 予測: ガウス分布
 正解: ディラックのデルタ関数
 上記の 2つの分布間の KL divergence を loss としたものが KL Loss
 KL Loss は以下のメリットがある
 データセット内の曖昧さを捉えることができている
 bounding box regressor が曖昧な bonding box からより小さい loss を得ることができる
 学習した variance (正規分布の分散、box の曖昧さとも解釈できる) を post-processing に使
うことができる
 var voting(variance voting) を提案
 NMS(non-maximum suppression) 中に variance によって重み付けされた隣接ボックスの位置を使用して
候補ボックスの位置に投票する
 学習した確率分布は解釈可能
 ボックス予測の不確実を反映している
 下流(robotics 等)で役に立つ
1. 概要
6
 これらを使うこと処理時間をほとんど変えることなく(+2ms)、精度を大きく
上げることができた(var voting 時間) → fast R-CNN の APS が下がっている謎
2.1 提案手法(KL Loss)
 右のように予測ボックスを (x1, y1, x2,
y2) 形式に変換する
 (x, y, w, h) でないことに注意
 anchor box との差分を t で表す
 t が予測 offsets, t* が ground-truth
offsets
7
2.1 提案手法(KL Loss)
 以下の仮定をおく
 座標 x1, y1, x2, y2 はそれぞれ独立
 以後全て x とする
 各座標は独立にガウス分布から生成されるとする
 上記の仮定をおいて各座標に対する分布を以下のように表現できる
 Θは 学習可能なパラメータ, xe は推定ボックス位置, σ は推定の不確実さを表す
8
2.1 提案手法(KL Loss)
 Region Proposal ネットワーク内の region-of-interest(RoI) 層の後の流れ
 Box std(分布の分散) で不確実性も出力している
9
2.1 提案手法(KL Loss)
 以下の仮定をおく
 座標 x1, y1, x2, y2 はそれぞれ独立
 以後全て x とする
 各座標は独立にガウス分布から生成されるとする
 上記の仮定をおいて各座標に対する分布を以下のように表現できる
 Θは 学習可能なパラメータ, xe は推定ボックス位置, σ は推定の不確実さを表す
10
2.1 提案手法(KL Loss)
 ground truth は σ → 0 としたときで、ディラックのデルタ関数になる
 ここでのゴールは下記の KL divergence を最小化したい(N サンプル)
 ここでは bounding box regression 用の loss である Lreg にのみ適用する
 classification 用の loss は以前と同じ
11
2.1 提案手法(KL Loss)
 1サンプルに対しては以下のように表せる
 KL divergence の詳細は割愛
 上記のうち関係する項だけ抜き出すと以下のようになる
12
2.1 提案手法(KL Loss)
 ガウス分布のイメージ図
 青とグレーが予想分布例
 オレンジが ground truth 例
 σ2の値が大きいほど山も低くなる
13
2.1 提案手法(KL Loss)
 σ = 1 のときはただのユークリッド loss になる
 また loss は xe と σ のそれぞれについて微分可能
14
2.1 提案手法(KL Loss)
 ただし σ が分母にあるため、しばしば勾配は爆発しがちだった
 実用上では として下記のように変換した
 テスト時は σ に戻す
 一部で smooth L1 loss に近いこともしている
15
2.2 提案手法(var voting)
 予測位置に対する variance (分散、
本論文では不確実さ) を使った
post-processing
 NMS に対して 3行処理を加えた
 各パラメータ
 B: ボックス(N x 4)
 S: 検出スコア(N)
 C: 座標の variance (N x 4)
 D: 最終検出結果の集合
 σt: var voting に関するハイパーパラ
メータ
 各 b は下記をまとめたもの
16
2.2 提案手法(var voting)
17
 各内訳
候補ボックスが空になるまで
スコアが一番高い候補ボック
スを候補から抜き取る
bm と候補一覧を元に全体の
スコアを修正(soft-NMS)
最終結果にスコアが高かった
ボックスを加える
bm と少しでも重なっている
インデックス一覧
bm との IoU からなる len(idx)
次元の重み(IoU が高いほど
値が大きい)
重み p と各ボックスの不確
実さσを反映させたボックス
に修正する
2.2 提案手法(var voting)
18
 各内訳
bm との IoU からなる len(idx)
次元の重み(IoU が高いほど
値が大きい)
重み p と各ボックスの不確
実さσを反映させたボックス
に修正する
不確実さが低い(σが小さい)ボック
スの重みが大きくなる
3. 所感
 ボックス位置の曖昧さをモデリングして KL divergence に絡めた
のは面白いなと思いました
 one-stage 系でも検証してほしかった
 レイテンシ 2ms を強調していたし。。。
 Fast R-CNN の APS(小さい物体に対するAP)が KL Loss で下がってい
るのはよくわからない
 特に言及されてないような…?
 小さいのにアノテーションがついている時点で不確実性が低いので効
果がない???🤔
 小さいと他と重なることもなく不確実性が低い???🤔
 ボックスの不確実性などの、一種のボックスの質を評価してい
る点では Mask Scoring R-CNN[1] と似ている?
 これから読んで比較できるならしたい
 [1] https://arxiv.org/abs/1903.00241, CVPR2019 19
おわり
20

More Related Content

PDF
Introduction to YOLO detection model
PDF
汎化性能測定
PDF
computer visionen 勉強会
PDF
Yolo v1
PDF
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
PDF
Foundation of Machine Leaning section4
PPTX
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
PDF
グラフィカル Lasso を用いた異常検知
Introduction to YOLO detection model
汎化性能測定
computer visionen 勉強会
Yolo v1
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Foundation of Machine Leaning section4
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
グラフィカル Lasso を用いた異常検知

Similar to Paper: Bounding Box Regression with Uncertainty for Accurate Object Detection (20)

PDF
パターン認識 08 09 k-近傍法 lvq
PDF
PRML 第4章
PDF
パターン認識第9章 学習ベクトル量子化
PDF
20170422 数学カフェ Part2
PDF
PRML 第14章
PDF
PRML 1.5-1.5.5 決定理論
PDF
「統計的学習理論」第1章
PDF
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
PDF
Sparse estimation tutorial 2014
PPTX
Knn発表資料(R)
PDF
[DL輪読会]Deep Learning 第5章 機械学習の基礎
PPTX
Active Learning と Bayesian Neural Network
PDF
2014年5月14日_水曜セミナー発表内容_FINAL
PDF
Large Scale Incremental Learning
PDF
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
PDF
異常検知と変化検知 第4章 近傍法による異常検知
PDF
文献紹介:You Only Look Once: Unified, Real-Time Object Detection
PPTX
SVM -R-
PDF
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
PDF
SMO徹底入門 - SVMをちゃんと実装する
パターン認識 08 09 k-近傍法 lvq
PRML 第4章
パターン認識第9章 学習ベクトル量子化
20170422 数学カフェ Part2
PRML 第14章
PRML 1.5-1.5.5 決定理論
「統計的学習理論」第1章
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Sparse estimation tutorial 2014
Knn発表資料(R)
[DL輪読会]Deep Learning 第5章 機械学習の基礎
Active Learning と Bayesian Neural Network
2014年5月14日_水曜セミナー発表内容_FINAL
Large Scale Incremental Learning
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
異常検知と変化検知 第4章 近傍法による異常検知
文献紹介:You Only Look Once: Unified, Real-Time Object Detection
SVM -R-
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
SMO徹底入門 - SVMをちゃんと実装する
Ad

More from Yusuke Fujimoto (6)

PDF
Paper LT: Mask Scoring R-CNN
PPTX
Tensor コアを使った PyTorch の高速化
PPTX
Paper: Objects as Points(CenterNet)
PPTX
Paper: seq2seq 20190320
PPTX
Paper: clinically accuratechestx-rayreport generation_noself
PPTX
論文LT会用資料: Attention Augmented Convolution Networks
Paper LT: Mask Scoring R-CNN
Tensor コアを使った PyTorch の高速化
Paper: Objects as Points(CenterNet)
Paper: seq2seq 20190320
Paper: clinically accuratechestx-rayreport generation_noself
論文LT会用資料: Attention Augmented Convolution Networks
Ad

Paper: Bounding Box Regression with Uncertainty for Accurate Object Detection

  • 2. Agenda 1. 概要 2. 提案手法 1. KL Loss 2. Variance Voting(var voting) 3. 所感 1
  • 4. 1. 概要  検出タスクにおいては、しばしばラベルが不確実なケースがある  ラベルが不正確 (a), (c)  遮蔽物によって曖昧 (b)  物体の境界自身が曖昧 (d) 3
  • 5. 1. 概要  最近の物体検出タスクは以下の複合タスク  Object Localization (位置推定)  Object Classification (クラス分類)  SOTA な検出器は bounding box regression によって 物体の位置を推定している  ただし従来の bounding box regression 用の loss(i.e., the smooth L1 loss) 正解ボックスの不確実性を考慮 していない  また classification score が高いときは bounding box regression も正確であると想定されるが、常にそ うではない(右図)  (a) 両方正確でない  (b) classification score が低いボックスのほうが正確 4
  • 6. 1. 概要 5  本論文では KL Loss を提案  ボックス予測の不確実性を表現するため、ボックスを以下の分布としてモデリング  予測: ガウス分布  正解: ディラックのデルタ関数  上記の 2つの分布間の KL divergence を loss としたものが KL Loss  KL Loss は以下のメリットがある  データセット内の曖昧さを捉えることができている  bounding box regressor が曖昧な bonding box からより小さい loss を得ることができる  学習した variance (正規分布の分散、box の曖昧さとも解釈できる) を post-processing に使 うことができる  var voting(variance voting) を提案  NMS(non-maximum suppression) 中に variance によって重み付けされた隣接ボックスの位置を使用して 候補ボックスの位置に投票する  学習した確率分布は解釈可能  ボックス予測の不確実を反映している  下流(robotics 等)で役に立つ
  • 8. 2.1 提案手法(KL Loss)  右のように予測ボックスを (x1, y1, x2, y2) 形式に変換する  (x, y, w, h) でないことに注意  anchor box との差分を t で表す  t が予測 offsets, t* が ground-truth offsets 7
  • 9. 2.1 提案手法(KL Loss)  以下の仮定をおく  座標 x1, y1, x2, y2 はそれぞれ独立  以後全て x とする  各座標は独立にガウス分布から生成されるとする  上記の仮定をおいて各座標に対する分布を以下のように表現できる  Θは 学習可能なパラメータ, xe は推定ボックス位置, σ は推定の不確実さを表す 8
  • 10. 2.1 提案手法(KL Loss)  Region Proposal ネットワーク内の region-of-interest(RoI) 層の後の流れ  Box std(分布の分散) で不確実性も出力している 9
  • 11. 2.1 提案手法(KL Loss)  以下の仮定をおく  座標 x1, y1, x2, y2 はそれぞれ独立  以後全て x とする  各座標は独立にガウス分布から生成されるとする  上記の仮定をおいて各座標に対する分布を以下のように表現できる  Θは 学習可能なパラメータ, xe は推定ボックス位置, σ は推定の不確実さを表す 10
  • 12. 2.1 提案手法(KL Loss)  ground truth は σ → 0 としたときで、ディラックのデルタ関数になる  ここでのゴールは下記の KL divergence を最小化したい(N サンプル)  ここでは bounding box regression 用の loss である Lreg にのみ適用する  classification 用の loss は以前と同じ 11
  • 13. 2.1 提案手法(KL Loss)  1サンプルに対しては以下のように表せる  KL divergence の詳細は割愛  上記のうち関係する項だけ抜き出すと以下のようになる 12
  • 14. 2.1 提案手法(KL Loss)  ガウス分布のイメージ図  青とグレーが予想分布例  オレンジが ground truth 例  σ2の値が大きいほど山も低くなる 13
  • 15. 2.1 提案手法(KL Loss)  σ = 1 のときはただのユークリッド loss になる  また loss は xe と σ のそれぞれについて微分可能 14
  • 16. 2.1 提案手法(KL Loss)  ただし σ が分母にあるため、しばしば勾配は爆発しがちだった  実用上では として下記のように変換した  テスト時は σ に戻す  一部で smooth L1 loss に近いこともしている 15
  • 17. 2.2 提案手法(var voting)  予測位置に対する variance (分散、 本論文では不確実さ) を使った post-processing  NMS に対して 3行処理を加えた  各パラメータ  B: ボックス(N x 4)  S: 検出スコア(N)  C: 座標の variance (N x 4)  D: 最終検出結果の集合  σt: var voting に関するハイパーパラ メータ  各 b は下記をまとめたもの 16
  • 18. 2.2 提案手法(var voting) 17  各内訳 候補ボックスが空になるまで スコアが一番高い候補ボック スを候補から抜き取る bm と候補一覧を元に全体の スコアを修正(soft-NMS) 最終結果にスコアが高かった ボックスを加える bm と少しでも重なっている インデックス一覧 bm との IoU からなる len(idx) 次元の重み(IoU が高いほど 値が大きい) 重み p と各ボックスの不確 実さσを反映させたボックス に修正する
  • 19. 2.2 提案手法(var voting) 18  各内訳 bm との IoU からなる len(idx) 次元の重み(IoU が高いほど 値が大きい) 重み p と各ボックスの不確 実さσを反映させたボックス に修正する 不確実さが低い(σが小さい)ボック スの重みが大きくなる
  • 20. 3. 所感  ボックス位置の曖昧さをモデリングして KL divergence に絡めた のは面白いなと思いました  one-stage 系でも検証してほしかった  レイテンシ 2ms を強調していたし。。。  Fast R-CNN の APS(小さい物体に対するAP)が KL Loss で下がってい るのはよくわからない  特に言及されてないような…?  小さいのにアノテーションがついている時点で不確実性が低いので効 果がない???🤔  小さいと他と重なることもなく不確実性が低い???🤔  ボックスの不確実性などの、一種のボックスの質を評価してい る点では Mask Scoring R-CNN[1] と似ている?  これから読んで比較できるならしたい  [1] https://arxiv.org/abs/1903.00241, CVPR2019 19