DataDrivenDeveloperMeetup
【番外編好きな論文について語る会】#1
Objects as Points(CenterNet)
(https://arxiv.org/abs/1904.07850)
2019/04/22
@fam_taro
Agenda
1. なんでこの論文選んだの
2. これまでの検出モデルの課題
3. CenterNet の特徴
4. この論文の工夫点
5. 個人的な感想
1
1. なんでこの論文選んだの
 最近出たから!(2019年4月16日)
 ちなみに翌日に “CenterNet: Object Detection with Keypoint Triplets” という同名
のネットワークの論文が出ている(すごくまぎわらわしい)
 https://arxiv.org/abs/1904.08189
 こちらも SOTA なのでそのうち論文読んでおきたい
 検出モデルの中で速くて精度高い!
 リアルタイムな検出を行う上ではスピードも大事
 20FPS(< 50ms) は個人的に欲しいところ
 NMS(non-maximum suppression)が不要!
 速度面でも嬉しい
 後処理が減ったのは単純に嬉しい
 速くて、精度高い!!
 大事なことなのd(
2
YOLOv3 より
圧倒的に強い!
2. これまでの検出モデルの課題
3
 Object detection by region classification
 RCNN とか Fast-RCNN
 大体 2-stage detector
 課題: 遅い
 Object detection with implicit anchors(暗黙的にアンカーを使うもの)
 大体 1-stage detector -> 最近の速い検出モデルはこれ
 SSD, RetinaNet, YOLO(v3), M2Det …
 候補ボックスを予め用意するもの(ボックス解像度・縦横比率等)
 課題: Ground truth (教師ラベル) 作成時に、overlap の重なり具合を使う
 人が決めたしきい値で foreground or not を決める
 1物体に対し複数の Ground truth がありうる
 anchor について人が調整する必要がある
 個人的課題
 NMS が必要(大体10ms 必要 & 出力ボックスが多いと時間がかかる & 時間が固定じゃない)
2. これまでの検出モデルの課題
4
 Object detection with implicit anchors(暗黙的にアンカーを使うもの)
 課題: Ground truth (教師ラベル) 作成時に、overlap の重なり具合を使う
2. これまでの検出モデルの課題
5
 Object detection by keypoint estimation
 heatmap 使って各点を直接求める方法
 後述の CenterNet の推論時の流れを見るとイメージつかみやすいかも
 CornerNet: ボックスの左上と右下の2点のみ推定
 ExtremeNet: 中心とボックスの角4点を推定
 課題: keypoint detection 後に組み合わせを grouping する必要がある
 遅い
3. CenterNet の特徴
6
 Backbone として DLA や Hourglass を利用
 CornerNet でも利用されている
 DLA = Deep layers aggregation
 https://arxiv.org/pdf/1707.06484.pdf
 Detection においては以下2つのみ求める
 物体の中心位置
 ボックスサイズ
図: 左が元DLA、右がCenterNet用DLA
3. CenterNet の特徴
7
 DLA 補足
 DLA の提案
 そのまま low layer の層を足すのではなく、工夫してみよう
 下記は元論文より引用
3. CenterNet の特徴
 推論(予測)時の流れ
 画像を Backbone ネットワーク(DLA や Hourglass)に入力
 Key point heatmap を出力(下記はイメージ図)
 論文中では 元画像サイズ(HxW) に対して (H/4, W/4) のサイズ
 512x512 なら heatmap のサイズは 128x128(目が細かい)
 local peak を抽出
 ある箇所について、周辺8個の値より大きい(以上)となる場所
 そこを物体の中心とする!
 local peak でのボックスサイズと離散化誤差を予測
 離散化誤差 = 元画像から heatmap にした際の誤差(微調整)
 予測ボックス出力!
 NMS はしない(個人的に大事)
 heatmap 内の1マスに対する出力個数(検出時)
 クラス数 + 4(2: ボックスサイズ、2: 離散化誤差)
8
heatmapイメージ
https://pythonspot.com/tag/heatmap/
3. CenterNet の特徴
 推論(予測)時のイメージ(タスクごとの違い)
9
3. CenterNet の特徴
 Test Time Augmentation でも検証済
 No Augmentation
 flip Augmentation
 flip and multi-scale (0.5, 0.75, 1, 1.25, 1.5) with NMS(←大事)
 リアルタイムとして使うなら赤い箇所が精度・速度面で良さそう
 Backbone: DLA-34, Augmentation: No or flip
 multi-scale は精度も上がるけど推論時間がきつい(コンペなら使う価値ありかも)
10
3. CenterNet の特徴
 学習時の流れ
 教師ラベル用 heatmap の作り方
 処理前
 処理後
 実際の物体の中心 を低解像度化 ->
 本論文では R=4
 ガウシアンカーネルでなだらかな値にする
 中心座標が頂点(=1) となる山を作るイメージ
 同じクラスの違う物体で重なった場合は値が高い方を採用
 σp は object size-adaptive standard deviation
 多分データセット毎に出すべき値?
11
3. CenterNet の特徴
 学習時の loss 設計(それぞれ比率をかけて足したものが合計 loss)
 Heatmap の loss
 pixelwise logistic regression with focal loss(N は number of keypoints in image)
 離散化誤差の loss
 ボックスサイズの loss
 ボックスサイズは scaling (最大値1にする) してないことに注意
12
4. この論文の工夫点
13
 Backbone(DLA・HourGlass) を使う
 離散化誤差の定義
 物体の中心のみ求めれば良いというシンプルなネットワーク
 他タスクへの応用(が簡単なネットワークを提案)
 3D detection
 Human pose estimation
 Orientation(方向)
 Batch-normalization で cudnn を使わない(???)
 PyTorch のソースをいじって設定変更できる
 実験時は使わない方が精度が上がったとのこと
5. 個人的な所感
 Backbone(DLA・HourGlass) の貢献がすごい
 今後もっと増えると思います
 Heatmap 路線の Detector はもっと増えそう?
 NMS を使わなくて良いのは個人的に嬉しい
 シンプル
 シンプルで精度高いのでふつくしい…
 実装がとても参考になる
 とりあえず近いうちに検証します
14
References
 Objects as Points(https://arxiv.org/abs/1904.07850)
 CornerNet: Detecting Objects as Paired Keypoints(https://arxiv.org/abs/1808.01244)
 Deep Layer Aggregation(https://arxiv.org/abs/1707.06484)
 Deep layer aggregation. Cvpr2018(わかりすかったまとめスライド)
 https://www.slideshare.net/ShinichiroMurakami/deep-layer-aggregation-cvpr2018
15
おわり
16
ありがとうございました

More Related Content

PDF
ドメイン適応の原理と応用
PDF
Data-Centric AIの紹介
PPTX
[DL輪読会]Objects as Points
PDF
研究分野をサーベイする
PDF
研究効率化Tips Ver.2
PDF
Vision and Language(メタサーベイ )
PDF
ガイデットフィルタとその周辺
PDF
研究の基本ツール
ドメイン適応の原理と応用
Data-Centric AIの紹介
[DL輪読会]Objects as Points
研究分野をサーベイする
研究効率化Tips Ver.2
Vision and Language(メタサーベイ )
ガイデットフィルタとその周辺
研究の基本ツール

What's hot (20)

PDF
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
PDF
グラフデータの機械学習における特徴表現の設計と学習
PDF
【DL輪読会】Patches Are All You Need? (ConvMixer)
PDF
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
PPTX
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
PDF
画像認識の初歩、SIFT,SURF特徴量
PDF
深層学習時代の自然言語処理
PPTX
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
PDF
学振特別研究員になるために~知っておくべき10のTips~
PDF
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
PDF
Sift特徴量について
PPTX
カメラ位置姿勢とビュー行列
PDF
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PDF
[DL輪読会]Attention Is All You Need
PDF
3次元レジストレーション(PCLデモとコード付き)
PPTX
物体検出の歴史(R-CNNからSSD・YOLOまで)
PDF
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
PDF
SSII2019企画: 点群深層学習の研究動向
PPTX
近年のHierarchical Vision Transformer
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
グラフデータの機械学習における特徴表現の設計と学習
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
画像認識の初歩、SIFT,SURF特徴量
深層学習時代の自然言語処理
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
学振特別研究員になるために~知っておくべき10のTips~
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
Sift特徴量について
カメラ位置姿勢とビュー行列
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Attention Is All You Need
3次元レジストレーション(PCLデモとコード付き)
物体検出の歴史(R-CNNからSSD・YOLOまで)
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
SSII2019企画: 点群深層学習の研究動向
近年のHierarchical Vision Transformer
Ad

Similar to Paper: Objects as Points(CenterNet) (20)

PPTX
企業等に蓄積されたデータを分析するための処理機能の提案
PPT
Big data解析ビジネス
PDF
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
PDF
Hadoop Source Code Reading #17
PPTX
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
PPTX
Python による 「スクレイピング & 自然言語処理」入門
PDF
AutoEncoderで特徴抽出
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
PDF
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
PDF
Now and then: next-generation sequencing database to encourage the big data s...
PPTX
強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
PDF
【Hpcstudy】みんな、ベンチマークどうやってるの?
PDF
20110517 okuyama ソーシャルメディアが育てた技術勉強会
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PPTX
Apache Sparkを使った感情極性分析
PDF
Open dronemapハンズオン
PDF
20110519 okuyama tokyo_linuxstudy
PPTX
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
企業等に蓄積されたデータを分析するための処理機能の提案
Big data解析ビジネス
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
Hadoop Source Code Reading #17
2020/11/19 Global AI on Tour - Toyama プログラマーのための機械学習入門
Python による 「スクレイピング & 自然言語処理」入門
AutoEncoderで特徴抽出
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
sparksql-hive-bench-by-nec-hwx-at-hcj16
Now and then: next-generation sequencing database to encourage the big data s...
強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
【Hpcstudy】みんな、ベンチマークどうやってるの?
20110517 okuyama ソーシャルメディアが育てた技術勉強会
[DL輪読会]Deep Face Recognition: A Survey
Apache Sparkを使った感情極性分析
Open dronemapハンズオン
20110519 okuyama tokyo_linuxstudy
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
Ad

More from Yusuke Fujimoto (6)

PDF
Paper LT: Mask Scoring R-CNN
PPTX
Paper: Bounding Box Regression with Uncertainty for Accurate Object Detection
PPTX
Tensor コアを使った PyTorch の高速化
PPTX
Paper: seq2seq 20190320
PPTX
Paper: clinically accuratechestx-rayreport generation_noself
PPTX
論文LT会用資料: Attention Augmented Convolution Networks
Paper LT: Mask Scoring R-CNN
Paper: Bounding Box Regression with Uncertainty for Accurate Object Detection
Tensor コアを使った PyTorch の高速化
Paper: seq2seq 20190320
Paper: clinically accuratechestx-rayreport generation_noself
論文LT会用資料: Attention Augmented Convolution Networks

Paper: Objects as Points(CenterNet)

  • 2. Agenda 1. なんでこの論文選んだの 2. これまでの検出モデルの課題 3. CenterNet の特徴 4. この論文の工夫点 5. 個人的な感想 1
  • 3. 1. なんでこの論文選んだの  最近出たから!(2019年4月16日)  ちなみに翌日に “CenterNet: Object Detection with Keypoint Triplets” という同名 のネットワークの論文が出ている(すごくまぎわらわしい)  https://arxiv.org/abs/1904.08189  こちらも SOTA なのでそのうち論文読んでおきたい  検出モデルの中で速くて精度高い!  リアルタイムな検出を行う上ではスピードも大事  20FPS(< 50ms) は個人的に欲しいところ  NMS(non-maximum suppression)が不要!  速度面でも嬉しい  後処理が減ったのは単純に嬉しい  速くて、精度高い!!  大事なことなのd( 2 YOLOv3 より 圧倒的に強い!
  • 4. 2. これまでの検出モデルの課題 3  Object detection by region classification  RCNN とか Fast-RCNN  大体 2-stage detector  課題: 遅い  Object detection with implicit anchors(暗黙的にアンカーを使うもの)  大体 1-stage detector -> 最近の速い検出モデルはこれ  SSD, RetinaNet, YOLO(v3), M2Det …  候補ボックスを予め用意するもの(ボックス解像度・縦横比率等)  課題: Ground truth (教師ラベル) 作成時に、overlap の重なり具合を使う  人が決めたしきい値で foreground or not を決める  1物体に対し複数の Ground truth がありうる  anchor について人が調整する必要がある  個人的課題  NMS が必要(大体10ms 必要 & 出力ボックスが多いと時間がかかる & 時間が固定じゃない)
  • 5. 2. これまでの検出モデルの課題 4  Object detection with implicit anchors(暗黙的にアンカーを使うもの)  課題: Ground truth (教師ラベル) 作成時に、overlap の重なり具合を使う
  • 6. 2. これまでの検出モデルの課題 5  Object detection by keypoint estimation  heatmap 使って各点を直接求める方法  後述の CenterNet の推論時の流れを見るとイメージつかみやすいかも  CornerNet: ボックスの左上と右下の2点のみ推定  ExtremeNet: 中心とボックスの角4点を推定  課題: keypoint detection 後に組み合わせを grouping する必要がある  遅い
  • 7. 3. CenterNet の特徴 6  Backbone として DLA や Hourglass を利用  CornerNet でも利用されている  DLA = Deep layers aggregation  https://arxiv.org/pdf/1707.06484.pdf  Detection においては以下2つのみ求める  物体の中心位置  ボックスサイズ 図: 左が元DLA、右がCenterNet用DLA
  • 8. 3. CenterNet の特徴 7  DLA 補足  DLA の提案  そのまま low layer の層を足すのではなく、工夫してみよう  下記は元論文より引用
  • 9. 3. CenterNet の特徴  推論(予測)時の流れ  画像を Backbone ネットワーク(DLA や Hourglass)に入力  Key point heatmap を出力(下記はイメージ図)  論文中では 元画像サイズ(HxW) に対して (H/4, W/4) のサイズ  512x512 なら heatmap のサイズは 128x128(目が細かい)  local peak を抽出  ある箇所について、周辺8個の値より大きい(以上)となる場所  そこを物体の中心とする!  local peak でのボックスサイズと離散化誤差を予測  離散化誤差 = 元画像から heatmap にした際の誤差(微調整)  予測ボックス出力!  NMS はしない(個人的に大事)  heatmap 内の1マスに対する出力個数(検出時)  クラス数 + 4(2: ボックスサイズ、2: 離散化誤差) 8 heatmapイメージ https://pythonspot.com/tag/heatmap/
  • 10. 3. CenterNet の特徴  推論(予測)時のイメージ(タスクごとの違い) 9
  • 11. 3. CenterNet の特徴  Test Time Augmentation でも検証済  No Augmentation  flip Augmentation  flip and multi-scale (0.5, 0.75, 1, 1.25, 1.5) with NMS(←大事)  リアルタイムとして使うなら赤い箇所が精度・速度面で良さそう  Backbone: DLA-34, Augmentation: No or flip  multi-scale は精度も上がるけど推論時間がきつい(コンペなら使う価値ありかも) 10
  • 12. 3. CenterNet の特徴  学習時の流れ  教師ラベル用 heatmap の作り方  処理前  処理後  実際の物体の中心 を低解像度化 ->  本論文では R=4  ガウシアンカーネルでなだらかな値にする  中心座標が頂点(=1) となる山を作るイメージ  同じクラスの違う物体で重なった場合は値が高い方を採用  σp は object size-adaptive standard deviation  多分データセット毎に出すべき値? 11
  • 13. 3. CenterNet の特徴  学習時の loss 設計(それぞれ比率をかけて足したものが合計 loss)  Heatmap の loss  pixelwise logistic regression with focal loss(N は number of keypoints in image)  離散化誤差の loss  ボックスサイズの loss  ボックスサイズは scaling (最大値1にする) してないことに注意 12
  • 14. 4. この論文の工夫点 13  Backbone(DLA・HourGlass) を使う  離散化誤差の定義  物体の中心のみ求めれば良いというシンプルなネットワーク  他タスクへの応用(が簡単なネットワークを提案)  3D detection  Human pose estimation  Orientation(方向)  Batch-normalization で cudnn を使わない(???)  PyTorch のソースをいじって設定変更できる  実験時は使わない方が精度が上がったとのこと
  • 15. 5. 個人的な所感  Backbone(DLA・HourGlass) の貢献がすごい  今後もっと増えると思います  Heatmap 路線の Detector はもっと増えそう?  NMS を使わなくて良いのは個人的に嬉しい  シンプル  シンプルで精度高いのでふつくしい…  実装がとても参考になる  とりあえず近いうちに検証します 14
  • 16. References  Objects as Points(https://arxiv.org/abs/1904.07850)  CornerNet: Detecting Objects as Paired Keypoints(https://arxiv.org/abs/1808.01244)  Deep Layer Aggregation(https://arxiv.org/abs/1707.06484)  Deep layer aggregation. Cvpr2018(わかりすかったまとめスライド)  https://www.slideshare.net/ShinichiroMurakami/deep-layer-aggregation-cvpr2018 15