SlideShare a Scribd company logo
2
Most read
3
Most read
10
Most read
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Focal Loss for Dense Object Detection (ICCV 2017)”
土居健人, 岩崎研
書誌情報
• ICCV2017 Student Best Paper
• 著者: T.Lin, P. Goyal, R. Girshick, K. He, P. Dolla ́r
– 物体検出でおなじみのR. Girshick氏とK. He氏の名も
• 引用数: 2017年は56
• 選定理由
– シンプルな手法で大きな成果をあげた
– クラスの不均衡の問題に興味があった
– 分類や領域分割など他のタスクにも適用できそう
– 最近Facebookの研究グループがDetectronを公開したのでタイムリー
• 注釈の無い図は本論文からの引用
2
論文概要
• 物体検出タスクにおいてone-stage detectorの精度を高めたい
– one-stage detector (YOLO, SSDなど)
– two-stage detector (Faster R-CNN系)
• 学習時のクラスの不均衡がone-stage detectorの検出精度に悪影
響を与えることを指摘
– 物体 (positive) << 背景 (negative)
– 背景(hard negative) << 背景(easy negative)
• クラスの不均衡を調整するためFocal Lossという損失関数を提案し,
one-stage detector(ReinaNet)でCOCOデータセットのsotaを達成.
3
4
※kawanoさんのYOLO9000の発表資料から引用
J. Redmon (2017)
One-stage detectors
• 一段のCNNで直接bounding box
の座標とクラスを推定する
• 代表的なモデルはYOLO, SSD
• two-stage detectorに比べると,
検出速度が速く,精度は劣る
5
J. Redmon (2016)
Two-stage detector
• 以下の2段階のプロセスで物体検出をする手法
– ①候補領域の抽出
– ②クラス,bounding boxの座標の推定
• 代表的なモデルはFaster R-CNN
• 検出精度が高いが,速度がやや遅い
6
S. Ren (2016)
speed/accuracy trade-off
7(J. Huang 2017)
本論文の仮説
仮説
クラスの不均衡がone-stage detectorの検出精度に悪影響を与えている.
8
one-stage detector
• 膨大な数(~100k)の抽出領域のほと
んどがeasy negative example
• 学習にあまり役立たないサンプルの数
が圧倒的になってしまっている.
• two-stage detectorではこのような不均
衡は起こっていない.
positive example
hard negative easy negative
※フリー素材
不均衡データ問題への対策
目標
クラスの不均衡の解決によりone-stage detectorの性能を上げる
先行研究
• boostrapping
• hard example mining
– 学習に寄与するデータのみサンプリングする.
提案手法
• 新たな損失関数 (Focal Loss)
9
Focal Loss
10
• αt : クラス間の重み付け
• (1-pt)γ : easy exampleをdown-weight
実装が簡単!!
実験
データセット
• COCO benchmark
11
RetinaNet
• ResNetベース
• subnetでbounding box, クラス推定
• 各ピクセルごとに領域を抽出
Focal Lossの効果
• Focal Lossの最適なパラメータの探索
– α = 0.25
– γ = 2.0
Focal Lossの適用により精度が向上
最適なαとγの探索が必要
12
OHEMとの比較
• Online Hard Example Mining (OHEM)
との比較
– OHEMは学習時にhard exampleをサン
プリングする手法
• OHEMよりも良い結果になった
– 筆者はeasy negativeを全く学習に使わ
ないのはよく無いのではと考察
13
easy negativeの損失の低減
• 累積分布関数により各抽出領域の損失への寄与を可視化.
• γ=2において負例の損失のほとんどがhard exampleからなるこ
とがわかる.
14
ベンチマークとの比較①
• two-stageの検出器の精度を上回り,state of the art.
15
ベンチマークとの比較②
• 速さ,精度ともに優れている.
16
まとめ
• 学習時のクラス不均衡がone-stage detectorの性能を下げて
いることを発見.
• 不均衡に対処するためにFocal Lossを提案.
• COCOベンチマークで検証し,既存の手法を速度と精度の両
方で上回った.
17
感想
• シンプルな手法で大きな成果を上げていてすごい.
• 各ピクセルごとに領域を抽出するRetinaNetはFocal Lossと相
性が良さそう.
– 大量に無駄な領域を抽出してもFocal Lossで調整できる.
• 分類やセグメンテーションなど他のタスクにも応用できそう
– X. Zhou et al. Focal FCN: Towards Small Object Segmentation with
Limited Training Data, arXiv, 2017.
– 多クラス問題の場合,超パラメータの探索が課題
18
参考文献
T. Lin et al. Focal Loss for Dense Object Detection. In ICCV, 2017.
J. Redmon and A. Farhadi. YOLO9000: Better, faster, stronger. In CVPR, 2017.
J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object
detection. In CVPR, 2016.
S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: To- wards real-time object detection with
region proposal net- works. In NIPS, 2015.
J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z.Wojna, Y. Song, S.
Guadarrama, and K. Murphy. Speed/accuracy trade-offs for modern convolu- tional object
detectors. 2017.
X. Zhou et al. Focal FCN: Towards Small Object Segmentation with Limited Training Data. arXiv, 2017.
19

More Related Content

PPTX
ResNetの仕組み
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
多様な強化学習の概念と課題認識
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PPTX
Triplet Loss 徹底解説
ResNetの仕組み
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【論文紹介】How Powerful are Graph Neural Networks?
Transformerを多層にする際の勾配消失問題と解決法について
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
多様な強化学習の概念と課題認識
変分推論法(変分ベイズ法)(PRML第10章)
Triplet Loss 徹底解説

What's hot (20)

PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PDF
Neural networks for Graph Data NeurIPS2018読み会@PFN
PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PPTX
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
PPTX
[DL輪読会]逆強化学習とGANs
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PPTX
[DL輪読会]When Does Label Smoothing Help?
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
Curriculum Learning (関東CV勉強会)
PPTX
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
PDF
Active Learning 入門
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
PPTX
backbone としての timm 入門
PDF
GAN(と強化学習との関係)
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PDF
PCAの最終形態GPLVMの解説
PDF
強化学習の基礎的な考え方と問題の分類
How Much Position Information Do Convolutional Neural Networks Encode?
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
[DL輪読会]Pay Attention to MLPs (gMLP)
Neural networks for Graph Data NeurIPS2018読み会@PFN
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
【DL輪読会】Scaling Laws for Neural Language Models
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]逆強化学習とGANs
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]When Does Label Smoothing Help?
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Curriculum Learning (関東CV勉強会)
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Active Learning 入門
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
backbone としての timm 入門
GAN(と強化学習との関係)
【メタサーベイ】Vision and Language のトップ研究室/研究者
PCAの最終形態GPLVMの解説
強化学習の基礎的な考え方と問題の分類
Ad

Similar to [DL輪読会]Focal Loss for Dense Object Detection (20)

PPTX
Object detectionの研究動向~SSDまで~
PDF
[DL輪読会]YOLO9000: Better, Faster, Stronger
PPTX
[DL輪読会]End-to-End Object Detection with Transformers
PDF
物体検知(Meta Study Group 発表資料)
PDF
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
PDF
SSD: Single Shot MultiBox Detector (ECCV2016)
PDF
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
PPTX
AIエッジコンテスト|1位 & 3位解法
PPTX
関西Cvprml勉強会2017.9資料
PPTX
論文紹介: Fast R-CNN&Faster R-CNN
PDF
Centerlossを読んでみた_20170618@abeja
PPTX
Eccv2018 report day4
PDF
論文 Solo Advent Calendar
PDF
文献紹介:You Only Look Once: Unified, Real-Time Object Detection
PPTX
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
PDF
明日使えるかもしれないLoss Functionsのアイディアと実装 [GO株式会社 AI技術共有会資料]
PDF
ECCV 2016 まとめ
PDF
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
PPTX
Eccv2018 report day3
PPTX
[DL輪読会]Objects as Points
Object detectionの研究動向~SSDまで~
[DL輪読会]YOLO9000: Better, Faster, Stronger
[DL輪読会]End-to-End Object Detection with Transformers
物体検知(Meta Study Group 発表資料)
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
SSD: Single Shot MultiBox Detector (ECCV2016)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
AIエッジコンテスト|1位 & 3位解法
関西Cvprml勉強会2017.9資料
論文紹介: Fast R-CNN&Faster R-CNN
Centerlossを読んでみた_20170618@abeja
Eccv2018 report day4
論文 Solo Advent Calendar
文献紹介:You Only Look Once: Unified, Real-Time Object Detection
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
明日使えるかもしれないLoss Functionsのアイディアと実装 [GO株式会社 AI技術共有会資料]
ECCV 2016 まとめ
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
Eccv2018 report day3
[DL輪読会]Objects as Points
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...

[DL輪読会]Focal Loss for Dense Object Detection