Faster R-CNN

Faster R-CNN :
Towards Real-Time Object
Detection with Region Proposal
Networks
NIPS 2015
Microsoft Research
2018.03.26
신호해석특론
김정훈 jhkim@dilab.co.kr

Contents
 Object Detection
 R-CNN(2013)
 Fast R-CNN(2015)
 Faster R-CNN(2016)
 Paper plan(2018)
신호해석특론 2

Introduction
 Object Detection
 입력 영상내에 존재하는 모든 카테고리에 대해
classification과 localization을 수행
 Object 0 ~ N개

Naïve Approach
 Sliding window approach
 모든 크기의 영역(different scale & ratio)에 대해
sliding window 방식으로 이미지를 모두 탐색하면서
classification을 수행
 비효율적

Region Proposals
 Region proposal algorithm
 물체가 있을 법한 영역을 찾아내는 알고리즘
 Search space를 줄임
 SlidingWindow, SelectiveSearch, EdgeBoxes, ..

Selective Search
 Goal
 영상은 계층적 구조를 가지므로 적절한 알고리즘을 사용하여
크기에 상관없이 대상을 찾아낸다.
 컬러, 무늬, 질감, 명암 등 다양한 기준에 따라 segmentation

Selective Search
 sub-segmentation
 각각의 객체가 1개의 영역에 할당이 될 수 있도록
많은 초기 영역을 생성한다.

Selective Search
 Greedy algorithm
 여러 영역으로부터 가장 비슷한 영역을 고르고,
이것들을 좀 더 큰 영역으로 통합을 하며,
1개의 영역이 남을 때까지 반복한다.
 초기의 작은 영역들이 유사도에 따라 점점 통합이 되는 것을 확
인할 수 있다.

Selective Search
 Region of Interest (ROI)
 통합된 영역들을 바탕으로 후보 영역들을 만들어 낸다.
이 과정을 통합적으로 보여주는 과정은 아래와 같다.

R-CNN
 Region Proposal
+ Convolutional Neural Network (CNN)

R-CNN
 문제점
 Localization 성능이 취약
 CNN이 positional invariance한 특성을 가지고 있음
 Region proposal 내에서 물체가 중앙이 아닌 다른 곳에
위치하고 있어도 CNN이 높은 classification score을 예
측하기 때문

R-CNN
 해결 : bounding-box regression
 위치 보정
 region proposal P, 정답 위치 G
 P를 G로 mapping할 수 있는 변환을 학습
 Kind of a refinement step.

R-CNN
 Summary

R-CNN
 R-CNN과 타 알고리즘과의 성능 비교

R-CNN
 문제점
 Test 속도가 느림
 모든 region proposal에 대해 CNN을 계산
 GPU(K40)에서 13s / image
 SVM과 bounding box regressor의 학습이 분리
 CNN학습 과정 후, SVM과 bounding box regressor의 학습이
나중에 진행됨(post-hoc)
 학습 과정이 복잡함
 다단계 training pipeline
 GPU(K40)에서 84시간 (VOC2007, 5000 images)

Fast R-CNN
 특징: 속도개선
 같은 image의 proposal들이 convolution layer를 공유
 ROI Pooling 도입
 전체 network가 End-to-end로 한번에 학습
 ~160x faster than R-CNN

Fast R-CNN
 R-CNN과 feature 추출방법 비교
 R-CNN은 각각의 region마다 crop하여 cnn연산
 Fast R-CNN은 cropping을 image level이 아닌
feature map level에서 수행
 CNN연산 2,000번 ~> 1번

Fast R-CNN
 ROI pooling
 Selective Search통해 찾은 ROI영역
 전체 image를 convolution해 나온 feature map에서
ROI영역만 pooling하여 fc layer에 넣는다.

Fast R-CNN
 전체 구조

Fast R-CNN
 문제점
 Region proposal 계산이 NN밖에서 일어난다.
 Region proposal(Selective Search)이
전체 성능의 bottleneck이 된다.
 SS가 느린 이유 중 하나는 GPU가 아니라
CPU로 계산하기 때문.
 =>GPU연산을 사용하자(Faster R-CNN)

Faster R-CNN
 RPN: Region Proposal Network
 Fast R-CNN에서 Bottleneck이었던
region proposal 생성을 CNN내부에 설계.

Faster R-CNN
 Region Proposals from Feature Map
 Classification 또는 detection을 수행하는 CNN이 가진 feature
map이 대략적인 물체의 위치정보를 가지고 있다면, 이를 잘 학습
하면 물체의 대략적인 위치를 잡아낼 수 있을것.
 feature map activation 시각화

Faster R-CNN
 feature map 정보를 활용해 물체가 존재하는 위치를 출력으로 가
지는 네트워크인 region proposal network(RPN)를 학습해보자는
아이디어
 입력: N x N 크기의 작은 window영역
 출력: binary classification
 Bounding-box regression또한 사용

Faster R-CNN
 하지만, object들의 크기와 비율은 다양.
 미리 정의된 여러 크기와 비율의 reference box k
 물체/배경 x, y, w, h

Faster R-CNN
 Anchor 개수
 feacher map의 크기가 W x H일때
 총 W x H x K 개의 anchor를 가진다.
 논문에서는 3가지 크기(128, 256, 512), 3가지 비율(2:1, 1:1, 1:2)
 K = 9

Faster R-CNN
 Alternating Optimization
 RPN과 Fast R-CNN이 서로 convolution feature를
공유한 상태에서 번갈아 가며 학습을 진행하는 형태
 복잡한 학습 과정
 논문 마감일 때문

Faster R-CNN
 Joint Optimization
 RPN의 loss function과 Fast R-CNN의 loss function을 합쳐
multi-task loss로 둔 뒤 한번에 학습.
 동일하거나 높은 성능이 나올 수 있음을 실험적으로 증명

Faster R-CNN
 Experiments
 RPN을 사용했을때 상당한 속도향상을 보인다.

Faster R-CNN
 Experiments
 3 scales, 3 ratios를 사용했을때 가장 성능이
잘 나온다
 Anchor를 9개로 잡은 이유.

Faster R-CNN
 Performance
 R-CNN, Fast R-CNN, Faster R-CNN의 성능 비교
 object detection system to run at
near real-time frame rates

SUMMARY
 R-CNN
 Region proposal과 Classification CNN을 결합하여 높은 성능의
Object detection을 수행
 Fast R-CNN
 ROI Pooling을 사용해 연산을 줄이고 속도를 올림

SUMMARY
 Faster R-CNN
 Region proposal 알고리즘으로 생기는 bottleneck을 개선
 Conv feature map으로부터 region proposal을 직접 생성할 수
있는 RPN(region proposal network)를 제안

Furthermore
 YOLO(You Only Look Once)
 https://youtu.be/VOC3huqHrssDetection문제를
regression문제로 접근
 하나의 convolution network사용
 전체 image를 한 번에 처리하므로 매우 빠르다.

Furthermore
 SSD(Single Shot Detector)
 Faster R-CNN 보다 빠르고 YOLO 만큼 정확하다.
 Category와 box offset을 prediction한다.
 Feature map을 사용해 prediction한다.

Furthermore
 Mask R-CNN

Reference
 How Good are Detection Proposals, really?, J. Hosang et al, BMVC14.
 Selective Search for Object Recognition, J. R. R. Uijings et al, IJCV13.
 Edge boxes: Locating Object Proposals from Edges, L. Zitnick et al,
ECCV14.
 Fast R-CNN, R. Girshick, ICCV15.
 Faster R-CNN: Towards Real-Time Object Detection with Region Proposal
Networks, S. Ren et al, NIPS15.
 Mask R-CNN, K. He et al, arXiv17.
 Rich Feature Hierarchies for Accurate Object Detection and Semantic
Segmentation, R. Girshick et al, CVPR14.
 “Lecture 6: CNNs for Detection, Tracking, and Segmentation”
 https://blog.lunit.io/2017/06/01/r-cnns-tutorial/

Faster R-CNN

More Related Content

What's hot (20)

Similar to Faster R-CNN (20)

Faster R-CNN

Editor's Notes