cvpaper.challenge@R-CNN

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
R-CNN: Region-based Convolutional Networks

R-CNNの流れ
R-CNN [CVPR2014]
Selective Search [IJCV2013]やBING [CVPR2014]など物体候補領域抽出 + 227x227pixelsの画像からAlexNet
の第6,7層を取り出し，bounding box regressionにより矩形の当てはめ．
PASCAL VOC 2007で58.8%, 同2010で53.7%，同 2012にて53.3%
R-CNN+ [PAMI2015]
CNN特徴をAlexNetからVGGNetに変更．
Fast R-CNN [ICCV2015]
Selective Search+CNN特徴という形が基本だが，RoIプーリングにより任意の領域サイズを入力として固定
の特徴ベクトルを出力．227x227pixelsの畳み込みを避けることで高速化．Multi-task lossやすべての層のパ
ラメータ更新により精度自体も向上．
Faster R-CNN [NIPS2015]
Fast R-CNNにてボトルネックになっていた物体候補領域抽出をRegion Proposal Networks (RPN)に置き換え
ることでEnd-to-Endによる物体検出を実現．最適なRegion Proposal学習のためのLoss Functionも考慮．

PASCAL VOCにおける精度
PASCAL VOC 2007 PASCAL VOC 2010 PASCAL VOC 2012
R-CNN [CVPR2014] 58.8 53.7 53.3
R-CNN+ [PAMI2015] 66.0 62.9 62.4
Fast R-CNN [ICCV2015] 70.0 68.8 68.4
Faster R-CNN [NIPS2015] 73.2 - 70.4

Keywords: Objectness, selective search
新規性・差分
手法
結果
概要
Superpixelベースの手法にてセグメンテーションした結果
を適応的に統合し，物体検出のための候補領域とする．な
お，その後オリジナルのR-CNNの物体候補領域抽出方法と
して適用された．
Exhaustive Search (画像の全探索)よりも処理時間を低減
し，なおかつすべてのスケールや物体形状にも対応可能で
ある．superpixel領域を適応的に統合することで高速かつ
柔軟な形状変化に対応可能である．
“Efficient Graph-based Image Segmentation”によりsuperpixel領域単位
に分類する．さらにはこの領域に対して類似度計算，隣接領域の統合を
繰り返すことで各スケールや形状に関係なく物体の候補領域を抽出でき
る．特徴量には色やテクスチャ，サイズ，位置関係を用いる．初期パラ
メータとして閾値を複数用いて異なる領域を抽出する処理も行う．下の
表は3つの戦略であり，一番上は単一の特徴量にて試した結果．次に
Selective Search Fastでは速度重視の方法をとっており，組み合わせの
数が少ない手法である．精度をとるのであればSelective Search Quality
が一番精度が高かった．Fast/Qualityではそれぞれ8/80の組み合わせを
実行することになる．
平均して正解の物体矩形とのオーバーラップ領域が87.9% (10,097
の領域に対し)，Recall rateは99%を記録するなど良好な性能を実現
した．
Jasper R. R. Uijlings, Koen E. A. van de Sande, Theo Gevers, Arnold W. M. Smeulders, “Selective
Search for Object Detection”, in IJCV, 2013.
【1】
Links
論文
https://ivi.fnwi.uva.nl/isis/publications/2013/UijlingsIJCV2013/
UijlingsIJCV2013.pdf
プロジェクト
https://ivi.fnwi.uva.nl/isis/publications/bibtexbrowser.php?
key=UijlingsIJCV2013&bib=all.bib

Superpixelの出力と順次統合した結果
PASCAL VOCに対する性能：recall-正解のうち正解であると予測さ
れたものの割合，MABO (mean average best overlap)-もっとも重な
り率が高い矩形の平均，windows-候補領域の数

Keywords: R-CNN, CNN, Selective Search
新規性・差分
手法
結果
概要
Regions with CNN (R-CNN)のオリジナル論文．候補領域
抽出と畳み込みニューラルネットワーク(CNN)の特徴量
+SVMにより分類することで物体検出を行う．
CNNの研究では主に物体識別問題が行われてきた．しか
し，位置まで含めて特徴量を取得することも重要な課題で
ある．R-CNNでは物体候補領域を抽出し，領域内で識別を
実行することにより位置まで含めた物体検出を実現するこ
とができる．
次ページにR-CNNのフローを示す．(1)画像入力 (2) 2000前後の物体候
補領域を抽出する．本論文ではselective search (fast mode)を用いてい
るが，EdgeBoxes, GOP and LPO, MCG, RIGOR, などに代替可能であ
る．(3) CNNアーキテクチャの中間層から特徴量を取り出す．ここでは
Caffe/Decafの実装であるAlexNetを用い，同Decaf論文[Donahue+,
ICML2014]にてもっとも精度の良かった第6, 7層の特徴量(4096次元)を
使用．warped regionとあるが，これは一定のサイズ(227x227pixels)に
リサイズすることである． (4) SVMにより候補領域内の画像を評価す
る．信頼度が高い領域のみを認識結果として出力する．
また，エラー率を下げるためにDPMでも採用されたbounding-box
regression(bbg)を採用した．bbgでは候補領域Pから正解領域Gへの線形
関数である変換マップdを生成することが目的である．
PASCAL VOC 2007で58.8%, 同2010で53.7%，同 2012にて53.3%
の精度を達成した．DPMでは33.4%(PASCAL VOC 2010)の認識結
果であるため，かなりの精度向上を実現した．処理時間はGPUにて
13s/image, CPUにて53s/imageであった．
Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik, “Rich feature hierarchies for accurate object
detection and semantic segmentation”, in CVPR, 2014.
【2】
Links
論文 http://www.cs.berkeley.edu/~rbg/papers/r-cnn-cvpr.pdf
プロジェクト https://github.com/rbgirshick/rcnn
【物体候補領域】
EdgeBoxes: matlab code
GOP and LPO: python code
MCG: matlab code
RIGOR: matlab code

Keywords: R-CNN, Convolutional Neural Networks (CNN)
新規性・差分
手法
結果
概要
R-CNNの処理を高速化．従来のR-CNNに対して9倍，He
らのSPPnetに対して3倍の高速化を実現した．
1.  R-CNNやSPPnetよりも精度向上
2.  Multi-task lossを用いたシングルステージの学習
3.  全てのレイヤを学習により更新
4.  特徴をキャッシュするストレージは不要
基本的には物体候補領域を抽出してconv.やmax-poolingにおける特徴
マップを学習．
【学習】特徴マップにおけるRoIプーリングにより任意の領域サイズを入
力として固定の特徴ベクトルを出力する(学習や検出時に比較できるた
め)．pre-trainedモデルからの初期化について，全結合層とsoftmax層が
RoI pooling層に置き換えられる．なお，RoI pooling層は誤差逆伝播法も
処理可能である．Multi-task lossではK+1(物体Kクラス+背景1クラス)層の
分類において特徴ベクトルを入力としたときのsoftmax層の分類誤差
L_cls(p, u)と位置ずれに対する誤差L_loc(t, v)から分類やローカライズを
補正するためのマルチタスク学習を行う．
【検出】SVD(特異値分解)による低ランク近似を利用して，全結合層の
パラメータを削減して高速化を図る．
VOC 2007, 2010, 2012に対して良好な結果が出ただけでなく，高速な学
習やfine-tuningによりさらに精度が向上した．下図が成果である．
Ross Girshick, “Fast R-CNN”, in ICCV, 2015.【3】
Links
論文 http://arxiv.org/pdf/1504.08083v2.pdf
著者 http://www.cs.berkeley.edu/~rbg/
GitHub https://github.com/rbgirshick/fast-rcnn

Keywords: Faster R-CNN, Region Proposal Networks (RPN)
新規性・差分
手法
結果
概要
物体候補領域をニューラルネットワークにて計算する
Region Proposal Networks (RPN)を提案することで，End-
to-Endで候補領域抽出~物体検出が可能になった．
物体候補領域を別処理により設定する必要があったが，
Faster R-CNNでは物体候補領域もCNNアーキテクチャ内
で抽出可能．実験では約5FPSでの物体検出やPASCAL
VOCで最高精度を記録した．
入力の画像サイズを適応的にした．画像を入力すると中間
層(intermediate layer)を通り抜け物体候補領域(reg layer)と
領域ないのスコア値(cls layer)を計算する．
PASCAL VOC 2007にて73.2%, 2012にて70.4%を達成した．候補領
域の数も最大300としている．
Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, “Faster R-CNN: Towards Real-Time Object
Detection with Region Proposal Networks”, in NIPS, 2015.
【4】
Links
論文 http://arxiv.org/pdf/1506.01497v2.pdf
GitHub (Python) https://github.com/rbgirshick/py-faster-rcnn
GitHub (Matlab) https://github.com/ShaoqingRen/faster_rcnn

ご質問，コメント等ありましたら
cvpaper.challenge[at]gmail[dot]com / Twitter@CVPaperChalleng までお願いします．

cvpaper.challenge@R-CNN

More Related Content

Viewers also liked (20)

cvpaper.challenge@R-CNN