SlideShare a Scribd company logo
cvpaper.challenge	
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee, “Deeply-Recursive Convolutional Network for Image Super-
Resolution”, in CVPR, 2016. (oral)	
【1】	
Keywords: Super Resolution, Deeply-recursive Convolutional
Network (DRCN)	
新規性・差分	
手法	
結果	
概要	
超解像画像生成を行うため,Deeply-Recursive Convolutional
Network (DRCN)を提案する.本論文で提案するネットワークは
16層以上の再帰的な(recursive)畳み込みネットワークである.	
通常,ネットワークの構造が深くなるほど勾配を学習し収束さ
せることは困難となるが,これを簡略化するために”Recursive
Supervision”と”Skip-connection”を提案した.	
図は本論文のアーキテクチャを示す.3種の構造 -Embedding, Inference,
Reconstruction network-からなる.	
Embedding Networkでは入力画像から特徴マップを生成する.	
Inference Networkで主に超解像の問題を解決している.重みを共通にしており,
再帰的に重みを学習する.	
Reconstruction Networkでは学習された重みから画像を入力に戻すことによりより
解像度の高い画像を再構成可能とする.	
Skip-connectionでは入力層や中間層から取り出した特徴マップを
ReconstructionNetworkに結合することである.入力と出力が高い相関を持つ超解
像の問題では,中間層の微小な変化を再構成するステップで用いることが有効で
あると位置付けた.	
表はベンチマークテスト[Yang
+, TIP10]における結果であ
る.他手法と比較しても高い
SN比を達成した.左図は再現
した実際の画像であり,
GroundTruth画像に一番近い
再構成を行った.	
Links	
論文 http://arxiv.org/pdf/1511.04491.pdf	
参考 http://jiwonkim.org/awesome-deep-vision/	
Recursive Neural Net	
[25] http://nlp.stanford.edu/pubs/SocherHuvalBhatManningNg_NIPS2012.pdf	
[22] http://jmlr.org/proceedings/papers/v32/pinheiro14.pdf	
[6] http://arxiv.org/pdf/1312.1847v2.pdf	
[17]
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/
Liang_Recurrent_Convolutional_Neural_2015_CVPR_paper.pdf
Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee, “Accurate Image Super-Resolution Using Very Deep
Convolutional Networks”, in CVPR, 2016. (oral)	
【2】	
Keywords: Super Resolution, Very Deep Convolutional Networks	
新規性・差分	
手法	
結果	
概要	
VGGNetレベルの深い構造で超解像のタスクを実行するための
研究である.ネットワークアーキテクチャは20層にも及ぶ.残差
(Residual)を学習することにより勾配の最適化を高速に行うこと
ができると主張.	
深い構造のニューラルネットは勾配が爆発的になり,学習によ
る収束が困難であるがこれを残差の最適化をすることにより勾
配の収束を簡易的かつ高速にした.	
下図はネットワークアーキテクチャである.基本的には畳み込みとReLUを繰り返し
実装する.最終層で超解像に必要な残差を取得し,入力画像に組み込む形で超
解像画像を復元する.	
ベンチマークには[Huang+, CVPR15]を用いた.表が復元したPSNRの値やその比
較を示している.	
Links	
論文 http://arxiv.org/pdf/1511.04587v1.pdf	
参考 http://jiwonkim.org/awesome-deep-vision/
Shandong Wu, Omar Oreifej, Mubarak Shah, “Action Recognition in Videos Acquired by a Moving Camera Using
Motion Decomposition of Lagrangian Particle Trajectories”, in ICCV, 2011.	
【3】	
Keywords: Action Recognition, Lagrangian particle trajectory	
新規性・差分	
手法	
結果	
概要	
・カメラ自体が移動するシーン	
の人間の行動認識手法の提案	
・カメラの移動による誤検出やご追跡の発生をラグランジアン
パーティクルトラジェクトリーに基づいた方法で除去する	
以下の手順で行動認識が行われる.(左図(3列目)は特徴抽出の結果)	
(1) Lagrangian particle trajectoryによって,動画中から軌跡を抽出する.	
(2)抽出した軌跡に含まれた人間の行動の軌跡と,カメラの移動による軌跡を分割
する.	
(3)k-means法によって,得られた軌跡から100クラスタ生成し,Visual Wardを決定す
る.	
(4)学習や行動認識のための記述子を作成し,行動の特徴付けを行う.	
(5)SVMを使用し,学習を行う.	
・APHill dataset, ARG-aerial dataset, 	
HOHA dataset, UCF sports datasetでの結果を示す	
Links	
論文 	
http://ieeexplore.ieee.org/xpls/
abs_all.jsp?arnumber=6126397	
動画	
https://www.youtube.com/watch?
v=Wl1pQr_P7-s
Laura Sevilla-Lara, Deqing Sun, Varun Jampani, Michael J. Black, “Optical Flow with Semantic Segmentation
and Localized Layers”, in CVPR, 2016.	
【4】	
Keywords: Semantic Segmentation, Optical Flow	
新規性・差分	
手法	
結果	
概要	
オプティカルフローを高度に用いたセマンティックセグメンテー
ション手法の提案.現在のオプティカルフローでは荒い領域抽
出しかできないが,密なオプティカルフローや予めセグメント化
された領域を事前情報とすることで高精度に,かつ複数の意味
的な違いを見分けることができる.	
・シーンや物体などのセマンティックセグメンテーションにオプ
ティカルフローを導入することで高精度化	
・階層的オプティカルフローをいかに複雑なシーンに用いるか
を検討した	
前処理として荒く画像セグメンテーションをする.これは,物体間の境界を求めるた
めである.さらに,移動するカメラでは物体間が異なる動作をするので,オプティカ
ルフロー情報を取得し,追加情報とすることで領域への意味付けが高精度にでき
る.空間情報やフロー情報が相補的にKITTIデータのような移動カメラからのセマ
ンティックセグメンテーションを実現する.	
KITTIデータセットを拡張したKITTI-2015データセットを用いた.セマンティックセグメ
ンテーションの結果は表の通りである.	
Links	
論文 http://arxiv.org/abs/1603.03911	
プロジェクト
Junseoc Kwon, Kyoung Mu Lee, “Tracking by Sampling Trackers”, in ICCV, 2011.	
【5】	
Keywords: Visual Tracker Sampling, 	
新規性・差分	
手法	
結果	
概要	
・Visual Tracker Samplingと呼ばれる追跡フレームワークの提
案	
・状況に応じたトラッカーを逐一選定し,使用することで,実世界
における環境の変化に対応	
(1)に全体の流れの概要,(2)に適切なトラ	
ッカーの決定法を示す.	
(1)左図(a)に示すように,Visual Tracker S	
amplingは4次元の追跡空間(外観モデル,	
運動モデル,状態表現型,観測型)を有する.	
追跡空間内のトラッカー(点)をサンプリングすることで,トラッカーを決定する.このト
ラッカーを追跡処理中に適切なものにすることで,ロバストな追跡を可能にする(b).	
(2)右図に示すようにサンプラーは,平行かつ相互に処理されるトラッカーから,対象
とする物体の状態を取得することで適切なトラッカーを構築する.	
実験結果を右図に示す. 白枠が提案手法であるVisual Tracker Sampling,緑枠が
Visual Tracking Decomposition,紫枠がMultiple Instance Learningでの追跡結果で
ある.	
右図より,Multiple Instance Learningによる人物追跡は,動きや背景変動,ノイズが激
しいシーンにおいても正確に行われていることがわかる.	
Links	
論文 	
http://citeseerx.ist.psu.edu/viewdoc/download?
doi=10.1.1.398.4969&rep=rep1&type=pdf
Jianming Zhang, Stan Sclaroff, Zhe Lin, Xiaohui Shen, Brian Price, Radomir Mech, “Unconstrained Salient
Object Detection via Proposal Subset Optimization”, in CVPR, 2016.	
【6】	
Keywords: Salient Object Detection, Proposal, VGGNet	
新規性・差分	
手法	
結果	
概要	
Salient Object Detection (SOD)のための候補領域抽出.全く
顕著性のない画像の場合には候補領域を抽出しない(下図).
CNNモデルをベースにしており,最適化はMAPによりノイズなど
複雑背景下においても効果的に部分集合を推定する.	
現在までの顕著性マップ生成は画像内の相対的な評価によ
り,顕著な領域を検出してきたが,提案手法では絶対的な評価
により顕著な物体検出のみならず,顕著性のない場合には反
応しない手法を実装.	
顕著物体の検出のため,Greedy(貪欲な; ここでは画像全体の)探索と不要な領域
を除去するNon-Maximum Suppression (NMS)を実装.ここで,Maximum a
Posteriori (MAP)による部分集合の最適化を導入する.下図のようにステップごと
候補を除去して行き,最終的にはNMSにより出力する.図の例ではIoUが0.4以上
のトップ3を抽出.CNNモデルにはVGGNetを適用したが,Fine-tuningにより最終層
を100次元のSigmoid Layerとした.Fine-tuningに用いた画像はSalient Object
Subtizing (SOS)データに含まれる5,500枚の画像である.	
MSRA, DUT-O, MSOデータセットにより評価
を行った.表(上)は各データセットにおける
SODのAverage Precision (AP)であり,表(下)
は背景の認識率のAPである.	
Links	
論文
http://cs-people.bu.edu/jmzhang/SOD/
CVPR16SOD_camera_ready.pdf	
プロジェクト http://cs-people.bu.edu/jmzhang/sod.html	
GitHub Code https://github.com/jimmie33/SOD	
Model-Zoo Wiki https://github.com/BVLC/caffe/wiki/Model-Zoo
Nicolas Ballas, Li Yao, Chris Pal, Aaron Couville, “Delving Deeper into Convolutional Networks for Learning
Video Representations”, in ICLR, 2016.	
【7】	
Keywords: Video Representation, CNN	
新規性・差分	
手法	
結果	
概要	
CNNのビデオ表現.Gated-Recurrent-Unit Recurrent
Networks (GRUs)を適用することでマルチスケールの画像を入
力し,時系列の画像を処理する.荒い画像からは身体全体の
運動を,解像度の高い画像からはより繊細な動きを捉えること
ができ,時系列特徴をより詳細に取得するための手がかりとす
る.	
複数解像度の画像から畳み込みマップを抽出し,統合すること
が大きな新規性である.ここでは,GRU-RCN (RCNは再帰的畳
み込みネット)により時系列表現を拡張した.	
下図は提案手法の概略図である.Recurrent Neural Network (RNN)の一種である
GRUや再帰的畳み込みネットワーク(Recurrent Convolutional Network; RCN)を統
合するが,さらに複数解像度の画像を同時に畳み込み統合することにより時系列
表現を拡張.	
行動認識や映像説明文のタスクにおい
て実験を試みた.右図はUCF101に対す
る実験結果である.	
Links	
論文 http://arxiv.org/pdf/1511.06432v4.pdf	
GitHub https://github.com/yaoli/arctic-capgen-vid
Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Fahadi, “You Only Look Once: Unified, Real-Time Object
Detection”, in CVPR, 2016. (oral)	
【8】	
Keywords: Object Detection, Real-Time	
手法	
結果	
概要	
現在までの候補領域+CNNによる識別といった物体検出のアプ
ローチとは異なり,単一のCNNモデルで画像全体を一度処理し
スコアの高い領域を検出位置としてバウンディングボックス
(bbox)を出力するというコンセプトとした.下図に提案手法の簡
略図を示す.提案手法は非常に高速で約45fpsでの処理が可
能であり,解像度を若干落とすと155fpsでの処理も可能とした.	
画像を448x448pixelsにリサイズする.画像はSxSのグリッドに区切られ,それぞれ
の領域でbbox Bやそのスコアが推定される.各bboxからはx, y, w, h, scoreと,5つ
のパラメータが推定される.	
CNNのアーキテクチャはGoogLeNetを参考にしていて,24層の畳み込み層,2層の
全結合層から構成される.	
表はPascal VOC 2012における比較である.YOLOは高速であるが単体では57.9%
という結果であった.Fast R-CNN [Girshick, ICCV15]と統合することで70.7%と良好
な精度を実現可能であることが判明した.	
Links	
論文 http://arxiv.org/pdf/1506.02640.pdf	
プロジェクト http://pjreddie.com/darknet/yolo/	
Video
https://www.youtube.com/channel/UC7ev3hNVkx4DzZ3LO19oebg
Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Weinberger, “Deep Networks with Stochastic Depth”, in
arXiv, 1603.09382, 2016.	
【9】	
Keywords: Residual Networks	
新規性・差分	
手法	
結果	
概要	
2015年のILSVRCの各種タスクにおいてトップの精度となった
ResNetにおいて,この中間層を確率的にスキップする構造を取
り入れることで,CIFAR-10,CIFAR-100,SVHNのデータセット
において学習精度・学習時間共に改善することを示した.更
に,この構造を用いることで,CIFAR-10において1200層で学習
を行った場合でも精度が改善することを示した.	
Dropoutなどの確率的にユニットをスキップするような手法とは
異なり,畳み込み層自体をスキップしネットワークの深さを変動
させながのアンサンブル学習を行うことで汎用性を高める.	
学習時において,入力層から離れるに連れて中間層をスキップする確率を大きくし
ていき,スキップを行う場合はidentity mappingのみ伝播する.	
テスト時は,スキップを行わず全ての層を用いて伝播するが,各層での出力に学
習時に用いたスキップする確率をかけ合わせる.	
中間層をスキップしない	
ResNetと比較し,CIFAR-10,	
CIFAR-100,SVHNにおいて	
精度が向上した.	
Links	
論文 	
https://arxiv.org/abs/1603.09382
Bo Li, Tianfu Wu, Caiming Xiong, Song-Chun Zhu, “Recognizing Car Fluents from Video”, in CVPR, 2016. (oral)	
【10】	
Keywords: ST-AOG	
新規性・差分	
手法	
結果	
概要	
本論文では車両の状態の変遷(論文中ではFluentと表現)を推
定する.オクルージョンや低解像な場面においても高精度に時
系列遷移を推定するためにSpatio-Temporal And-Or Graph
(ST-AOG)を用いる.	
・ST-AOGを用いた時系列のFluent解析を提案.Car Fluentとい
うコンセプトはCVでは新しい提案	
・Car Fluentに関してデータセットを提供	
・Car Fluentや状態推定に関するモデルを新規に提案	
ST-AOGの学習にはLatent Structural SVMを適用する.	
Directed Acyclic Graph (DAG)に頼らず,代替としてLoopy Belief Propagation
(LBP)やDynamic Programming (DP)により時系列の遷移状態を推定.Part-baed
HMMを適用することでパーツ毎の時系列変化を捉える.	
FeatureにはImproved Dense Trajectories (IDT)やC3D特徴を採用.	
下はST-AOGによるCar Fluent Recognitionの結果(と表はその比較)である.TPS
やIDT,C3Dを組み合わせ,最終的には50.8%の精度での認識に成功した.	
Links	
論文
http://www.stat.ucla.edu/~sczhu/papers/Conf_2016/
CVPR2016_car_fluent.pdf	
C3D Feature https://arxiv.org/pdf/1412.0767.pdf	
プロジェクト
Alexander Richard, Juergen Gall, “Temporal Action Detection using a Statistical Language Model”, in CVPR,
2016.	
【11】	
Keywords: Action Detection, Language Model	
新規性・差分	
手法	
結果	
概要	
言語モデルを参考にした行動検出の問題.行動検出では行動
を認識するのみでなく,その位置まで推定する必要があるが,
言語モデルを参考にして可変の行動長さ,文脈を判断する.
「行動の長さ」「言語モデル(文脈)」「識別性に優れた行動」の3
つを同時最適化する.	
・行動検出に対して言語モデルを取り入れることで文脈やその
長さを効果的に分割することができる.	
・Language Model (言語モデル),Length Model (長さモデル),Action Model (行動
モデル)を個々に定義,Dynamic Programming内で行動や位置の推定を行う.	
THUMOS14の行動検出タスクにおいて
実験を試みた.Overlap率が0.1の際,
THUMOS14 (39.7%),MPII-Cooking
(24.8%),50 salads (37.9%)を達成した.	
Links	
論文
http://www.iai.uni-bonn.de/~gall/
download/jgall_actiondetect_cvpr16.pdf	
GitHub
https://github.com/alexanderrichard/
squirrel
Jinsoo Choi, Tae-Hyun Oh, In So Kweon, “Video-Story Composition via Plot Analysis”, in CVPR, 2016.	【12】	
Keywords:Video-Story Composition 	
新規性・差分	
手法	
結果	
概要	
ビデオからストーリーを再構成する.複数のビデオを入力とし
て,”Video-Story”と呼ばれるビデオクリップを構成することを
提案.特徴やマッチングにはDense Optical FlowやPatch
Matchingを採用し,さらに効果的なVideo-Storyの探索のため
にBranch-and-Boundアルゴリズムを適用.	
・複数のビデオクリップより自動でストーリーを構成する論文は
初めてであると主張	
・Video-Storyを解決するための一般的な手法を提案.	
左図はストーリー解析の様子である.ここではExposition, Rising Action, Climax,
Resolution (起承転結?)をベースとして展開に沿うビデオクリップを挿入した.設定
としては,複数のビデオクリップNを入力とし,C = {c_1, …, c_N}と表現.s(⊂P)は順
序を示し,Pは可能なCの順序を示す.(1)式は最適なビデオクリップのパスであり,
目的関数であるQ(s) ((2)式)を最適化.ここで,P(s)はストーリー展開時のペナル
ティを示し,D(s)は非類似度を示すため,(1)式であるようにarg minを取得すること
で最適なビデオクリップのパスs^*を推定できる.ここではNP-hard問題を,Branch-
and-Boundアルゴリズムを用いることで効果的に探索.	
新規にデータセットを提案.23
のビデオセットから構成され,
236のビデオクリップが含まれ
る.ROCカーブにより評価した結
果が右図.	Links	
論文
http://rcv.kaist.ac.kr/v2/bbs/board.php?
bo_table=rs_publications&wr_id=522	
プロジェクト
Qifeng Chen, Vladlen Koltun, “Full Flow: Optical Flow Estimation By Global Optimization over Regular Grids”, in
CVPR, 2016.	
【13】	
Keywords: Optical Flow Estimation, Full Flow, Markov Random Fields	
新規性・差分	
手法	
結果	
概要	
Optical Flow Estimation における離散グリッド間マッピングス
ペースの計算処理を大幅に削減した最適化手法の提案	
・変化の大きいシーンにおいて記述子を定義することなく実効
可	
・計算処理が簡略化されており,少ないコードで実行可	
本稿の手法の概要を述べる	
(1)右図上に示すように,対象とする画素から近傍4画素分のオプティカルフローを
抽出するモデルを構築する.	
(2)(1)は2次元のマルコフ確率場な	
ので,メッセージパッシングアル	
ゴリズムを構築し,計算処理の	
簡略化,さらに処理を速くするた	
めの改良を行う.	
	
下図にMPI Sintelデータセットでの比較実験結果を示す.	
提案手法は先行研究であるEpicFlow, TF+OFM, NNF-Local, PH-Flow, and Classic+NLよりも誤
差率が低く,十分な精度が出ている.	
右図に定性的比較実験の結果を示す.	
Links	
論文 	
http://vladlen.info/
publications/full-flow-
optical-flow-estimation-
by-global-optimization-
over-regular-grids/
Abhijit Kundu, Vibhav Vineet, Vladlen Koltun, “Feature Space Optimization for Semantic Video Segmentation”,
in CVPR, 2016. (oral)	
【14】	
Keywords: Semantic Segmentation, Video Segmentation	
新規性・差分	
手法	
結果	
概要	
静止画でなく,ビデオに対するセマンティックセグメンテーション
に関する手法を提案する.ここでは対応するピクセルのマッピ
ングを特徴空間のユークリッド距離にて最適化する手法を検討
する.構造的推定にはDense CRFを用いる.	
・時系列情報の正規化はシーンやカメラが動的であるため非常
に困難であるが,Dense CRFを用いることでこの最適化を実行	
・CamVid / Cityspacesデータセットに対して良好な性能を達成
した	
左図は時系列の構造モデルである.複数のフレームが同時に処理され,それぞれ
がDense 3D CRFにより構造的にセグメンテーションされる.このCRFは下の式を最
適化することで得られる.E_uはRegularization term,E_sは空間的正規化項(Spatial
Regularization Term),E_tは時間的正規化項(Temporal Regularization Term)を示
す.	
表はCamVidデータセット
に対する定量的な評価
である.クラスごとの
IoU,平均IoU,時間的整
合性を示す.CNN有/無
で上下に分割している.	Links	
論文 http://vladlen.info/papers/FSO.pdf	
プロジェクト
http://vladlen.info/publications/feature-space-optimization-for-
semantic-video-segmentation/
Yin Li, Manohar Paluri, James M. Rehg, Piotr Dollar, “Unsupervised Learning of Edges”, in CVPR, 2016. (oral)	【15】	
Keywords: Unsupervised Edge Learning	
新規性・差分	
手法	
結果	
概要	
データドリブン(アノテーションありの教師あり学習)のエッジ検出
ではなく,教師なし学習によりエッジ検出を高精度に実行する.
ここではビデオからsemi-denseなマッチング処理を行いモー
ション情報を取得.	
・現在のデータドリブンのエッジ検出は物体の境界線を与えた
データセットからの学習が必要であるが,本論文では教師無し
学習によりエッジ検出を高精度化する手法を提案する	
・高精度なエッジ検出は物体候補領域などに用いることができ
る?さらに高速化が必要か	
ここで,左下の図ではエッジ検出のためのフレーム間のsemi-denseなマッチングを
示した.モーションのつながりが阻害される位置は画像のエッジが存在するという
戦略で教師無しエッジ検出を実行する.semi-denseマッチングは[Weinzaepfel+,
ICCV13]により実行し,それ以外の特徴は用いていない.下図,提案フローの(1)
compute flowではフローベースのエッジマップを生成,(2) compute motion edgesで
は(1)で生成したフロー場からのモーションエッジを得る,(3) ではモーションエッジを
学習し,(4) compute edgesで最終的なエッジを検出.	
上記,semi-dense optical flowを用
いた結果,VSB benchmarkにて良好
な性能を達成 (.71).	
Links	
論文
http://arxiv.org/pdf/
1511.04166v2.pdf	
プロジェクト
Andrii Maksai, Xinchao Wang, Pascal Fua, “What Players do with the Ball: A Physically Constrained Interaction
Modeling”, in CVPR, 2016.	
【16】	
Keywords: Player and Ball Interaction	
新規性・差分	
手法	
結果	
概要	
ボールの追跡を実行する際に,選手とボールの関係性やボー
ルの物理的なモデルを用いる.モデリングはMixed Integer
Program (MIP)により行った.バレーボール,バスケットボール
やサッカーに対して処理を実行した.動画も下記リンクから閲
覧可能.	
 下図は,(左図) モーションの拘束なしにボールと選手を追跡し
た結果,(中央図) モーションの拘束あり,(右図) 提案手法であ
り,モーションの拘束や選手やボールのインタラクションをモデ
リングした結果である.	
下図は本論文で定期要するグラフィカルモデルである.毎時t のボールの位置X^t
や状態S^tを適宜画像列 I^t より更新する.ボールのグラフモデルはMixed Integer
Program (MIP)によりモデリングすることする.MIP内で速度や加速度の拘束を
(Second-orderまで)与える.さらには選手のボール保持情報 (Possession
constraints)も有り得る形式を推定する.	
選手追跡結果やボール追跡結果を表に示す.左側が選手追跡で,右側が誤差
25cmの際のボール追跡結果である.実際の処理結果は動画を参照.	
Links	
論文 http://arxiv.org/pdf/1511.06181v2.pdf	
プロジェクト http://cvlab.epfl.ch/research/surv/ball-tracking	
ビデオ https://www.youtube.com/watch?v=uZK8SmQ_3L8	
著者 https://sites.google.com/site/sitexinchaowang/
Siying Liu, Tian-Tsong Ng, Kalyan Sunkavalli, Minh N. Do, Eli Shechtman, and Nathan Carr, ”PatchMatch-based
Automatic Lattice Detection for Near-Regular Textures”, in ICCV 2015	
【17】	
Keywords: near-regular textures (NRT), Generalized PatchMatch algorithm (GPM), k-nearest-neighbor (kNN)	
新規性・差分	
手法	概要	
・私たちの衣服に印刷された建物の外見により,テクスチャパ	
ターンは我々の日常生活に遍在している.テクスチャパターン	
は最良の理解と対称性検出によるモデル化ができる.並進対	
称性は自然と人工構造物の中で最も一般的に発生する対称	
性の一つである.本研究ではNRTの格子構造の推定を自動	
で行うシステムを提案する.	
・形状よりテクスチャ,テクスチャ編集,テクスチャ要素に幾何	
学的歪みから面方位を推定しようとするアプリケーションには	
課題がある.私たちはGPMを活用することでこれらの問題に	
対処する.GPMではテクスチャ内の自己相似要素間の対応	
を見つけることにより,効率的に格子推定ができる.	
(1)画像内に存在する特徴点を繰り返し検出する.	
(2)GPMより見つけたk近似を復元することにより,問パッチセンタリングをランダム	
に選出し,格子の基礎を作成する.	
(3)格子基底提案の原点を中心パッチに初期化されたテクスチャの外観テンプレー	
トを構築し,格子を形成する.	
以下に提案手法の概要を示す.	
	
	
Links	
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/
Liu_PatchMatch-Based_Automatic_Lattice_ICCV_2015_paper.pdf
結果	
・Set AにおけるParkらの手法と提案手法の比較を図右図に示す.Set Aは	
Symmetry Detection from RealWorld Images Competition 2013のデータセット	
を使用している.	
・Set BにおけるParkらの手法と提案手法の比較を図右下図に示す.Set B は	
PSU near-regular texture databaseにあ るNRT data setを使用している.	
・表1にParkらの手法と提案手法の格子検出結果n比較を,表2に格子局在化にお	
ける比較を示す.表1,2の[15]はParkらが提案した手法である.



Hyeokhyen Kwon, Yu-Wing Tai, “RGB-Guided Hyperspectral Image Upsampling”, in ICCV 2015	
【18】	
Keywords: Hyperspectral imaging, Upsampling, Sparse coding, Remote-sensing	
新規性・差分	
手法	
結果	概要	
・本稿本稿ではハイパースペクトル画像の解像度上げ,アップ	
サンプリングするためのアルゴリズムを提案する.	
・提案手法は2段階のアルゴリズムで構成されている.第一段 	
階では,高解像度RGB画像から誘導するのに使われている1	
ピクセル以内のとき,混ざっていないハイスペクトル観測解法	
の代理を見積もる.第二段階では,シーンの局所領域内で限	
られた材料の仮定に基づいてプロキシ・ソリューションのスペ	
クトルを洗練する.	
・提案手法の概要を以下に示す.	
・Cave datasetを使用したときの提案手法と従来手法の比較を下図に示す.	
Links	
論文 	
http://www.cv-foundation.org/
openaccess/
content_iccv_2015/papers/
Kwon_RGB-
Guided_Hyperspectral_Image_IC
CV_2015_paper.pdf	
	
著者	
https://sites.google.com/site/
hyeokhyenkwon/
Mahyar Najibi, Mohammad Rastegari, Larry S. Davis, “G-CNN: An Iterative Grid Based Object Detector”, in
CVPR, 2016.	
【19】	
Keywords: object detection	
新規性・差分	
手法	
結果	
概要	
・新しい物体検出手法を提案	
・Fast R-CNN + Selective Searchより高速だが概ね同程度の
性能を出すことができることを実験で示す	
・新しい物体検出のパイプラインを提案	
	
・画像が入力されたらグリッドを切り、物体の候補領域とする	
・現在の候補領域に関して物体のスコアの算出とBBoxの位置の
回帰を行い、各候補領域の位置の修正を行う。この際に一気に
BBoxの位置を更新するのではなく、NNによって提示された更新
量を残りの更新回数で割った値を現在のBBoxの位置に足し込ん
でいく。	
	
・右図がiterativeにboxを更新して
いった場合の結果の例	
・Fast R-CNN+Selective Searchより
も高速だが概ね同程度の性能を出
すことに成功している	
・VOC 07においてはFaster R-CNN
と比較すると劣りそう	
・クラス数が多いとどうなるかが疑
問	
Links	
論文 http://arxiv.org/pdf/1512.07729v2.pdf	
プロジェクト http://www.umiacs.umd.edu/~najibi/GCNN.html
Ali Borji, Saeed Izadi, Laurent Itti, “iLab-20M: A large-scale controlled object dataset to investigate deep
learning”, in CVPR, 2016.	
【20】	
Keywords: Large-Scale DB, Object Recognition	
新規性・差分	
データセット	
結果	
概要	
制限された環境下で物体認識のデータセットを作成すること
で,(1) CNNの層を適応的に使用することができ,(2) ある物体
の学習結果を他のタスクに容易に転移可能,(3) システマチッ
クかつランダム性を考慮した学習,(4) 自然なシーンからのドメ
イン変換 ,(5) CNNに対して知識を拡張できるといったメリット
がある.	
・ImageNetのようにデータセット内にラベル付けされた画像が膨
大に存在するのではなく,位置・姿勢・スケール・照明・遮蔽な
ど微小に調整しバリエーションを持たせた方がCNNを学習する
際にパラメータを調整しやすい	
iLab-20Mデータセットはターンテーブル
やロボットアームにより撮影される(右
図).対象物体はToy Carsである.位置
の変動,回転,物体のバリエーションや
影,多数の背景など環境を変動させて
画像を撮影.8種の角度,11のカメラ
アーチ,5種の照明,3種の背景など多
様な環境(1つのインスタンスに対して
8x11x5x3=1320画像)を作り出すことが
できる.	
Selectivity and Invariance, Knowledge transfer, Systematic and random sampling,
Domain adaptation, Analysis of parameter learning orderなど5つのタスクについて
調べた.	
得られた知見としては例えば,照明やカメラ,回転などを推定する際には全結合層
を用いるよりもプーリング層を使った方が効果的であること,カテゴリ(e.g. boat,
bus)など概念を分割する際にはネットワークに対してFine- tuningを施した全結合
層を用いた方が良いことなどを示した.ランダムサンプリングを行うことで,より効
果的にインスタンスレベルの分散を取得可能なことが判明した.	
Links	
論文 http://crcv.ucf.edu/papers/cvpr2016/Borji_CVPR2016.pdf	
プロジェクト
各データセットの比較.提案のデータセットは表の一番下に示される.データ数は2100万を超えているが,現在もその数は増加しており,背景や基本的な
パラメータを変更するだけでデータを増やせるように設定した.
Ke Li, Bharath Hariharan, Jitendra Malik, “Iterative Instance Segmentation”, in CVPR, 2016.	
【21】	
Keywords: Semantic Segmentation, Instance Segment	
新規性・差分	
手法	
結果	
概要	
構造化されたモデルをセマンティックセグメンテーションに組入
れることは実用的であるが,人間が拘束を与えるのは得策で
はない.これを本論文では拘束を与えずに,かつ形状の事前
確率を推定する.	
・下図のようにセグメンテーションを実行するCNNにより繰り返
し処理.繰り返すたびに詳細のセグメンテーションが改良され
る.	
Implicitな形状に対してのピクセルごとのラベリング(Semantic Segmentation)は非
常に困難な課題と位置付けられているが,Auto-context [Tu+, TPAMI10]や
Iterative Error Feedback (IEF) [Carreira+, arXiv15]のような繰り返し最適化にイン
スパイアされている.下図が提案手法のフロー図であり,セグメンテーションを行う
CNNにより出力された画像をさらにセグメンテーションを行うCNNに繰り返し入力す
ることで結果を良好にしていく.	
なお,ここでの戦略はSimultaneous Detection and Segmentation (SDS; セグメン
テーションのマスクやインスタンスを検出結果から得ること) => Non-Maximum
Suppression (NMS) => Binarizationを行い,最終的なセグメンテーション結果を得
る.パラメータとして,入力画像は224x224[pixels], 出力画像は50x50[pixels],CNN
アーキテクチャにはVGG-16を用いた.	
最終的にはmAPが50%の
オクルージョン時には
63.6%,70%のオクルージョ
ン発生時にも43.3%にてセ
マンティックセグメンテー
ションを行うことに成功し
た.なお,これは現在の
state-of-the-artである.	
Links	
論文 http://arxiv.org/pdf/1511.08498v2.pdf	
プロジェクト
Shengcai Liao, Stan Z. Li, “Efficient PSD Constrained Asymmetric Metric Learning for Person Re-
identification” in ICCV, 2015	
【22】	
Keywords:PSD, Person Re-Identification, 	
新規性・差分	
手法	
結果	
概要	
.現在の人物再同定には, メトリック学習が適している.本論文	
の目的はメトリック学習の問題点となる計算処理能力を改善す
る方法を述べる.	
	
	
	
・従来手法	
従来ではマハラノビス距離を用いて, 人物認識を広く使われて
いるが, PSD制約は計算処理が多く, 時間がかかってしまう.	
・提案手法	
本手法はPSD制約をスムーズに計算処理する正則を提案す
る.	
・APGを用いた式を用いて, PSD制約の問題点である計算処理能力を解決する.	
. 従来の手法と提案した手法を
比較した結果, 提案した手法	
のほうが認識率が一番高く出
た. 	
	
Links	
論文 http://goo.gl/1RX3A6
Albert Haque, Alexandre Alahi, Li Fei-Fei, “Attention in the Dark: A Recurrent Attention Model for Person
Identification”, in CVPR, 2016.	
【23】	
Keywords: Person Identification,CNN,RNN	
新規性・差分	
手法	
結果	
概要	
・RGB情報が存在しない暗闇環境において人物識別を行うため
のattention-baseの人体形状と運動力学に基づいたモデル生
成法を提案.4次元の特徴空間から固有の運動を学習する.
CNNとRNNの組み合わせで各人らしさを表す小領域を同定.	
・Depth情報のみを使ったモデルのため,夜間においての人物
識別の実現への期待ができる.従来研究と異なりmetric
learingを使っていない.Depth画像の公開データセットでstate-
of-the-artな精度を達成.	
・4次元の特徴はCNNにとって辛いので,Glimse layerはダウンサンプリング,
Encoder layerでさらに次元削減が行われる.核となるRAMの段階では時空間上で
の学習が行われる.	
recurrent attention model(RAM)とオフラインの並列で学習を行う.	
Links	
論文 http://web.stanford.edu/~alahi/downloads/CVPR16_id.pdf	
	
・2,3,4次元それぞれの入力に対し提案手
法は下表のように,最先端手法と比較し
ても高いと言える精度を達成.
Gedas Bertasius, Jianbo Shi, Lorenzo Torresani, “Semantic Segmentation with Boundary Neural Fields”, in
CVPR, 2016.	
【24】	
Keywords: Semantic Segmentation	
新規性・差分	
手法	
結果	
概要	
Fully Convolutional Networks (FCN)に見られるようなセマン
ティックセグメンテーションの精度を改善するために,Boundary
Neural Field (BNF)を構造内に取り入れ,境界の手がかりを与
えた上でタスクをこなす手法を提案する.	
現在,セマンティックセグメンテーションの最先端手法はFully
Convolutional Networks (FCNs)であるが,大規模な受容野
(receptive layer)やプーリング層のためにブラーや低解像なセ
グメンテーションが目立つ.そのため,境界情報をFCN内に取り
入れ,主に境界付近の精度を向上することでセマンティックセ
グメンテーションの結果を改善.	
下の図はFCNやBNFによるセマンティックセグメンテーションの概略図である.FCN
の出力結果や中間層の特徴マップから抜き出した特徴を用いて境界推定を行う
(BNF).FCNやBNFにより得られた画像を大域的に最適化して得られたマップが,
最終的なセマンティックセグメンテーションの結果.	
データセットとしてはセマンティッ
クセグメンテーションのタスクでよ
く用いられるSBDデータセットを
用いた.表は複数の推定手法を
用いた比較であるが,提案の
BNFを用いるのがもっとも高精度
に推定できたと主張.	
Links	
論文 http://arxiv.org/pdf/1511.02674v1.pdf	
プロジェクト 	
ここでは,FCNの出力をUnary
Potential,境界情報との組み合わ
せをPairwise Potentialとして最適
化.
Xiaodan Liang, Chunyan Xu, Xiaohui Shen, Jianchao Yang, Si Liu, Jinhui Tang, Liang Lin, Shuicheng Yan
“Learning Visual Clothing Style with Heterogeneous Dyadic Co-occurrences”, in ICCV, 2015.	
【25】	
新規性・差分	
結果	
概要	 human parsingのためのコンテキスト(画像全体のlabel)を用いたCNNアーキテクチャであるCo-CNNを提案	
PDF :
http://www.cv-foundation.org/openaccess/
content_iccv_2015/papers/
Liang_Human_Parsing_With_ICCV_2015_paper.pdf	
	
Keywords : Human Parsing, Fully Convolutional Network, Context Modeling, Semantic Labeling	
手法	
Links	
 2種類の公開データセット()において,2種類の既存手
法との比較実験を行った.実験結果より,従来手法での
F値は62.81% ,64.38%であったのに対しCo-CNNでは
76.95%に達した	
1. 入力画像より4種類の解像度で特徴マップを生成し,特徴マップをアップサンプリングす  
る.同一の解像度における特徴マップは,交差レイヤでのコンテキストを取得するために 細
かい層と粗い層で組み合わせる(青の破線と青丸の+).	
2. 画像全体のラベルを予測するために,補助としてダウンサンプリングされた特徴ベクト  
ルの後ろに二乗損失を付け足す(緑の実線)	
3. 画像ラベルの予測確率はアップサンプリングしたあと次の層に組み合わされ,画素単位 
のラベルを予測するための重みとして使用される(緑丸の+)	
※ 下図ではアップサンプリング,ダウンサンプリング,softmax層のみ.中間層は省略.	
	
	
	
複数のコンテキスト(画像全体からsuper-pixel)を階層的に統合アーキテクチャによって,画素ごとのラベル付けの精度が向上
Hyun Soo Park, Jyh-Jing Hwang, Yedong Niu, Jianbo Shi, “Egocentric Future Localization”, in CVPR, 2016.	
【26】	
Keywords: Egocentric Vision, Prediction	
手法	
結果	
概要	
一人称ビジョンからの歩行経路推定を行う.頭部に装着したステ
レオカメラから距離画像(正確にはEgoRetinal map)を復元,周辺
環境を認識して障害物を避けるようにかつ現在のエゴモーション
から数秒後に取るべき経路を予測する.	
一人称ビジョンからのWalking Affordance (歩けるかどうか)を考慮したEgo Retinal
mapを生成する.同マップは頭部に装着したステレオカメラより前方を撮影し,距離
画像を計算したものである.ここから,(1) 地平面を推定し,(2) 頭部の動作から歩
いている方向を推定,(3) 建物や歩行者など障害物情報から避けるべき位置を推
定して「歩くであろう」軌道を推定する.	
下図(a)はEgoRetinal mapからの地平面推定を行い,距離推定をしている様子であ
る.(b)は軌道の仮説をプロットし,マップから最適な経路を予測した結果である.	
表は定量的な評価であり,予測結果とGroundTruthとの誤差をmeterを示した結果
である.EgoRetinal mapを用い,CNN特徴量を取得した提案手法が最も誤差が低
かったといえる.定性的評価についても論文中の図やビデオにて表示されている.	
Links	
論文
http://www.seas.upenn.edu/~hypar/
FutureLocalization_CVPR2016.pdf	
プロジェクト http://www.seas.upenn.edu/~hypar/future_loc.html	
ビデオ https://www.youtube.com/watch?v=0YY3aBX0GTQ
Vignesh Ramanathan, Jonathan Huang, Sami Abu-El-Haija, Alexander Gorban, Kevin Murphy, Li Fei-Fei,
“Detecting events and key actors in multi-person videos”, in CVPR, 2016.	
【27】	
Keywords:Detecting Events, Events Classification, multi person videos	
新規性・差分	
手法	
結果	
概要	
複数の人物が写っている動画内でのイベント検出・分類および
重要な人物の決定する手法の提案	
	
データセットの構築	
・アノテーションの学習なし
でキーパーソンの識別が
可能	
本稿の手法は,(1)特徴抽出,(2)イベント分類,(3)注目モデルの決定の3つの項で成
り立つ.	
(1)RCNN物体検出と同様の方法で,外観から特徴を抽出し,静的なCNN表記のみを
使用する.	
(2)双方向のLSTMでの全体の背景特徴を計算(左図青枠)し,時刻tでの状態を表現
するために単方向のLSTMを計算する(左図黒枠).	
(3)注目モデルを決定するうえでの必要条件を満たすBLSTMの表現を学習するモデ
ルを構築する.	
バスケットの3ポイントシュート(成功,失敗),フリースロー(成功,失敗),レ
イアップ(成功,失敗),2ポイントシュート(成功,失敗),ダンクシュート(成
功,失敗)のクラス分類,検出を行った結果を右図上および下に示す.他
の手法に比べ,本提案手法が有効であることがわかる.	
Links	
論文 	
http://arxiv.org/pdf/1511.02917v2.pdf
Bowen Zhang, Limin Wang, Zhe Wang, Yu Qiao, Hanli Wang, “Real-time Action Recognition with Enhanced
Motion Vector CNNs”, in CVPR, 2016.	
【28】	
Keywords: The deep two-stream architecture, Real-time , Action Recognition	
新規性・差分	
手法	
結果	
概要	
The deep two-stream architecture[1]のオプティカルフローの
処理を高速にする手法	
The deep two-stream architectureのリアルタイム性を向上.	
オリジナルのThe deep two-stream architectureより約27倍早い	
提案手法の構成を上図に示す.	
また本稿での手法の概要を以下に示す.	
(1)Motion Voctor CNNの初期化を行う	
(2)Opitical Flow CNNのFC層で得られた表現をMV CNNに学習させる.	
(3)(1)と(2)を組み合わせ,MV CNNの汎用性を向上させる.	
UCF101,THUMOS 14 datasetでの精度比較実験結果を右上図,左上
図に示す.	
またUCF101,THUMOS 14 datasetでの処理時間の比較実験結果を
右下図,左下図に示す.	
以上より,提案手法はThe deep two-stream architectureの認識性能
の大幅な向上および,大幅な高速化をすることができる.	
Links	
[1]
https://papers.nips.cc/paper/5353-two-stream-convolutional-
networks-for-action-recognition-in-videos.pdf	
	
論文 	
http://wanglimin.github.io/papers/ZhangWWQW_CVPR16.pdf
Bharat Singh, Tim K. Marks, Michael Jones, Oncel Tuzel, Ming Shao, “A Multi-Stream Bi-Directional
Recurrent Neural Network for Fine-Grained Action Detection”, in CVPR, 2016.	
【29】	
Keywords: Recurrent Newral Network, Fine-Grained Action Detection, 	
新規性・差分	
手法	
結果	
概要	
微小動作を検出するための双方向RNNの提案	
・長時間の動画内で,微小動作の検出	
・フルフレームと人物中心の動画から外観情報と	
 動作特徴を抽出し,学習するMulti-Stream 	
 Network	
フレームワークの概要を右図上に示す.右図下はフレームワーク
内のMSN部の概要を示す.また以下に手法の概要を示す.	
(1)VGG architecture[1]に基づき,CNNの学習を行う.動画は6フ
レーム毎に1チャンクとし,MSNに入力する.	
(2)右図下に示すように,フルフレームおよび人物中心の動画から
RGBの変化とピクセル軌道変化での特徴を取得し,学習する.4つ
の情報の出力を結合し,学習する.	
(3)学習データを双方向LSTMに出力し,LSTMによって行動を予測
する.	
	
MPII Cooking 2 datasetでの比較実験結果を右図に示す.(mAP = mean average
precision)	
またMPII Cooking 2 and Shopping datasetにおける,Two-Stream ネットワークと
Multi-Stream ネットワーク(提案手法)の比較実験結果を以下に示す.	
いずれにおいても提案手法であるMulti-Stream Bi-Directional Recurrent Neural
Network(MSB-RNN)が優れている.	
Links	
論文
http://www.cs.umd.edu/~bharat/
cvpr2016.pdf	
[1]http://arxiv.org/pdf/1409.1556v6.pdf
Mostafa S. Ibrahim, Srikanth Muralidharan, Zhiwei Deng, Arash Vahdat, Greg Mori, “A Hierarchical Deep
Temporal Model for Group Activity Recognition”, in CVPRl, 2016.	
【30】	
Keywords: Group Activity Recognition, Recurrent Newral Network, 	
新規性・差分	
手法	
結果	
概要	
集団行動認識において,LSTMモデルに基づいた個人の行動
のダイナミクスを取得するdeep modelの設計,2段階のdeep
temporal modelの提案	
	
2段階のLSTMを設けることで,フレーム全体での各個人の行動
を認識	
上図にフレームワークを示す,	
(1)第1層で各個人の行動を認識	
(2)(1)で認識した全ての人の特徴をプーリング	
(3)(2)のプーリング層での出力を第2層に入力し,フレーム全体での行動を認識	
Collective Activity Datasetを用いた,提案手法と基本的な
手法での比較実験結果を右図上段,先行研究と提案手法
の比較実験結果を下図に示す.	
また,volleyball datasetを用いた,提案手法と基本的な手法
での比較実験結果を右図下段に示す.	
	
Links	
論文
http://arxiv.org/pdf/
1511.06040v2.pdf
Yongxi Lu, Tara Javidi, Svetlana Laebnik, “Adaptive Object Detection Using Adjacency and Zoom Prediction”,
in CVPR, 2016.	
【31】	
Keywords: Adaptive Object Detection	
新規性・差分	
手法	
結果	
概要	
隣接/ズームなどサブ領域を利用して効率よく(候補領域を指定
して)物体を検出する方法を提案.スパースかつ微小でも物体
のインスタンスを探索可能とした.	
Faster R-CNNでは2400ものボックスを探索することで画像を全
探索していたが,提案のAdjacency and Zoom Network (AZ-
Net)では領域を区切って適応的な探索を試みた.	
Faster R-CNNをベースとしているが,異なる点は候補領域の抽出を適応的にした
点である.左下図のように与えられた領域を5つに分割して隣接領域の移動や
ズームを適応的に行う.その後は右下図のようなネットワーク構造で識別を実施す
る.	
下図はPASCAL VOC 2007における物体検出の結果である.AZ-Netは70.4%と
Faster/Fast R-CNNよりも高い精度での検出に成功した.また,候補領域の抽出
に関しても,Faster R-CNNのRegion Proposal Network (RPN)と比較した結果,AZ-
NetのTop-300のRecall Rateの方が良好な性能を示した.	
Links	
論文 http://arxiv.org/abs/1512.07711	
コード https://github.com/luyongxi/az-net
Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C.
Berg, “SSD: Single Shot MultiBox Detector”, in arxiv pre-print 1512.02325, 2015.	
【32】	
Keywords: Object Detection	
新規性・差分	
手法	
結果	
概要	
Single Shot Multibox Detector (SSD)と名付けられた手法は複
数のアスペクト比やスケールからのスコアやオフセットを評価す
ることにより物体検出を実行することができる.なお,SSDは非
常に高速な手法で,かつ精度面でもComparableな手法である.	
・YOLOやFaster R-CNNよりも高速かつ正確に物体検出を実行
する	
・学習に必要なのは画像とその物体位置のみで,カテゴリスコ
アやbboxのオフセット,検出結果を出力	
・シンプルなend-to-endモデルで学習が簡単,比較的低解像な
画像においても検出を実現	
・学習に必要なのは画像とGroundTruthのbboxである(下図(a)).畳み込みの際に
は複数のスケールやアスペクト比のパッチを周辺から抽出し(下図(b)),さらには特
徴マップも複数の階層にて評価を行う(下図(b), (c)).各bboxでは物体へのオフセッ
トや物体のスコアを評価する.損失関数にはWeighted Sum Between Location
LossやSoftmaxが用いられた.ネットワークにはVGGを適用したが,全結合パラ
メータ数を削減したものが適用された.HardNegative Miningやデータ拡張などのテ
クニックも使用されている.	
PASCAL VOC, MS COCO, ILSVRCにお
ける物体検出タスクにてComparableな精
度を記録した.300x300 [pixels]の入力に
対してSSDは58fps (NVIDIA Titan X使用
時@PASCAL VOC 2007),72.1%,500x500
[pixles]の際には75.1%を記録.これは,
Faster R-CNNの精度よりも高い.	
Links	
論文 http://arxiv.org/abs/1512.02325	
GitHubコード https://github.com/weiliu89/caffe/tree/ssd	
著者 http://www.dumitru.ca/
Gedas Bertasius, Jianbo Shi, Lorenzo Torresani, “AHigh-for-Low and Low-for-High: Efficient Boundary
Detection from Deep Object Features and its Applications to High-Level Vision”, in ICCV, 2015.	
【33】	
Keywords: Boundary detection, CNN	
新規性・差分	
手法	
結果	
概要	
・CV界では境界の検出はlow-levelな問題とされるが,人間の
知覚はそれらを最重要視しており,その知見は活かすべきもの
と言え,色や勾配のみを頼りにしているのでは不足である.	
物体認識のために訓練されたVGGnetを上手く利用すること
で,より正確な境界を効果的に検出するたけでなく,その境界
に対して意味的な解釈を加えることができる.	
・VGGnetなどのCNNは一般物体を分類するタスクに利用され
るが,エッジ検出においても優れた性能を発揮することができ
ることを示した.またそのようなCNNを利用して検出したエッジ
により,人間のような画像の意味的理解がある程度可能である
と示した.	
・まず計算コスト削減のため,エッジ候補点をSE edge detectorで検出する.それ
を16層のVGGnetに入力し,エッジ検出のための空間情報を保存するため全結合
層は利用しない.各特徴マップで次元が異なるため候補点がぴったり定まらない
ため,活性化値を4近傍の平均でとっておくと,ひとつのエッジ候補点について
5504次元のベクトルが得られる.	
それらを2層の全結合層に入れて,	
境界線の予測を得る.	
	
Links	
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Bertasius_High-for-Low_and_Low-for-
High_ICCV_2015_paper.pdf	
	
・従来手法より良好なエッジを
検出(左下).	
提案手法で得られたエッジと
最新手法を組み合わせること
で,意味的解釈に踏み込んだ
high_levelなCVタスクでも優れ
た結果が得られることを示し
た.(右下)
Konstantinos Rapantzikos, Yannis Avrithis, Stefanos Kollias, “Dense saliency-based spatiotemporal feature
points for action recognition”, in CVPR, 2009.	
【34】	
Keywords: Action Recognition	
新規性・差分	
手法	
結果	
概要	
動画内の顕著性が見られる領域にて特徴点検出や特徴記述
を行い,行動認識のためのベクトルを構成する.空間的かつ時
系列的な情報を用いて,顕著性を参照しながら行動を認識す
る.	
直感的には,時系列の顕著性マップから時系列特徴点や特徴
量を取得,コードワード化していると解釈できる.	
・時系列情報を観察しながら顕著性マップを生成,さらにはマッ
プを参照しながら行動認識のための特徴とする	
複数スケールの画像から特徴を抽出する.顕著性マップのための制約として,(a)
特徴内(図中緑の矢印) (b) スケール間,ボクセル間の情報 (図中青矢印) (c) 特徴
間の類似度 (図中赤矢印)を参照して最適化.	
得られた顕著性は図中の右の通りである.	
 KTHデータセットにて88.30%を達成し
た.CuoidsやST-Harris Detectorなどと
比較しても高い精度を達成した.顕著
性ベースの特徴点抽出が有効であるこ
とを示した.	
Links	
論文
https://www.google.co.jp/url?
sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=0ahUKEwjgn7CMp
NPMAhVGn5QKHQv2B18QFggqMAE&url=http%3A%2F
%2Fwww.image.ece.ntua.gr%2Fphp%2Fsavepaper.php%3Fid
%3D581&usg=AFQjCNHk7x-
OQxtNe2a5KxhAqJpZ_lbtVg&sig2=PwRTwK4a_9NrL4JjNvn6uw	
プロジェクト
Jiang Wang, Yi Yang, Junhua Mao, Zhiheng Huang, Chang Huang, Wei Xu, “CNN-RNN: A Unified Framework for
Multi-label Image Classification”, in CVPR, 2016.	
【35】	
Keywords: Multi-label Image Classification, convolutional neural network, recurrent neural network	
新規性・差分	
手法	
結果	
概要	
画像中の物体のラベルとその関連性を学習するCNN-RNNフ
レームワークの提案	
CNNとRNNを統一したフレームワーク	
RNN-CNNフレームワークの概要を右図
に示す.	
RNN-CNNフレームワークでは,ラベル
の関係性と依存性の特徴付けをおこなう
ためにJoint Embedding Spaceという空
間の学習を行う.	
赤点はラベル,青点は入力画像,黒点
は入力画像とrecurrent newronの出力
の合計を示す.	
順次,recurrent newronのラベルをJoint
Embedding Spaceに入力し,リンクさせる
ことでラベルの依存関係をモデル化す
る.	
実験結果を以下(1)〜(4)に示す.	
(1)はNUS-WIDE Dataseon 81 conceptsでk=3のときの比較結果	
(2) NUS-WIDE Dataset on 1000 tagsでk=10のときの比較結果	
(3)MS-COCO Datasetでk=3のときの比較結果	
(4)PASCAL VOC 2007 datasetでの分類結果の比較 を示す.	
Links	
論文 	
http://arxiv.org/pdf/1604.04573v1	
(1)	 (2)	 (3)	
(4)
Hyun Soo Park, Jyh-Jing Hwang, Yedong Niu, Jianbo Shi, “Force from Motion: Decoding Physical Sensation
from a First Person Video”, in CVPR, 2016. (oral)	
【36】	
Keywords: Force Recognition, First Person Vision	
新規性・差分	
手法	
結果	
概要	
一人称ビジョンからの各種情報の表示を行う.論文中では自転
車やスキーからの「重力のかかり具合の推定」「スピードや空
間などの物理量」「ペダルやブレーキの行動検出」を行うものと
する.詳細はビデオ参照.	
従来では困難であった(身体にかかる)重力向きの方向や物理
的なスピードなどを推定することに成功した(下図).	
重力方向 (3D Gravity Direction)はStructure from Motionより抽出する.	
下図が本稿で用いたモデルである.物理量は下図のモデルを参考に推定される.	
GoProからの映像により評価を行った.自転車やスキーのシーンにて実験を行っ
た.重力の推定にはCNNやカメラ方向の推定を行い、Y軸向き・Y軸MLEなどにより
評価した.その平均の誤差は2.7度であった.	
Links	
論文
http://www.seas.upenn.edu/~hypar/ForceFromMotion_CVPR16.pdf	
プロジェクト http://www.seas.upenn.edu/~hypar/ffm.html	
ビデオ https://www.youtube.com/watch?v=4YURe6PCF6E
Xiaofan Zhang, Feng Zhou, Yuanqing Lin, Shaoting Zhang, “Embedding Label Structures for Fine-Grained
Feature Representation”, in CVPR, 2016.	
【37】	
Keywords: Fine-Grained Feature Representation, Convolutional Newral Network 	
新規性・差分	
手法	
結果	
概要	
微小な特徴表現法を学習するフレームワークの提案	
損失項から微小な特徴表現法と分類器を取得	
フレームワークを上図に示す.	
本フレームワークでは,リファレンスイメージ,ネガティブイメージ,ポジティブイメー
ジの3項を抽出し,Parameters Sharing CNN層に入力する.	
CNN内での以上の3項の損失項とソフトマックスでの損失項を最適化することによ
り,微小な特徴表現法と分類器を得る.	
(1)Stanford car datasetでの比較実験結果	
(2)much larger car datasetでの比較実験結果	
(3)food datasetでの比較実験結果 を示す.	
	
Links	
論文 	
http://arxiv.org/pdf/
1512.02895v2.pdf	
(1)	 (2)	 (3)
Relja Arandjelovic, Petr Gronat, Akihiko Torii, Tomas Pajdla, Josef Sivic, “NetVLAD: CNN architecture for
weakly supervised place recognition”, in CVPR, 2016.	
【38】	
Keywords: NetVLAD, CNN, Codeword	
新規性・差分	
手法	
結果	
概要	
深層学習CNNとコードワード表現であるVLADを用いた位置推
定.昼/夜,拡大/縮小のような劇的な変化があったとしても
シーン認識ベースの位置特定を行うことができる.	
・End-to-endのCNNモデルに追加して,VLAD (Vector of
Locally Aggregated Descriptors) layerを付け加えることに成功
した	
・弱教師あり学習に基づくRanking Lossの最適化を行った.特
に,Google Street Viewにあるような画像を学習サンプルとして
最適化を行った	
・Off-the-shelf CNNなどといった従来型のモデルよりも高い精
度で位置推定を行うことができた	
CNNの畳み込みやプーリング特徴量をそのままVLADによるコードワード表現がで
きるようにした.CNNのあとにNetVLAD layerを追加することにより,これらの枠組
みは誤差逆伝播法により最適化される.	
下図が4つのデータセット(Pitts250k-test, TokyoTM-val, Tokyo24/7 all queries,
Tokyo 24/7 sunset/night)に対するグラフである.例えばPitts250kデータセットでは
Off-the-shelf CNNで55.0%だった精度が提案手法では81.0%@top-1という精度を達
成した.	
Links	
論文 http://arxiv.org/pdf/1511.07247v3.pdf	
プロジェクト http://www.di.ens.fr/willow/research/netvlad/	
コード https://github.com/Relja/netvlad
Khurram Soomro, Amir Roshan Zamir, Mubarak Shah, “UCF101: A Dataset of 101 Human Actions Classes
From Videos in the Wild”, in arXiv pre-print 1212.0402, 2012. & “THUMOS: The First International Workshop
on Action Recognition with a Large Number of Classes”, in ICCVW, 2013	
【39】	
Keywords: Action Recognition, UCF101	
新規性・差分	
データセット	
結果	
概要	
大規模な行動認識データセットであるUCF101の提案論文&そ
のコンペティションであるTHUMOSf2013.101クラスの行動が約
13,000の動画に収められている.	
行動の数や,そのバリエーションをそれまでのデータセッ
トから大幅に拡張したことで知られている.同時に,大規
模行動認識や行動検出のコンペティションである
THUMOSを開催することで大規模データにおける行動認
識の技術向上に貢献している.2013~2015はTHUMOSと
いう名前で開催されたが,2016年からはActivityNet
Challengeとなりさらにデータの大規模化が進んでいる.	
データセットは101の行動クラス,13,320のビデオクリップ,総計27時間ものビデオ
から構成される.すべてのビデオはYouTubeからクリッピングされている.行動クラ
スは下図に示すようなものであり,そのすべては論文中に記述されている(UCF50
の拡張版であり,ほとんどがスポーツ映像により構成される).画像サイズは
320x240[pixels],フレームレートは25fps,ビデオの長さは1.06 ~ 71.04 [seconds]
(平均 7.21 seconds)である.1グループごとに4~7動画が含まれており,計25グルー
プが存在する.トレーニング/テストサンプルは予め指定されており,ビデオごとに
信頼度を計算して推定結果を出力する.	
THUMOS’13ではWangらのImproved Dense Trajectories (IDT)が85.9%で勝者とな
り,以降この数字がベースラインとなった.2016年現在の最先端手法ではUCF101
データセットにて92~93%くらいまで伸びている.東大原田研大西氏のTDD+CPD
(https://arxiv.org/pdf/1604.08826v1.pdf)では92.3%を記録した.	
Links	
論文 https://arxiv.org/pdf/1212.0402v1.pdf	
プロジェクト http://crcv.ucf.edu/data/UCF101.php	
コンペティション http://crcv.ucf.edu/ICCV13-Action-Workshop/	
評価
http://crcv.ucf.edu/ICCV13-Action-Workshop/index.files/
Competition_Track_Evaluation.pdf	
ActivityNet Challenge http://activity-net.org/challenges/2016/
Katsunori Ohnishi, Masatoshi Hidaka, Tatsuya Harada, “Improved Dense Trajectory with Cross Streams”, in
arXiv pre-print 1604.08826, 2016.	
【40】	
Keywords: Cross Stream Pooled Descriptors (CPD), IDT, TDD	 手法	
結果	
概要	
行動認識のタスクに対してImproved Dense Trajectories (IDT)
は非常に効果的なアプローチであるが,背景の除去は困難で
あった.一方で,CNNを用いた時系列・空間表現であるTwo-
stream Approachは強力な特徴表現ができる一方で注目すべ
き領域を適切に評価できているわけではないという問題が生じ
ている.この問題を解決すべく,本論文では注目すべき行動領
域の重みを高くする,またIDTやCNNを行動領域にて適切に表
現できるような仕組みを提案する.下図は(時系列)畳み込み
マップの情報やIDTを画像に投影した際の可視化例である.
IDTでは背景の除去が難しく,CNNでは重要部分のみの評価は
困難であることから,提案手法ではRGB/Optical Flowを交差し
て重みの共有やプーリングの実行をするCross-Stream Pooled
Descriptors (CPD)を提案する.	
TDDやCPD統合の仕組み (TDD+CPD)を下図に示す.	
基本的なアイディアは空間的/時系列的に重要な領域の強調かつ特徴抽出であ
り,下図のように空間/時間的に重みを共有し,クロスでプーリングを実行すること
でこの仕組みを実現する.	
HMDB51やUCF101に対して評価を行う.
ベースとなるアーキテクチャにはVGG16を適
用,conv3_3, 4_3, 5_3の畳み込みマップを使
用した.各層からの出力はSVMの値により
統合する.コードワードには最終的にVLAD
を採用した.HMDB51では66.2%
(comparable), UCF101では92.3% (state-of-
the-art)と良好な精度を達成.	
論文 https://arxiv.org/pdf/1604.08826v1.pdf	
CrossStream Pre-trained Model
https://drive.google.com/folderview?
id=0B7Loi-7ye3pPcUwzSVhwek9mQkU&usp=sharing 	
Links
Keywords: Weakly supervised, semantic segmentation	
Re-idの既存手法では,トレーニングサンプルの特徴の次元がはるか
に少ないと,サンプルサイズが小さい(SSS)という問題に直面してしま
い,次元圧縮技術や正則行列に頼る必要が有り,これでは識別力の
損失に繋がってしまっていた.	
	
	
	
この研究では,人マッチングの中の特徴的な0空間のトレーニン
グデータにより,Re-ID距離メトリック学習におけるSSSの問題を
解決する手法について提案している.	
Null空間を学習することで,元の高次元の特徴ベクトルを低次元へと投影し
て学習することができる.Re-idは,学習した判別Null空間の二つの投影ベクト
ルのユークリッド距離を計算することで実現できる.	
学習したnull Foley-Sammon transform (NFST) spaceはFoley-Sammon
transform (FST)として知られており,linear discriminant analysis (LDA)にも密
接に関係している.FSTの目的は,示されている各列が,フィッシャー判別基
準を最大化する最適な判別方向となるように,投影行列を学ぶことである.	
	
本研究では,従来の教師有学習のアプローチ+null Foley-Sammon transfer
(NFST)を利用し,パラメータチューニングの必要がない手法を提案している.
さらに,Semi教師学習の設定に,Full教師Null空間モデルを拡張する.Semi教
師有りRe-idの問題として,トレーニングデータが不足する問題を潜在的な影
響力を集めることで克服する.本研究では,辞書学習ベース手法に対して新
たなSemi教師有Null空間モデルを比較している.	
貢献	
(1)Metric LearningベースでのRe-id方法で生じる,SSS問題への解決策を提案した.	
(2)Training Dataの判別ヌル空間を学習することにより,Re-idのSSS問題を克服する.	
(3)SSS問題の影響を軽減するために豊富なラベルが付いていないデータを有効に用い
るnovel semi-supervised learning methodを開発.	
Li Zhang, Tao Xiang, Shaogang Gong, “ Learning a Discriminative Null Space for Person Re-identification”, in
CVPR, 2016.	
【41】	
論文ページ : http://arxiv.org/pdf/1603.02139.pdf	 次ページに示す.	
概要	
新規性・差分	
Links	
手法	
結果
結果	
Full Supervisedの実験結果	
Semi Supervisedの実験結果	
Running Costの実験結果
フレームワークの概要を上図に示す.	
本フレームワークは, Spatio Temporal Interest Pointsを使用して,トリミング動画
から行動の特徴抽出を行い,学習する.	
動画中から行動の候補のセットを生成し,その候補のランク付けを行うことで行動
提案を行う.	
Fabian Caba Heilbron, Juan Carlos Niebles, Bernard Ghanem, “Fast Temporal Activity Proposals for Efficient
Detection of Human Actions in Untrimmed Videos”, in CVPR, 2016.	
【42】	
Keywords: activity proposal, Human Action, 	
新規性・差分	
手法	
結果	
概要	
行動の特徴表現方法を学習し,動画中の人物の高速で行動提
案を行うフレームワークの提案	
動画内で同一の行動が行われた時間を検索でき	
,高速で精度の高い行動提案を行う	
(1)はThumos14 datasetでの処理時間の比較実験結果	
(2)はThumos14における最新の研究との比較結果	
(3)はMSR-IIとThumos14でのMAP検出結果の比較	
Links	
論文 	
https://ivul.kaust.edu.sa/Documents/Publications/2016/Fast
%20Temporal%20Activity%20Proposals%20for%20Efficient
%20Detection%20of%20Human%20Actions%20in%20Untrimmed
%20Videos.pdf	
(1)	
(2)	
(3)
Yang Wang, Minh Hoai, “Improving Human Action Recognition by Non-action Classification”, in CVPR, 2016.	
【43】	
Keywords: Action Recognition, Non-action Classification	
新規性・差分	
手法	
結果	
概要	
行動認識精度を向上させる Non-action 分類器の提案	
動画中の人物が行動を行っていないときの描写をNon-action
分類器によって非行動として分類することで,認識精度を向上	
本稿は,人物非行動時の描写を除去することによる認識精度の評価とNon-action
分類器の構築・評価について書かれている.以下Non-action 分類器の構築につ
いて記述する.	
(1)Fisher Vectorを用いたDense TrajectoriesとTwo-stream ConvNet の deep-
learned featuresを組み合わせたものを使用し,特徴計算を行う.上図に取得した
特徴量の概要を示す.	
(2)ActionThread datasetを用いて,最小二乗SVMの学習を行い,Non-action 分類
器とする.	
(1)Non-action 分類器の使用なし,一部,全てでの比較結果	
(2)VideoDarwinとNon-action 分類器を用いたVideoDarwinでの比
較結果	
(3)Hollywood2上でNon-action 分類器有無による比較結果	
(4)6 unseen actionsでNon-action 分類器有無による比較結果	
Links	
論文 	
http://arxiv.org/
pdf/
1604.06397v2.pdf	
(1) 	 (2) 	 (3) 	
(4)
Limin Wang, Yu Qiao, Xiaoou Tang, Luc Van Gool, “Actionness Estimation Using Hybrid Fully Convolutional
Networks”, in CVPR, 2016.	
【44】	
Keywords: Actionness Estimation, Fully Convolutional Network, two-stream convolutional netwoek	
新規性・差分	
手法	概要	
hybrid fully convolutional network (HFCN)というactionnessの推
定に向けた深層アーキテクチャの提案	
	
アピアランスとモーションに基づいた fully convolutional
networkの組み合わせによるactionness推定	
アプローチのパイプラインを下図に示す.	
(1)appearance fully convolutinal network (A-FCN)とmotion fully convolutional
network(M-FCN)の組み合わせであるHFCNでactionness を推定	
(2)RCNNの行動検出システムのように,推定したactionessを用いてaction proposalを
生成する.	
(3)action proposalをtwo-stream convolutional networksを用いて,分類する.	
Links	
論文 https://wanglimin.github.io/papers/WangQTV_CVPR16.pdf
結果	
(1)Stanford40 と UCF Sports,JHMDBを用いた,提案手法
と先行研究の比較	
	
(2)Stanford 40 (上段) and JHMDB (下段)を用いたaction
proposalの評価実験の比較’(赤の実線が提案手法)	
比較対象は,L-CORF, Spatio-temporal object detection
proposal, objectness, discriminatively trained part-based
models, random samplingである	
	
(3)JHMDBを用いた,行動検出結果 	
(1)	
(2)	
(3)
Jonathan Long, Evan Shelhamer, Trevor Darrell, “Fully Convolutional Networks for Semantic Segmentation”, in
CVPR, 2015.	
【45】	
Keywords: FCN, Semantic Segmentation	
新規性・差分	
手法	
結果	
概要	
セマンティックセグメンテーションを高度に行うフレームワーク
Fully Convolutional Networks (FCN)の提案論文.Caffeで実行
するためのコードもModel Zooにより配布されており,簡易的に
実行可能である.	
・物体認識では[入力層] > [畳み込み層] > [全結合層] > [出力
層]で物体ラベルを,物体検出では物体認識に加えて候補領域
を入力することにより物体の位置まで含めてラベルを出力する
ことができる.ここでは,セマンティックセグメンテーションのた
めに,全結合層にアップサンプリング層を加えて画像としてセ
グメンテーション結果を出力できるようにした.	
下記にFCNの構造を示す.畳み込み層,全結合層を通り抜けたあと,Upsampling
層 (可視化でよく用いられるDeconvolutionを用いていると説明)を挿入して,物体の
概念(物体ラベル)からさらに画像の復元を行った.アーキテクチャにはAlexNet
(39.8%), VGGNet (56.0%), GoogLeNet (42.5%)を試したが,精度の面からVGGNetを
採用した.右図はUpsamplingの際に複数の層のパラメータを統合する手法(Skip
Layers)であり,このSkip Layerがセグメンテーションに有効であると位置付けた.	
表はPASCAL VOC 2011にFCNを適用した際
の結果である.Skip Layersありの場合
(FCN-16s, -8s)がもっとも高い性能を示した.
特に,全結合層とPool3, Pool4の特徴を用い
てセマンティックセグメンテーションを実行する
FCN-8sは精度が非常に良かった.自転車の
画像はスキップなし(stride32),1 skip
(stride16),2 skip (stride8)の際の結果例であ
る.	
Links	
論文 http://www.cs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf	
スライド
https://computing.ece.vt.edu/~f15ece6504/slides/L13_FCN.pdf	
著者 http://www.cs.berkeley.edu/~jonlong/	
コード https://github.com/BVLC/caffe/wiki/Model-Zoo#fcn
M. S. Ryoo, Brandon Rothrock, Larry Matthies, “Pooled Motion Features for First-Person Videos”, in CVPR,
2015.	
【46】	
Keywords: First Person Vision, Pooled Time Series (PoT)	
手法	
結果	
概要	
一人称ビジョンのための新しい特徴表現であるPooled Time
Series (PoT)の提案.Improved Dense Trajectories (IDT)と統合
することでさらなる精度の向上に寄与した.	
特徴取得のベースとなるのは毎フレームのCNNの全結合層から取り出したベクト
ルである.Tフレーム(ここではT=1,000)に及ぶ特徴ベクトルを並べる.Per-frameの
CNN特徴(全結合層である第7層を使用),各要素N (=4,096)のTフレームにおける
平均値と最大値,さらには時系列的に隣接する各要素の時系列差分の蓄積を特
徴量とする.直感的には0次 (per-frame),1次(平均&最大値),2次 (時系列差分蓄
積)の特徴統合である.	
DogCentricやUEC Park dataset
に対して実験した結果,いずれ
もState-of-the-artな結果を示し
た.さらにIDTやSTIP,Cuboid特
徴などとも統合することでより高
い精度を記録した.	
Links	
論文 http://arxiv.org/pdf/1412.6505v2.pdf	
コード https://github.com/mryoo/pooled_time_series/	
著者 http://michaelryoo.com/
M. S. Ryoo, Brandon Rothrock, Charles Fleming, “Privacy-Preserving Egocnetric Activity Recognition from
Extreme Low Resolution”, in arXiv pre-print 1604.03196, 2016.	
【47】	
Keywords: Privacy, Egocentric Action Recognition	
新規性・差分	
手法	
結果	
概要	
一人称ビジョンを行う際,プライバシーを保護する目的で極限
まで解像度を下げて(16x12 [pixels])人物行動認識を実行した.
さらに,映像の解像度を復元するための方法としてInverse
Super Resolution (ISR)を提案する.本論文では異なる画像か
ら情報を復元することで行動認識の精度を改善する.	
Inverse Super Resolution (ISR)フレー
ムワークの提案があげられる.映像の
識別を実行するために用いられ,実験
的ではあるものの精度が高くなる.	
下図が提案手法の概略図である.(左)通常の低解像画像(リサイズなど)では特徴
空間に単一のベクトルを射影するのみであるが,ISRの枠組みでは(意味のある)射
影行列をいくつも保持することにより,低解像であるにもかかわらず特徴表現を
リッチにすることができる.低解像画像列 Yは入力画像 X,モーション変換 F,ブ
ラーエフェクト H,ダウンサンプリング係数 D,ノイズ Vから構成される(Y = DHFX
+V).とくに,VとHを除いた簡略化モデル Y = DFXを用いて,変換行列をMCMCに
より最適化する.	
 データはDogCentric datasetやHMDB datasetをダウン
サンプリングして適用した.特徴としてはIDT (Histograms
of Pixel Intensities, HOG, HOF), CNNを用いている.識
別にはSVMを用いた.右の表はDogCentric datasetに対
して識別を行った結果である.ベースラインのPoTに対し
てISRを行ったところ結果が向上している(61.4% =>
65.8%).さらに,行動認識の手法として見た際に,HMDB
にて28.71%という精度を記録した.	
Links	
論文 http://arxiv.org/pdf/1604.03196v1.pdf	
プロジェクト
Oscar Koller, Hermann Ney, Richard Bowden, “Deep Hand: How to Train a CNN on 1 Million Hand Images When
Your Data Is Continuous and Weakly Labelled”, in CVPR, 2016.	
【48】	
Keywords: Hand Images, CNN , EM algorithm	
新規性・差分	
手法	
概要	
・EMアルゴリズムにCNNを埋め込むことで,ラベル付き画像を
使ったフレームベースな識別器の学習の実現へアプローチして
いる. noisyなアノテーションしか与えられていなくても正当と言
えるCNNの学習が可能になる.	
・EMアルゴリズムにCNNを統合すべく定式化がなされている
点. 100万枚を超える手の画像で学習されたCNNに基づくロ
バストな手形状の識別手法を提案した点.45クラス3361枚の,
手作業でラベリングした手話データセットを作成した点.	
Links	
論文
https://www-i6.informatik.rwth-aachen.de/publications/
download/1000/Koller-CVPR-2016.pdf	
	
・提案した識別手法で,62.8%の精度.	
2つの標準的なベンチマークにおける	
評価では,state-of-the-artな手法と比	
べて10%以上の向上が確認された.	
	
結果	
・まず入力画像を手周辺にカットし,続いて繰り返しの学習のための初期クラス分けと
して,ごみのクラスも含めてクラス分けをする(Flat Start). CNNによる学習の繰り返
しごとにそのクラス境界がより良い位置へと洗練されてゆくことで,手形状のクラス分
けを行う.	
EMアルゴリズムのEステップはバックフォワードとなっているが,CNNで得られる事後
確率をベイズの定理に基づいた変換を施し最大化している.
Russell Stewart, Mykhaylo Andriluka, Andrew Ng, “End-to-end Detection in Crowded Scenes”, in CVPR, 2016.	
【49】	
Keywords: People Detection, Crowded Scene	
新規性・差分	
手法	
結果	
概要	
混雑環境下でも各人物の検出を実現するフレームワークを提
案する.ここで,RNNのうちLSTMを適用するが,新しい損失関
数を与えることでEnd-to-Endでの学習を行う.	
・画像(のみ)を入力することで候補領域やbbox regressionなど
の後処理が必要なく複数の物体の位置が返却されることが新
規性である	
・End-to-EndでCNN~RNNの学習が実行できること	
・LSTMにて画像内の文脈を把握して人物位置を推定する	
・下図はOverFeatと提案手法の比較	
CNN~RNNの組み合わせにより特徴抽出や人物位置の推定を実行する.CNNには
GoogLeNetを用いて畳み込みによる特徴を抽出する.VGAサイズの画像を入力す
るとCNNにより固定長の特徴(20x15x1024)を出力する.この特徴をLSTMへの入力
とし,人物位置と対応付けた学習により,混雑環境下においてもロバストに人物を
検出可能とする.なお,下式をベースに最適化(最小化)を行う.Gは正解位置,Cは
システムの推定値である.候補領域はiで示され,f(i)は候補領域と正解との距離
(領域の差分)を示す.yはcross-entropy lossを示し,αの値は0.03に設定された.	
学習にはCaffe (CNN)やNLPCaffe (LSTM)が用いられた.学習率は0.2 (100,000回
ごとにx0.8),Momentumは0.5,繰り返し回数は500,000に設定した.ベースとなる検
出器はOverFeatやR-CNNを用いて比較を行った.	
結果から,Recall rateがOverFeatの71%から提案手法では81%まで向上,Average
Precision (AP)も78% (OverFeatでは67%)まで向上した.	
通常の損失関数を適用時には60%であったが,提案の損失関数を適用することで
78%の精度で,混雑環境下における人物検出を実現した.	
Links	
論文 http://arxiv.org/pdf/1506.04878v3.pdf	
コード https://github.com/Russell91/reinspect	
YouTube https://www.youtube.com/watch?v=QeWl0h3kQ24
Ankush Gupta, Andrea Vedaldi, Andrew Zisserman, “Synthetic Data for Text Localisation in Natural Images”, in
CVPR, 2016.	
【50】	
Keywords: Text Synthetic Data, Text Detection	
新規性・差分	
手法	
結果	
概要	
文字検出(Text Detection, Text Localisation)のための自然な
データを自動生成する論文.画像中の環境を認識してテキスト
情報を埋め込むための手法を提案.Fully- Convolutional
Regression Network (FCRN)を用いることで文字検出やbbox
regressionといったタスクをネットワーク内で実行.	
・文字認識のための画像データ
を自動生成できること	
・文字認識のデータをFRCNにて
学習し,state-of-the-artな手法
を提案	
【Image Synthetic】画像合成の前処理はRGB画像からDepth画像の推定,gPb-
UCMによるセグメンテーション,テキストを埋め込むための平面推定により実行.
文字の埋め込みは平面の軸に沿って行われる.前処理により,自然な文字の埋め
込みが実行可能である.	
【Fast Text Detection Network】提案のFCRNは[Long+, CVPR15]のFCNや
[Redmon+, CVPR16]のYOLOの拡張版という位置付けであり,さらにImplicit Shape
Model (ISM)のような投票を行う.ネットワークアーキテクチャはVGG16を参考にし
ているが,本論文で用いる畳み込み層は全9層,ReLU,Max-poolingを採用.	
トレーニングには提案のSynthText in the Wildを用いた.同データセットには
800,000枚もの画像が含まれており,入力画像サイズは512x512[pixels],学習のパ
ラメータは16 mini-batch, momentum 0.9, weightdecay 5^-4, 学習率は10^-5 ~
10^-4とした.ICDAR2013のデータセットにて84.2%のF値を達成しただけでなく,
GPU上ではあるが15FPSでの検出を実現した.	
Links	
論文
http://www.robots.ox.ac.uk/~vgg/data/scenetext/gupta16.pdf	
プロジェクト http://www.robots.ox.ac.uk/~vgg/data/scenetext/	
データセット
http://www.robots.ox.ac.uk/~vgg/data/scenetext/SynthText.zip
Kai Kang, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, “Object Detection from Video Tubelets with
Convolutional Neural Netwroks”, in CVPR, 2016.	
【51】	
Keywords: Video Tubelets, Video Object Detection	
新規性・差分	
手法	
結果	
概要	
動画像に対する物体検出の論文.候補領域を時系列で推定
(Video Tubelets)し,検出する.ILSVRC2015の”Object
Detection from Video (VID)”にて優勝したCUHKのアイディアで
ある.	
動画像に対する候補領域や候補領域からの選択を実施するこ
とにより物体検出を行った.静止画に対する検出では37%しか
到達できなかったところを,47%まで引き上げた.	
初期値として静止画により検出.	
(1)  時系列の候補領域を算出する.初期値はR-CNNにより検出.R-CNNには
Selective Search (SS)による候補領域やAlexNetによる識別を採用し,
Negativeを除去する.さらに,次のステップではGoogLeNetを用いてR-CNN
を構成しPositiveの信頼度を高める.これにより,高い信頼度の領域をト
ラッキングすることで時系列候補領域を生成.	
(2)  Temporal Convolutional Network (TCN)により候補領域中の時系列の検出
スコア・追跡スコア・アンカーオフセットを評価.出力はTubeletの評価値が
算出される.	
VIDタスクにて47.5%,下の表はYouTube-
Objects (YTO) datasetにおける評価の結果で
あり,76.8%を達成した..	
Links	
論文 https://arxiv.org/pdf/1604.04053v1.pdf	
プロジェクトhttps://github.com/myfavouritekk/vdetlib
Kwang Moo Yi, Yannick Verdie, Pascal Fua, Vincent Lepetit, “Learning to Assign Orientations to Feature
Points”, in CVPR, 2016. (oral)	
【52】	
Keywords: Orientation Feature Points	
新規性・差分	
手法	
結果	
概要	
オリエンテーションを考慮したキーポイント検出を新規に提案す
る.特徴の記述子にはConvolutional Neural Networks (CNN)を
採用し,さらにReLUやMaxout,PReLUといった活性化関数の
一般化に取り組んだ.	
右図はSIFTと比較した際のキー
ポイントにおけるオリエンテー
ション推定である.SIFTでは誤り
がある場合でもCNNであれば少
ない誤差でオリエンテーションを
推定可能である.Multi-View
Stereo (MVS)を実行した結果,
再構成の性能自体も向上した.	
CNNのアーキテクチャにはSiamese Networkを採用する.ネットワークの活性化関
数にはGeneralized Hinging Hyperplanes (GHH)をベースとした手法を提案する.
GHHの改良版はReLU・Maxout・PReLUを一般化した性質を持つ.問題としては
SIFTのように画像パッチを入力とし,対応するキーポイントを算出する.ここで,(1)
式を最小化することでCNNの重みWの値を調整.L(p_i)は損失関数を,p_i = {p^1,
p^2}はパッチのペアを示す.fw(p_i)はパッチのオリエンテーションを,g(p, θ)はパッ
チのあるオリエンテーションにおける画像記述を示す.	
表は各キーポイント検
出器との比較結果であ
る.提案法はEF-VGG
であり,困難な条件が
含まれる各データセット
においても安定して良
好な性能を得た.	
Links	
論文 https://cvarlab.icg.tugraz.at/pubs/yi_cvpr16.pdf	
Lab https://cvarlab.icg.tugraz.at/publications.php
Shuo Yang, Ping Luo , Chen Change Loy, Xiaoou Tang, “WIDER FACE: A Face Detection Benchmark”, in
CVPR, 2016.	
【53】	
Keywords: Face detection, data set, Muti-scale CNN	
新規性・差分	
手法	
概要	
・顔検出はCV界で最も取り組まれているタスクのひとつだ
が,従来のベンチマークを利用した検出と現実での検出との
間にはギャップが存在する. そこで従来の10倍の規模となる
顔データセットを公開し,学習やアルゴリズムの評価に利用
価値があることを述べている.	
・枚数だけでなく,オクルージョンやメイクされた顔の画像など,
従来には無かったリッチなアノテーションを用意	
. 顔検出のための良質な学習用データセットとして利用できる
ことを示している	
Links	
論文 http://arxiv.org/pdf/1511.06523v1.pdf	
	
・4つの既存顔検出手法を用いて提案ベン
チマークで評価し結果を記載している.	
また提案セットを含む4つのデータセットを
学習に用いた場合についても調査がなさ
れている.	
結果	
・既存のWIDER datasetから32203枚の画像を選
び,393703の顔をラベル付けしている.	
さらにOcculusionやPoseなど6種類のattribute情
報が付与されており,その度合いもそれぞれ数
段階に分けられている.	
PASCAL VOCに習って,10ピクセル以下のよう
なあまりに難しい顔にはIGNOREラベルを用意し
ている.	
またこのデータセットを用いた,multi-scale
cascade CNNのパイプラインも提案している.
Wanli Ouyang, Xiaogang Wang, Cong Zhang, Xiaokang Yang, “Factors in Finetuning Deep Model for Object
Detection with Long-tail Distribution”, in CVPR, 2016.	
【54】	
Keywords: Fine-tuning Analysis, Object Detection	
新規性・差分	
手法	
結果	
概要	
CNNのFine-tuningの解析に関する論文.以下の2点について
考察した.	
(1)  サンプル数が確保できている場合(e.g. 人物や犬)は良
いが,サンプル数が確保しづらい場合の対処 (Long-
tail property)	
(2)  特定クラスの特徴表現についてFine-tuningの検討	
・Fine-tuningの解析やその特徴に及ぼす影響について検証を
行った.Long-tail propertyによるサンプル数の違いや各層の
重みなどについて評価する	
・物体クラスをグループ分けしたCascaded Hierarchical Feature
Learning (カスケード型階層的特徴学習?)を提案,Fine-tuning
をよくする	
ベースラインとなる手法はDeepID-Net [Ouyang+, CVPR15]を用いる.	
Cascaded Hierarchical Feature Learning:ILSVRCの検出タスクに含まれる200の物
体クラスに対して階層的クラスタリングを実行する.距離の比較にはGoogLeNetの
中間層の特徴を用いる.Level 1には200クラス,Level 2には各50クラス,Level 3に
は各29クラス,Level 4には11クラス (クラス数は平均値)が含まれる.階層的学習
の際には学習サンプルや階層的クラスタリングにより得られたP/Nサンプル,Pre-
trained Deep Modelを入力として,各階層ごとに学習を実施する.この階層的クラ
スタリングを行った後のFine-tuningが効果的であると主張.	
下の表は階層的クラスタリングの各レベルとFine-
tuningした結果,各手法との比較を示す.レベルが
1~4と進むごとに精度が向上することや,オリジナル
のGoogLeNet (38.8%)からFine-tuningした結果,45%
まで向上した.	
Links	
論文
http://www.ee.cuhk.edu.hk/~wlouyang/Papers/
OuyangFactors_CVPR16.pdf	
プロジェクト
www.ee.cuhk.edu.hk/~wlouyang/projects/
ImageNetFactors/CVPR16.html
Zichao Yang , Xiaodong He, Jianfeng Gao, Li Deng , Alex Smola, “Stacked Attention Networks for Image
Question Answering”, in CVPR, 2016.	
【55】	
Keywords: Face detection, data set	
新規性・差分	
手法	
概要	
・コンピュータビジョンと自然言語処理の融合分野である,画
像についての自然言語による質問に答えるタスク(image
question answering,QA)のための,CNNに基づく	
stacked attention networks (SANs)を提案.	
	
・4つのQAデータセットについて,従来のstate-of-the-art
な手法と比べてかなりの差をつけた正解率を達成	
	
. QAを解くためにはマルチステップな絞り込みが必要で
あるとの考えに基づき,ネットワークのアウトプットを可視
化することにより,答えへとどのようなプロセスでアテン
ションが選ばれてゆくのかを示した.	
Links	
論文 http://arxiv.org/pdf/1511.02274v2.pdf	
	
・4つの既存顔検出手法を用いて提案ベンチマー
クで評価し結果を記載している.いずれのセットで
も最先端手法に勝る精度を達成している.例え
ば,COCOデータセットでは61.6%.	
また提案セットを含む4つのデータセットを学習に
用いた場合についても調査がなされている.	
結果	
・大きく次の3要素から成る.	
(1)the image model;入力画像に対しCNNから
高次の特徴ベクトルを抽出する.	
(2)the question model;CNNかLSTMを用いて
入力言語に対し特徴ベクトルを抽出する.	
(3)the stacked attention model;マルチステップ
な理由付けにより,アテンションを選んでゆく.	
	
(3)では画像特徴ベクトルと質問の特徴ベクトル
を1層のニューラルネットワークに通し,ソフトマッ
クス層の出力をもってアテンションの分布とす
る.
Xiaodan Liang, Xiaohui She, Donglai Xiang, Jiashi Feng, “Semantic Object Parsing with Local-Global Long
Short-Term Memory”, in CVPR, 2016.	
【56】	
Keywords: Semantic Object Parsing, Semantic Segmentation	
新規性・差分	
手法	
結果	
概要	
Local-Global Long Short-Term Memory (LG-LSTM)を提案す
ることで,局所的・大域的な空間情報を考慮してセマンティック
な領域の解析 (Semantic Object Parsing)を実行する.	
・8近傍の空間的LSTMやDepth LSTMの実行により特徴学習	
・Global Hidden Cells により大域的な(離れた位置であっても)空
間の評価ができる	
・Stacked LG-LSTM (層を繰り返し通り抜ける)により大域的に
評価できる	
畳み込みにより特徴マップを生成,その後Transition Layerを通り抜けLG-LSTMに
よる繰り返し演算によりセマンティック物体解析を実現.	
表はFashionista datasetによる領域解析結果である.	
Links	
論文
http://users.eecs.northwestern.edu/
~xsh835/assets/
cvpr2016_lstmparsing.pdf	
著者
http://users.eecs.northwestern.edu/
~xsh835/
Joao Carreira, Pulkit Agrawal, Katerina Fragkiadaki, Jitendra Malik, “Human Pose Estimation with Iterative
Error Feedback”, in CVPR, 2016.	
【57】	
Keywords: Human Pose Estimation	
新規性・差分	
手法	
結果	
概要	
繰り返しエラーをフィードバック (Iterative Error Feedback)しな
がら学習することにより,人物姿勢推定の誤差を最小化する.
まずは与えられた初期値から誤差を計算,さらに修正して誤差
を計算,の繰り返しにより最適な値に補正していく.	
一般的なフレームワークとしての入力と出力,さらに正解と比
較してのエラーを最小化する枠組みにより階層的な特徴学習
を実現する.この枠組みはIterative Error Feedback, またはIEF
と呼ばれる.	
下図は提案手法の概略図である.左が入力画像と3つの関節点(実際には全身で
17点を推定)である.赤が頭部,緑が右手首,青が左手首に対応.推定した結果を
評価,誤差を計算,画像への投影...といった感じで繰り返しにより誤差を最小
化.	
下の表はMPI test setのPCKh-0.5における評価結果である.シンプルな手法なが
ら確実に精度が向上している.	
Links	
論文 http://arxiv.org/pdf/1507.06550v2.pdf	
コード https://github.com/pulkitag/ief	
著者 http://www.cs.berkeley.edu/~carreira/	
スライド
https://www.robots.ox.ac.uk/seminars/Extra/
2016_02_22_JoaoCarreira.pdf
Waqas Sultani, Imran Saleemi, “Human Action Recognition across Datasets by Foreground-weighted Histogram
Decomposition”, in CVPR, 2014.	
【58】	
Keywords: Cross-dataset, Action Recogntiion	
新規性・差分	
手法	
結果	
概要	
人物行動認識のためのCross-Dataset問題 (学習とテストの
データセットが異なる問題設定のこと)を解決するために顕著性
マップを適用して前景領域に重み付けする.	
・顕著性を適用することでより重要な特徴に対して高い重み付
けを行うことが可能	
・行動の比較の際には重要な部分のみが用いられるべき (背
景は行動に関係ないことから不要であると主張)	
戦略としては,顕著性マップを用いることで背景の重みを小さく,前景の重みを大
きくする.Background Motion FeatureにはSpace-Time Interest Point (STIP)を,
Global Scene Features にはGIST特徴量を用いた.	
前景領域に特化した特徴表現としては,Bag-of-words (BoW)を採用し,Motion
GradientsやColor Gradientsからコードワードを生成する.さらに,BoWのベクトルの
各要素に対して重みを計算する.下記の(8)(9)式を用いることでヒストグラムの重
み付けを実行する.(8)式はK-meansをする際の重みであり,(9)式は領域に重み付
けした場合のヒストグラムインターセクションの値を示す(Histogram
Decomposition).	
UCF50, HMDB51, Olympic SportsのサブセットにてCross-Datasetでの学習やテス
トを実行した.下の表が精度であり,重み付け有無,さらにHistogram
Decompositionありの場合について表記した.	
Links	
論文
http://crcv.ucf.edu/papers/cvpr2014/Sultani-Saleemi-
CVPR-2014.pdf	
著者 https://scholar.google.com/citations?user=Iu9BD-QAAAAJ
Fan Zhu, Ling Shao, “Enhancing Action Recognition by Cross-Domain Dictionary Learning”, in BMVC, 2013.	
【59】	
Keywords: Domain-Adaptation, Dictionary Learning, Action Recognition	
手法	
結果	
概要	
行動認識のためのドメイン変換の問題を解決すべく,辞書学習
を行った.ドメイン変換では学習とテストのデータの性質が異な
る場合を扱うが,共通の因子や識別的に優れた特徴を強調す
ることで性能を保持する仕組みを考案する.	
Dense TrajectoryによるベクトルをLLCによりコーディングする.Source Domainと
Target Domain間の特徴の性質を学習し,Source-Targetの変換を行う.ここでは
Dictionary Learningが採用された.通常のDictionary LearningではSource-Target
の性質から辞書Dtや左の式を求めるのみであったが,提案手法では左式のような
Source, Targetの双方向の変換を考慮して最適化.	
HMDB51をSource Domain,UCF Youtubeを
Target Domainとしてテストした結果が表の通り
である.	
Links	
論文
http://www.bmva.org/bmvc/2013/
Papers/paper0052/paper0052.pdf	
プロジェクト
Viktoriia Sharmanska, Novi Quadrianto, “Learning from the Mistakes of Others: Matching Errors in Cross-
Dataset Learning”, in CVPR, 2016.	
【60】	
Keywords: 	
手法	
結果	
概要	
他タスクの認識誤りから知識を得て活かすことができるかどう
かを考慮する.例えば,動画=>画像,クリップアート=> 画像,
3Dモデル => 画像といった同じ認識対象の誤差を,異なる性質
のデータから補正を実現するフレームワークを提供する.	
Learning with Privileged Information (LUPI)を一般化する形でこの問題を解決す
る.すなわち,画像データに追加の情報を与えて誤差を少なくする問題を扱う.提
案手法では誤差の分布 (Distribution Mismatch)を最小化するために画像に追加し
て動画・クリップアート・3次元モデルなどを採用した.データの性質を見極めるため
にSkewnessやKurtosisに追加してMaximum Mean Discrepancy (MMD)を提案す
る.	
右のグラフは画像(Image)に追加
して,異なるデータからの誤り情
報の共有である.棒グラフは各タ
スクに対する精度の相対値であ
る.青は提案が,赤は従来法が高
いことを示す.	
Links	
論文 http://users.sussex.ac.uk/~nq28/pubs/ShaQua16.pdf	
コード
http://users.sussex.ac.uk/~nq28/lupi/CVPR2016_matchingdistr.zip	
著者
https://scholar.google.com/citations?
hl=en&user=8TDBdicAAAAJ&view_op=list_works&sortby=pubdate
Dim P. Papadopoulos, Jasper R. R. Uijlings, Frank Keller, Vittorio Ferrari, “We don’t need no bounding-boxes:
Training object class detectors using only human verification”, in CVPR, 2016.	
【61】	
Keywords: 	
新規性・差分	
手法	
結果	
概要	
人物によるバウンディングボックスのアノテーション作業はかな
り時間のコストを要することから,「生成されたバウンディング
ボックスの評価」をするのみで学習データを生成する.さらに
は,生成したデータで再学習することと,アノテーションの評価
を繰り返すことで識別器を改善していく.	
・初期の識別器さえ用意できれば人間は推定値の評価をする
のみでアノテーション作業が完了する	
・学習とテスト,人間による評価の繰り返しにより識別器の性能
を向上させることが可能	
下図が提案手法の概略図である.	
まずは初期の学習で構成された識別器により候補領域生成や物体検出を行う.人
物がラベルをつけるのは,正解・非正解のみである.正解ラベルは次の学習のラ
ベルに対して,非正解ラベルは候補領域に対してフィードバックを行う.繰り返しに
より識別器の性能を向上させる.さらに細かいラベルには”Mixed”, “Part”,
“Container”が含まれる.	
データはPASCAL VOC 2007を用いる.表はFullSupervision (すべてのラベルがあ
る場合)と提案のYes/Noによるアノテーションである.時間を短縮した場合でもある
程度の精度までは復元が可能である.グラフは横軸が時間(hour)であり,縦軸が
精度.数時間のアノテーション作業で50%付近まで精度が向上する.	
Links	
論文
http://calvin.inf.ed.ac.uk/wp-content/uploads/
Publications/papadopoulos16cvpr.pdf	
著者
https://scholar.google.com/citations?hl=en&user=-
_JAhdQAAAAJ&view_op=list_works&sortby=pubdate	
Lab http://calvin.inf.ed.ac.uk/
Tao Kong, Anbang Yao, Yurong Chen, Fuchun Sun, “HyperNet: Towards Accurate Region Proposal Generation
and Joint Object Detection”, in CVPR, 2016.	
【62】	
Keywords: Region Proposal, HyperNet	
新規性・差分	
手法	
結果	
概要	
物体候補領域の抽出や物体検出を同時にこなすニューラル
ネットのアーキテクチャであるHyperNetを提案する.HyperNet
はend-to-endでの学習が可能であり,約100の候補領域である
が非常にRecall Rateが高い.さらに,5FPSで動作することが明
らかになった.	
・現在,候補領域のstate-of-the-artはRegion Proposal
Network (RPN)であるが,微小領域の評価には向いていないた
め,改善する	
下図は本論文の提案するフローチャートである.入力画像からCNNによりHyper
Feature Extractionを実行する.この特徴はObject Proposal や検出タスク自体にも
用いる.図を参照すると,top-10ではあるが物体候補領域の段階ですでに物体検
出に近い出力を行っている.Hyper FeatureではConv1/3/5の出力値を統合して候
補領域の生成や物体検出に用いる.Conv1はMax-poolを,Conv5はDeconvolution
を行うことで第3層の特徴マップサイズに統一.	
50の候補領域で95%,100では97%のRecall Rateを実現した.さらに,PASCAL VOC
2007/2012ではそれぞれ76.3%,71.4%というmAPを実現.下の表にPASCAL VOC
2012の結果を示す.	
Links	
論文 https://arxiv.org/pdf/1604.00600.pdf	
プロジェクト
Ting Yao, Tao Mei, Yong Rui, “Highlight Detection with Pairwise Deep Ranking for First-Person Video
Summarization”, in CVPR, 2016.	
【63】	
Keywords: Video Summarization, First Person Vision	
新規性・差分	
手法	
結果	
概要	
一人称ビジョンからのライフログに関する研究.自動的にビデ
オサマライズする.Two-stream ConvNetを用いたランキング学
習によりビデオを自動でセグメンテーションする.	
・CNNによる一人称ビジョンからのビデオ要約を実現	
下図が一人称ビジョンからのビデオ要約の概略図である.入力のビデオからTwo-
Stream ConvNetにより特徴を抽出する.Spatial Stream (空間的特徴抽出)では
AlexNetが,Temporal Stream (時系列的特徴抽出)ではC3Dが用いられた.
Highlight Curveでは要約のためのスコア値を算出し,要約を行う.	
15のスポーツ映像から撮影された100時間超のビデオに対してサマライズを行っ
た.比較の結果,この分野におけるstate-of-the-artであるRankSVMを用いた手法
よりも10.5%精度が向上し,ビデオ要約の可能性を示した.	
Links	
論文 http://research.microsoft.com/pubs/264919/2219.pdf	
プロジェクト
http://research.microsoft.com/apps/pubs/default.aspx?id=264919	
著者 http://vireo.cs.cityu.edu.hk/TingYao/
Dong Li, Jia-Bin Huang, Yali Li, Shengjin Wang, and Ming-Hsuan Yang, “Weakly Supervised Object Localization
with Progressive Domain Adaptation”, in CVPR, 2016.	
【64】	
Keywords: weakly supervised object localization, in detection adaptation, in classification adaptation	
新規性・差分	
手法	
結果	
概要	
・本論文では, 教師画像を用いて弱教習でも物体の認識・特定
を行う.	
	
・従来研究	
多くのアプローチは、オブジェクトの提案マイニングを通じてこ
の弱教師でも位置特定を行う.しかし, オブジェクトのノイズの
量によって、判別対象モデルを学習するための曖昧さを引き起
す.	
・提案手法	
  2つのステップ分類適応と検出適応を用いてこの問題に対処
します.	
  分類適応では, 画像内の特定のオブジェクトの存在を認識す
るため,マルチラベル分類タスクに事前訓練を受けたネットワー
クに送る.	
検出適応にはクラス固有のオブジェクトを収集の提案するた
め, 候補を発見するための教師有り学習を提案するためにマス
クアウト処理を使用する.	
・物体をデータセット内の画像を収集するための検出適応, 認識・識別するための
分類適応を用いる.誤検出し無いように画像に微調整する.	
・実験結果より, 提案手法が大幅に最先端の方法よりも優れていることが分かる.	
識別率の平均は39.5%を表示した.	
	
.	
Links	
論文 http://goo.gl/vLkEQe
Nazli Ikizler-Cinbis, Stan Sclaroff, “Object, Scene and Actions: Combining Multiple Features for Human Action
Recognition”, in Proceedings of the 11th European conference on Computer vision, 2010.	
【65】	
Keywords: Action Recognition, Multiple Features	
新規性・差分	
手法	
結果	概要	
物体やシーン,行動からの特徴を統合した行動認識のアプ
ローチmultiple instance learning (MIL)の提案	
無関係なインスタンスへの関連
や誤検出に強い	
右図に物体,シーン,行動それぞ
れの特徴の抽出方法を示す.	
物体と行動の特徴抽出にはHOGと
Optical Flowを使用し,	
シーンの特徴では,Gist特徴と色
特徴を抽出している.	
これらの特徴を組み合わせる.(ア
ノテーションを弱めにつけ,学習を
行うことで,識別に最適な特徴を自
動で選定する)	
(1)YouTube datasetでの物体,シーン,行動の各特徴単体および組み合わせ時の
精度検証結果	
(2)YouTube datasetでのすべての特徴を組み合わせたときの認識精度.平均は
75.21%となった.	
Links	
論文 http://goo.gl/G9f4vK	
	
(1)	
(2)
Ziming Zhang, Yuting Chen, “Efficient Training of Very Deep Neural Networks for Supervised Hashing”, in
CVPR2016.	
【66】	
Keywords: 	
新規性・差分	
手法	
結果	
概要	
・より深いDeepLearningを用いて,バイナリハッシュコード化の
勾配消失を解決している.back propagationの際,レイヤー毎
に分割し,alternating direction method of multipliers(ADMM)を
ベースにした最適化をしている(VDSH).Cifar-10やMNISTで比
較実験した結果,従来手法(SDH)などよりも高い性能を示した.	
大規模データセットでの計算効率向上などを目的に,教師あり
ハッシュコード化に関する技術が提案されている.しかし,従来
の手法はback propagation(勾配消失など)の課題を残してい
た.そこで,提案手法では	
back propagationの際にレイヤー毎に分割して最
適化している.最適化手法はADMMをベースにし
ている.これにより勾配消失の課題が解決され,
より深い層のDeep Learningでのハッシュコード化
が可能となった	
	
Links	
論文 : https://arxiv.org/pdf/1511.04524v2.pdf	
	
コード:https://zimingzhang.wordpress.com/publications/
Hossein Rahmani, Ajmal Mian, “3D Action Recognition from Novel Viewpoints”, in CVPR2016.	
【67】	
Keywords: 	
手法	
結果	
概要	
1つの視点から撮影した特徴を基に,複数視点の特徴を算出す
ることで視点変化に依存しない3D行動認識を提案している.N-
UCLA Multiview Action3D Dataset ,IXMAS,UCF Sports Datasetな
どの複数のデータセットで比較実験した結果,提案手法の有効性が
確認された.	
Mocapデータを3Dモデルにフィッティングさせ,そこから複数視点のDT特徴(F1, F2,
F3)を抽出.F1・F2・F3の全ての特徴をSoftmax関数に入力し,異なる視点での行動
認識を実現している(R-NKTM).	
Links	
論文 :https://arxiv.org/pdf/1602.00828.pdf
Oscar Koller, “Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and
Weakly Labelled”, in CVPR2016.	
【68】	
Keywords: 	
結果	
概要	
EMアルゴリズムにCNNを組み込むことにより,ラベルづけの甘
いデータセットに対して,新しくより詳細なラベル付けを実現し
ている.実験では,動画からの手の形状推定を題材としてお
り,より詳細なラベル付けの有用性を検証している.	
RWTH-PHOENIX-Weather 2014	
手法	
EMアルゴリズムにCNNを組み込んでいる.入力画像とそのラベルをGoogLeNetに
入力し,再度ラベル付けをしている.	
Links	
論文 :
https://www-i6.informatik.rwth-aachen.de/publications/download/
1000/KollerOscarNeyHermannBowdenRichard--
DeepHHowtoTrainaCNNon1MillionHImagesWhenYourDataIsContinu
ousWeaklyLabelled--2016.pdf	
	
Youtube:https://www.youtube.com/watch?v=TPXzc3GKF9c
Keywords:Large-scale Object Detection 	
離散エネルギー最小化(discrete energy minimization)を用いた大規模
物体検出のための効率的なPoint Process Inferenceの提案.オブジェ
クトの数を任意に増やすことができるような画像(群衆,鳥の大群等)で
の大規模な物体検出の問題に対処し,著しい人の重なりやオクル―
ジョンを提示することができる.	
左の2枚の図では,4144の幹細胞が検出されており,一番右の図では
492人のランナーが検出できている.	
オブジェクトの信頼度と空間オブジェクトパターンを含む密度関数
によるPoint process probabilistic modelを用いることでオブジェクト
検出の問題を定式化する..	
Trung T. Pham, Seyed Hamid Rezatofighi, Ian Reid and Tat-Jun Chin, “ Efficient Point Process Inference for
Large-scale Object Detection”, in CVPR, 2016.	
【69】	
論文ページ : https://cs.adelaide.edu.au/~trung/lib/exe/fetch.php?media=ls_obj_det.pdf	
概要	
新規性・差分	
Links	
手法	
結果	
オブジェクトの位置を特定するプロセスを複雑にする要因とし
て,人の重なりやオクル―ジョンの問題が生じるがこれにについ
て解いている.
Nishit Soni, Anoop M. Namboodiri, C. V. Jawahar, Srikumar Ramalingam, “Semantic Classification of
Boundaries of an RGBD Image”, in BMVC2015, 2015.	
【70】	
Keywords: RGBD, occlusion edges, convex or concave edges, four class edge labeling, Random forest	
新規性・差分	
手法	
結果	
概要	
・ラベリングのタスクは、コンピュータビジョンにおける古典的な	
問題の一つである.そこで,提案本稿では、凸面,凹面と閉塞	
エンティティをエッジを分類ためのランダムフォレストを用い	
た新規アルゴリズムを提案する.	
・我々のアプローチはJiaらの手法と類似しているが,4つのクラ	
スのエッジラベリングを使用し,またランダムフォレストを使用	
している.これにより,SVMを用いたものと比べ,不足してい	
るデータやノイズに対してより堅牢である.	
(1)両方の画像と奥行き手がかりにエッジ画素のラベルを推測する.

(2)得られたエッジ画素のそれぞれに4クラスラベリングを割り当てる.

(3)各エッジ画素を1つの輪郭セグメントにマッピングする.

(4)輪郭セグメントを使用して構築として我々は問題を定式化し,グラ	
フを最適化する.

(5)ランダムフォレストに基づく画素分類器を使用して単項特徴を得る.	
右にアルゴリズムの概要を示す.



	 Links	
論文http://www.bmva.org/bmvc/2015/papers/
paper114/paper114.pdf 	
コードとデータセット	
https://cvit.iiit.ac.in/projects/
semanticBoundaries
Benjamin Hughes and Tilo Burghardt, “Automated Identification of Individual Great White Sharks from
Unrestricted Fin Imagery”, in BMVC 2015. 	
【71】	
新規性・差分	
結果	
概要	
生体科学分野におけるフィールドワークでの生態調査では,個体認証を時間をかけて繰り返すことが基本的な要件である.本稿ではホホジ
ロザメの鰭に注目し,図1に示すような制約のない鰭画像からの特徴抽出~照合までの視覚的識別手法のパイプラインを自動化する.	
	
PDF:http:	
//www.bmva.org/bmvc/2015/papers/paper092/
paper092.pdf	
Keywords : Object detection, Segmentation, Animal recognitoin	
手法	
Links	
鰭検出として用いる,開いているエッジの検出: 単純なセグメ
ンテーションアルゴリズムでは最終的には,検出に失敗する.
しかし,提案するストロークモデルを組み合わせることで,鰭を
図中の白線で囲んだ固体のようにセグメンテーションすること
ができた.2456枚の画像より構成されるデータセットを用いて
実験を行った結果,82%の精度で個体認証に成功した.	
提案システムの概要: 1. 物体検出とセグメンテーションの組み合わせ,マルチスケール領
域でのセグメンテーション,開いているエッジの構築,エッジの順位付けと鰓の検出	
2.生体情報の符号化と個体識別,エッジの微細化,生態特徴を抽出し,さらに照合する	
	
提案システムは初の動物のエッジに基づいた個体認証システムである.
Z Kalal, J Matas, K Mikolajczyk, “P-N Learning: Bootstrapping Binary Classifiers by Structural Constraints”, in
CVPR, 2010 IEEE Conference on, 49-56.	
【72】	
Keywords: P-N Learning,	
新規性・差分	
手法	
結果	
概要	
P-N learningと呼ぶラベル付した例とラベル付していない例から
2値分類器を訓練する方法(パラダイム)を提案している.学習
プロセスとして,ラベル付していないデータに対しラベル付を制
限してP(positive)とN(negative)に分ける.	
学習器作成する際,ラベル付されたものを用いるが,P-N
Learningでは,ラベル付されていないデータセットにも適応する
ことが可能である.	
・	
・	
Links	
論文:	
http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5540231
Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri, “Learning Spatiotemporal Features
with 3D Convolutional Networks”, in ICCV, 2015.	
【73】	
Keywords: C3D, 3D Convolution	
新規性・差分	
手法	
結果	
概要	
時系列の畳み込みネットであるC3D (Convolutional 3D)の提案
論文.xytの3次元畳み込みを行うことで時系列情報を畳み込
みマップ上に投影することが可能である.Sports-1Mデータセッ
トにおけるCaffeのPre-trained Modelが公開されている.	
・2次元の畳み込みよりも時系列特徴の抽出に有効である	
・3x3x3の畳み込みカーネルを用意した	
・4つの異なるデータセットにおいてstate-of-the-artな精度を達
成した	
C3Dは3x3x3の畳み込みカーネルが用意されている.さらに,構造的には8回の畳
み込み,5回のmax-pooling,2層の全結合層が用意されている.各全結合層の出
力は4,096次元である.識別の際にはt全結合層であるFC6の特徴を抽出し,Linear
SVMによる識別を行う.	
3次元畳み込みにより下表のように各データセットに対して良好な精度を実現した.
時系列の畳み込みにより,FC6から特徴を抽出するのみで時系列特徴を得ること
ができた.	
Links	
論文 http://vlg.cs.dartmouth.edu/c3d/c3d_video.pdf	
プロジェクト http://vlg.cs.dartmouth.edu/c3d/	
コード https://github.com/facebook/C3D
Zheng Shou, Dongang Wang, Shih-Fu Chang, “Temporal Action Localization in Untrimmed Videos via Multi-
stage CNNs”, in CVPR, 2016.	
【74】	
Keywords: Action Localization, Multi-stage CNN	
新規性・差分	
手法	 結果	
概要	
トリミングされていない長時間の動画から,行動のローカライズ
を行う手法の提案	
3つのセグメントベースのConvNetを使用することで,Deep
Networksにおけるアクションのローカライズを効率的に行う.	
	
フレームワークの概要を右上図に示す.本フレームワークは3つの
構成からなる.	
(1)Multi-scale segment generation: 入力された動画から,様々な長
さのセグメントを生成(16frame, 32frame,64frame...)	
(2)Segment-CNN: proposal networkが候補セグメントを識別.
classification networkはlocalization networkの初期設定を行うため
に,行動識別モデルを学習.その後localization networkは,動画か
ら行動のローカライズを行い,スコアを出力する.	
(3)Post-processing: 出力されたスコアにNMSを用いることで,冗長
性を除去し,最終的な結果を取得する.	
(1)MEXaction2における,Dense Trajectoriesとの平均精度の比較	
(2)THUMOS 2014における平均精度の比較	
(3)THUMOS 2014における,各クラスの平均精度のヒストグラム(緑が提案手法)	
Links	
論文 	
https://arxiv.org/pdf/1601.02129v2.pdf	
(1)	 (2)	
(3)
Ilke Demir, Bedrich Benes, “Procedural Editing of 3D Building Point Clouds”, ICCV, 2015.	
【75】	
Keywords:Point Cloud, Editing, procedural modeling 	
新規性・差分	
手法	
結果	
概要	
・本研究では,点群の構築と編集の問題に取り組んでいる.本
論文では点群データで構成された建物の手続きモデリングのた
めのアプローチを提案している.	
・中間三角測量をすることなく点群上で直接動作することが出
来る.	
・本論文の提案手法を以下に示す.	
(1)semi-automatic segmentationとテンプレートマッチングを用いて繰り返し構造	
  を検出する.	
(2)入力ツリー表現を作成し,繰り返しconsensus-basedの投票方式とパターン抽出
アルゴリズムを使用して点群を構築していく.	
また,(2)でユーザの編集操作,最小二乗最適化,エッジを意識したリサンプリング
を用いて点群を編集する.	
・点群データの建物に対しての提案手法の結果を図と表に示す. 図から建物の点群データが合成,補完,編集が出来ていることがわかる.	
Links	
論文: http://www.cv-foundation.org/openaccess/
content_iccv_2015/papers/
Demir_Procedural_Editing_of_ICCV_2015_paper.pdf
Han Zhang, Tao Xu, Mohamed Elhoseiny, Xiaolei Huang, Shaoting Zhang, Ahmed Elgammal, Dimitris Metaxas,
“SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-grained Recognition”, in CVPR, 2016.	
【76】	
Keywords: Semantic Parts Detection, Semantic Parts Abstraction, Fine-grained
Recgnition	
新規性・差分	
手法	
概要	
fine-grainedな分類を行うCNNアーキテクチャ(SPDA-CNN)の提
案	
検出と認識を行う2つのサブネットワークを持ち,detection sub-
networkでは,semantic part候補の生成を行い検出を行う.	
classification sub-networkでは,detection sub-networkが検出
した部分からの特徴を抽出する	
	
フレームワークの概要を右上図に示す.	
(1)新規のKNN法により,small semantic partsを抽出し,パーツの
候補を生成する.	
(2)Fast RCNNを用いて,生成した候補から正確な部分のバウン
ディングボックスを得,classification sub-networkに送信する.こ
の時,オクルージョンによって見えない部分がある場合,0(図の
Leg参照)として送信される.	
(3)正確なsmall semantic partsを結合し,相関関係を学習する.	
Links	
論文 	
http://paul.rutgers.edu/~hz138/publications/CVPR16.pdf	
結果	
(1)CUB-2011において,正しくローカライズされた割合の比較	
(2)CUB-2011における最新の研究との比較	
(3)CUB-2010における最新の研究との比較	
	
(1)	 (2)	
(3)
Karen Simonyan, Andrew Zisserman, “Two-Stream Convolutional Networks for Action Recognition in Videos”,
in NIPS, 2014.	
【77】	
Keywords: Two-Stream ConvNet	
新規性・差分	
手法	
結果	
概要	
行動認識で用いられるTwo-Stream ConvNetの論文.RGB画
像やオプティカルフロー蓄積画像と,2種類の入力からそれぞ
れ空間情報や時系列情報を抽出する.	
・深層畳み込みネットに対して,構造をほとんど変えずに時系
列情報や空間情報のベクトルを抽出でき,統合可能である	
・オプティカルフロー蓄積画像の畳み込み特徴は行動認識に対
して非常に有効であることを実証した	
・2つの学習データ(UCF101, HMDB51)に対してFine-tuningして
高い精度を実現した	
下図はTwo-Stream ConvNetのフローチャートである.空間の畳み込み(Spatial
Stream ConvNet)や時系列の畳み込み (Temporal Stream ConvNet)から構成され
る.空間の畳み込みに関しては基本的には全8層から構成されるAlexNet
(ImageNet Pre-trained Model)を参考にした.時系列の畳み込みに関して,オプティ
カルフローはBroxにより抽出,x-,y-方向のフローを蓄積し,学習はUCF101,
HMDB51のデータにより行った.ここで,学習時にはMulti-task Learningを適用し,
それぞれのデータに対してSoftmax関数を用意して最適化を行った.	
Spatial StreamはUCF101による学習が52.3%だったのに
対してImageNetモデルは72.7%であった.また,Temporal
Streamでは1フレームのオプティカルフローが73.9%で
あったのに対して10フレーム蓄積時には81.0%まで向上
した.さらに,Two-Stream ConvNetにすると
88.0%@UCF101,59.4% @HMDB51まで向上する.ここで,
2つのConvNetの出力はSVMにより統合した.	
	
Links	
論文
https://papers.nips.cc/paper/5353-two-
stream-convolutional-networks-for-
action-recognition-in-videos.pdf	
スライド
http://www.robots.ox.ac.uk/~vgg/
publications/2014/Simonyan14b/
poster.pdf	
著者 http://www.robots.ox.ac.uk/~karen/
Shuiwang Ji, Wei Xu, Ming Yang, Kai Yu, “3D Convolutional Neural Networks for Human Action Recognition”, in
IEEE Transaction on Pattern Analysis and Machine Intelligence, 2013.	
【78】	
Keywords: 3D convolutional Neural Network, Action Recognition	
新規性・差分	
手法	
結果	
概要	
行動認識に向けた3DモデルのCNNの提案	
・CNNのようなdeep modelは2Dの入力にしか対応していなかっ
たため,3Dの入力に対応したモデルは新規	
・出力に新規の正規化法を行うことで,パフォーマンスを向上	
2D-CNNと3D-CNNの畳み込み層の比較を右図に示す.	
時間方向の次元では,畳込みカーネルの大きさは3であり,
畳み込みする際の重みは,各色で同じである.	
下図に示すように3D-CNNでの特徴抽出は,連続的なフ
レームから行う.畳み込みする際の重みは,各色ご毎に異
なる.	
上図はKTH Dataでの比較結果,
右図は false positive ratesを変
えた時の各種法での比較結果で
ある	
Links	
論文 	
http://
ieeexplore.ieee.org/
stamp/stamp.jsp?
arnumber=6165309
Bangpeng Yao, Aditya Khosla, Li Fei-Fei, “Combining Randomization and Discrimination for Fine-Grained Image
Categorization”, in CVPR, 2011.	
【79】	
Keywords: Fine-Grained Image Categorization, Random Forest,	
新規性・差分	
手法	
結果	概要	
画像から弁別可能な情報を含むパッチを特定するアルゴリズ
ムの提案	
Discriminative feature mining による詳細な情報の取得	
randomization による次元削減とオーバーフィッティングの防止	
下図(左)に示すように,パッチの大きさとパッチの中
心位置を変えながらサンプリングを行う.(サンプリン
グはdense samplingで行う)	
下図(右)に示すように,複数サンプリングされた空間
を決定木のノードに割り当て,識別器を構成する.	
	
(1)PASCAL VOC2010 action classification challengeでの比較	
(2)PPMI datasetでの比較	
(3)PPMI 12-class datasetでの比較	
(4)Caltech-UCSD Birds 200 datasetでの比較	
Links	
論文  http://vision.stanford.edu/pdf/YaoKhoslaFeiFei_CVPR2011.pdf	
スライド http://slidegur.com/doc/5625945/presentation	
(1)	
(2)	 (3)	
(4)
Shaoxin Li, Junliang Xing, Zhiheng Niu, Shiguang Shan, Shuicheng Yan, “Shape Driven Kernel Adaptation in
Convolutional Neural Network for Robust Facial Traits Recognition”,CVPR, 2015.	
【80】	
Keywords: CNN, Facial Traits Recognition	
新規性・差分	
手法	
結果	
概要	
・顔の特徴認識において、表情の多
様性は課題である。また現実世界で
は特徴が環境のもとで容易に見え
方が変わることがしばしばある。こ
れに対処するための手法としてCNN
に輪郭情報をどのように活用するこ
とを考えている。	
・従来手法のCNNはテキスチャ情報に基づくことが多いがこれ
は現実世界の環境下で変化しやすく、深いCNNであればこう
いった変化にも強いがさらなる情報の加味によりよりロバストな
認識が出来る。そこで本論文で提案されているのが輪郭情報
である。	
・顔の輪郭情報とテキスチャ情報の組み合わせによりCNNによる認識の精度を上昇させ
る。輪郭情報の抽出には木構造のカーネルを適用したCNNを用いる。	
	
	
	
	
	
	
	
	
・他の従来手法と比べ高い識別率をマークした	
Links	
論文:http://www.cv-foundation.org/openaccess/
content_cvpr_2015/papers/
Li_Shape_Driven_Kernel_2015_CVPR_paper.pdf	
プロジェクト	
http://www.cv-foundation.org/openaccess/content_cvpr_2015/
html/Li_Shape_Driven_Kernel_2015_CVPR_paper.html
Florian Jug, Evgeny Levinkov, Corinna Blasse, Eugene W. Myers, Bjoern Andres, “Moral Lineage Tracing”, in
CVPR, 2016.	
【81】	
Keywords: Lineage Tracing, Integer Linear Program (ILP)	
新規性・差分	
手法	
結果	
概要	
細胞の分岐を自動でトレーシングする手法を提案する.Integer
Linear Program (ILP)を用いることでセグメンテーションや細胞
の家系図(Lineage Forest)をトレーシングする.セグメンテーショ
ンをPath-Cutにより分割して細胞の分岐をトレーシングする
が,NP-hard問題を解決するための手法を考案する.	
・単一画像内の複数のセルをセグ
メンテーションベースで分割	
することに成功	
・細胞の木構造を階層的に捉える
ことにおいて最先端の精度を達成
した	
グラフのセグメンテーション分割問題を,最適化と置き換えて解決する.空間的な
最適化のみならず,時系列方向も参照して最適化を行う.下図は各データに対し
て適用した結果である.	
セグメンテーションやトレーシングの精度を示したのが下
の表である.想像以上にうまく領域分割やそのトレーシ
ングができている.	
Links	
論文 http://arxiv.org/pdf/1511.05512v1.pdf	
プロジェクト https://github.com/mpi-inf-cia/moral-lineage-tracing
James Charles, Tomas Pfister, Derek Magee, David Hogg, Andrew Zisserman, “Personalizing Human Video
Pose Estimation”, in CVPR, 2016.	
【82】	
Keywords: Personalized CNN	
手法	
結果	
概要	
姿勢推定の精度を向上させるために個人に特化したCNNモデ
ルを用いる.下記の新規性を保有している.	
・高精度なアノテーションが少ない状態で,個人に特化すること
で高精度な姿勢推定を実現できる.Dense optical flowなどによ
り補正することが可能である	
・セルフオクルージョンに対するモデルを生成し,混同するよう
なアノテーションは自動で排除できる	
・個人に合わせて姿勢推定のためのFine-tuningを実行できる.
PersonalizeされたCNNは一般化された姿勢推定のCNNモデル
よりも精度が大幅に向上した.詳細はビデオを参照.	
手法は4つのステージに分類される.	
Stage 1: ごく少数で構わないので,動画に対する(信頼度の高い)アノテーションを
行う.	
Stage 2: 空間的なマッチングを行う.	
Stage 3: 時系列方向のアノテーションを行う.	
Stage 4: オクルージョンなどによる外れを含めて,評価を行う.	
Stage 2~4の繰り返しにより得られた良質なデータを用いて,”Personalized” CNN
モデルをFine-tuning.	
初期の姿勢推定には[Pfister+, ICCV15]を用いる.	
左の表はピクセル誤差が20以内を正解とした際の姿勢推定精度である.
Personalized ConvNetが驚異的な精度を実現した.ここから,姿勢推定において
Generalなモデルを作るのでなく,個別に特化したモデルにFine-tuningすることが
重要であると位置付けた.	
Links	
論文
https://arxiv.org/pdf/
1511.06676v1.pdf	
プロジェクト 	
ビデオ
https://www.youtube.com/
watch?v=YO1JF8aZ_Do
Tomas Pfister, James Charles, Andrew Zisserman, “Flowing ConvNets for Human Pose Estimation in Videos”,
in ICCV, 2015.	
【83】	
Keywords: Flow CNN	
新規性・差分	
手法	
結果	
概要	
動画としてフレームが蓄積できる場合の姿勢推定手法の提
案.オプティカルフローマップ生成と学習により姿勢推定を実現
した.	
・オプティカルフローのヒートマップ画像から姿勢を回帰するた
めのDeeperNetを構築して高精度なモデルを実現した	
・潜在的空間モデル(Implicit Spatial Model)を学習することでい
わゆる時系列と空間のTwo-Streamを形成した	
・Parametric Pooling Layerにより姿勢回帰のための手掛かりと
した	
下図が提案手法である.姿勢推定のための関節位置回帰のためにネットワーク内
にて空間特徴やフロー特徴を効果的に統合していく.	
右図はChaLearnにおけるState-of-the-artとの比較.提
案の中でもSpatial Fusion Flowがもっとも精度が高い.	
Links	
論文
https://www.robots.ox.ac.uk/~vgg/publications/2015/Pfister15a/
pfister15a.pdf	
コード https://github.com/tpfister/caffe-heatmap	
著者 http://tomas.pfister.fi/	
ビデオ https://www.youtube.com/watch?v=pj2N5DqBOgQ
Vasileios Belagiannis, Andrew Zisserman, “Recurrent Human Pose Estimation”, in arXiv pre-print 1605.02914,
2016.	
【84】	
Keywords: Recurrent CNN, Human Pose Estimation	
新規性・差分	
手法	
結果	
概要	
2次元の人物姿勢推定手法において最先端のCNN手法を提供
する.画像に対する回帰モデルにより,各関節位置をヒートマッ
プ表示する.さらに,関節のアピアランス情報や形状を学習・表
現する方法を提供する.	
・順伝播や再帰的な(Recurrent)構造の組み合わせにより
ニューラルネットのアーキテクチャを構成.再帰的な構造では
繰り返しにより性能を向上させる働きがある.	
・モデルはEnd-to-Endかつスクラッチにより学習可能.	
・キーポイントのヒートマップが可視化できる.	
・[Pfister+, ICCV15] (空間やフローのFusion Layer)や[Carreira+, CVPR16] (繰り返
しによる性能向上)の手法を参考にしたと主張.このアイディアを実装するために,
下図のような構造を考案した(ConvNet with Recurrent Module).全体で畳み込み
は7層から構成されるが,6/7層は再帰的に繰り返される.図は2回の繰り返しを実
行した例(通常の試行+二回の繰り返しで計3回の畳み込み).対象のヒートマップを
得るためのロス関数は数式のように示される.hがヒートマップ正解値であり,f()は
再帰的畳み込みによるヒートマップの復元値である.誤差をもとにしてパラメータを
最適化する.	
表はMPII Human Poseに対する評価であ
る.複数のデータに対してComparativeな精
度を実現した.繰り返しの結果,精度が向
上していくことも明らかにした.	
Links	
論文 http://arxiv.org/abs/1605.02914	
著者 http://www.robots.ox.ac.uk/~vb/
Kyuwon Kim, Kwanghoon Sohn, “Real-time Human Detection based on Personness Estimation”, in BMVC,
2015.	
【85】	
Keywords: Personness, Object Proposal, Human Detection	
新規性・差分	
手法	
結果	
概要	
人物検出に特化した候補領域を生成することができる.さら
に,候補領域を高速に抽出できることから,後段の処理も含め
て人物検出を高速に行うことができる.正規化された勾配やカ
ラーを考慮した高速な候補領域を実装した.	
・10msでの候補領域抽出を実現する.後段にDPMを持ってきた
としても相対的に70%の精度向上を達成した.	
・DPMを用いた際にもリアルタイムでの処理に成功した.	
Edge特徴:HOGを,人物やその周辺の強度の高い勾配を強調することで改良した
Normed Gradients (NG) [Cheng+, CVPR14] (BING)を採用する.提案法ではさらに
このNG特徴を改良する.	
Color特徴:広いレンジの肌色特徴を採用した.服装のカラーもあり得る範囲を採
用する.	
上式は物体候補領域BINGのモデルであり,学習された係数(v_i),バイアス(t_i)と各
量子化された形状のフィルタスコア(s(i,x,y))を示す.一方で下式のPersonnessは人
物により学習された係数や肌色のスコアであるuiを適用しているため,より人物に
特化した候補領域であると言える.	
右図はrecall-timeのトレードオフグラフであ
る.BINGやNGなどよりも高い性能を保有して
いる.Pascal VOCにより比較した歩行者検出
においても36%のエラー率を実現(Personness
+ DPM採用時).さらに,50 ミリ秒/画像の速度
での処理を実現している.	
Links	
論文
http://www.bmva.org/bmvc/2015/papers/paper113/paper113.pdf	
Extended Abstract
http://www.bmva.org/bmvc/2015/papers/paper113/
abstract113.pdf
Dan Levi, Noa Garnett, Ethan Fetaya, “StixelNet: A Deep Convolutional Network for Obstacle Detection and
Road Segmentation”, in BMVC, 2015.	
【86】	
Keywords: StixelNet, Stixel World	
新規性・差分	
手法	
結果	
概要	
3次元の障害物検出の技術であるStixelを,CNNを用いて解決
するStixelNetを提案.今回は障害物検知のみならず道路領域
のセグメンテーションタスクも同時に解いている.実験はKITTI
データセットに対して行った.	
下図はStixelNetの入力(右)と障害物検出の結果例(左)である.
棒状(stick)の入力から「走れない」領域,つまり障害物領域を
検出するのがStixelであるが,手法をCNNに置き換えて実現し
た.	
左図はStixelNetのアーキテクチャ,右図はセグメンテーションの入力と出力であ
る.	
StixelNetは全5層であり,うち2層が畳み込み,2層が全結合,1層がsoftmaxであ
る.Stixel Inputから障害物と道路の境目を抽出し,その後セグメンテーションを実
行する.最初のセグメンテーションをCRFを用いて更新する,	
グラフは障害物検出の結果,表はセグメンテー
ションの結果である.	
Links	
論文
http://www.bmva.org/bmvc/2015/papers/paper109/paper109.pdf	
プロジェクト
http://www.cvlibs.net/datasets/kitti/eval_road_detail.php?
result=94169f33bfc2b957eac6a0280c5016fd76dfde6f
Qiyang Zhao, “Segmentation natural images with the least effort as humans”, in BMVC, 2015.	
【87】	
Keywords: Segmentation	
新規性・差分	
手法	
結果	
概要	
自然画像に対するセグメンテーション(前景と背景の分離)に対
して,いかに人物の労力を軽減し,高速に実行するかを提案.
最小限の労力でかつ1秒以内という高速なセグメンテーション
手法を提供した.	
・The Least Effort Principle (LEP)と名付けた手法は人物の労
力を最小限にすべく考案された	
・	
表は提案のLEPを用いたセグ
メンテーションの精度である.
従来の方法と比較すると,各
評価方式で見てみても精度が
向上した.	
Links	
論文
http://www.bmva.org/bmvc/2015/papers/paper110/paper110.pdf	
コード https://github.com/leduoba/LEP
Albert Gordo, Adrien Gaidon, Florent Perronnin, “Deep Fishing: Gradient Features from Deep Nets”, in BMVC,
2015.	
【88】	
Keywords: CNN, Fisher Vector, Deep Fishing	
新規性・差分	
手法	
結果	
概要	
CNNとFisher Vectorの統合により新しい物体認識の枠組みを
提案する.CNNの畳み込みにより得られた勾配やフィルタリン
グをいわゆるハンドクラフト特徴量とみなし,Fisher Vectors
(FV)によりエンコーディングする.	
・CNNのPre-trained Modelにより特徴量を抽出し,Fisher
Vectorsによりエンコーディングすることにより,新しい特徴抽出
の枠組みとして提案	
・新しいカーネル抽出方法を提案する	
下図はAlexNetのアーキテクチャである.畳み込みを繰り返し,最後のプーリング
層や全結合層,ソフトマックス層のベクトルを抽出し,直接Fisher Kernelに通す手
法や勾配間の類似度を計算する手法が提案された.実験ではAlexNetやVGGNet
のアーキテクチャを採用した.	
表はPascal Voc2007/2012におけるImage
Classificationの結果である.	
Links	
論文 http://arxiv.org/pdf/1507.06429.pdf	
プロジェクト http://www.cvc.uab.es/?p=2054
Philipp Werner, Frerk Saxen, Ayoub Al-Hamadi, “Handling Data Imbalance in Automatic Facial Action Intensity
Estimation”, in BMVC, 2015.	
【89】	
Keywords: Action Unit Intensity	
新規性・差分	
手法	
結果	
概要	
顔認識のAction Unitの問題として,バイアスがありデータのバ
ランスが保たれていない状態になることで最適化がうまく言って
いなかった.提案手法では,過学習することなしに複数クラス
の最適化を行い,それらを統合することで効果的なAction Unit
推定器を生成する.	
複数クラスの最適化手法であるMIDRUS (Multiclass Imbalance
Damping Random Under-Sampling)を提案し,それらをアンサン
ブルで識別器を構成.Action Unitの推定として非常に優れた
手法である.	
下図はAction Unit Intensityの時系列推定結果である.顔部から抽出された特徴
点の軌道から提案手法のMIDRUSやSVRによりその強度が推定されている.
MIDRUSはマイノリティのバイアスを減らし,マジョリティの最適化の質を高めるべく
考案され,その手順は(1) 各クラスのサンプル数を数え (2) (1)で計算したクラス数
を参照し繰り返しなしかつランダムに過学習を防ぐべく最適化を行う.さらに,バギ
ングを採用しており識別器のアンサンブルにより最終的な識別器を構成する.	
表は提案手法と従来法の比較を示す.
提案手法の中でもImbalanced,
Balanced, MIDRUSを比較して,AUの強
度推定にはMIDRUSがもっとも効果的
なことを示した.	
Links	
論文
http://www.bmva.org/bmvc/2015/papers/paper124/paper124.pdf	
Supplimentary Material
http://www.bmva.org/bmvc/2015/papers/paper124/sup124.zip
A. Gilbert, Richard Bowden, “Data Mining for Action Recognition”, in ACCV, 2014.	
【90】	
Keywords: Apriori Algorithm, Dense Trajectories	
新規性・差分	
手法	
結果	
概要	
行動認識のベクトル空間をデータマイニング手法のひとつであ
るAprioriアルゴリズムにより探索し,効果的な次元のみで識別
する.Hollywood2 データセットにて65.1%の精度で識別可能.	
BoFのベクトル空間をマイニングし,低次元かつ高精度なベクト
ルを生成可能.	
Dense TrajecotiresによるHOG/HOF/MBH/Traj.特徴と,BoFによるコーディング.
BoF空間をAprioriアルゴリズムにより有効な次元を探索する.Support と
Confidence(Lift)という指標である特徴がベクトル空間内でどの程度の頻度を保有
するかを評価する.	
Hollywood2データセットにて65.1%の精度で識別を実行した.	
Links	
論文
http://personal.ee.surrey.ac.uk/Personal/R.Bowden/
publications/2014/Gilbert_ACCV_2014pp.pdf	
参考 http://hirokatsu16.blog.fc2.com/blog-entry-105.html
Xiaojiang Peng, Yu Qiao, Qiang Peng, Xianbiao Qi, “Exploring Motion Boundary based Sampling and Spatial-
Temporal Context Descriptors for Action Recognition”, in BMVC, 2013.	
【91】	
Keywords: Dense Trajectoires, Motion Boundary	
新規性・差分	
手法	
結果	
概要	
オプティカルフローの画像空間内にてDense Trajectories (DT)
を抽出することでノイズが除去されるというメリットを取ることが
できる.さらに,HOGやHOFなどのみならず,共起特徴量を時
系列に拡張することで高次の特徴表現を可能とした.	
・RGB空間では照明のちらつきや,自然条件などにより背景ノ
イズを多く含んでしまうが,オプティカルフロー空間内のモー
ション境界(Motion Boundary)を参照することによりこのノイズは
大幅に除去されると主張.DTにおいてノイズの除去が課題で
あったので,大きな効果があった.	
下図は(a)~(c)が通常のRGB画像入力,特徴サンプリングと動線抽出,(d)~(f)がオプ
ティカルフロー画像を入力した際の特徴サンプリングと動線抽出である.さらに,時
系列動線から共起特徴量CoHOG/CoMBH/CoHOFにより特徴抽出.	
KTH, YouTube, HMDB51にて実験を行った.	
HMDB51については特に難しい問題であるが,Dense Trajectoriesga	
46.6%に対して提案手法はノイズ除去と特徴改善により49.22%に向上した.	
Links	
論文
https://www.researchgate.net/profile/Xianbiao_Qi2/publication/
259399483_Exploring_Motion_Boundary_based_Sampling_and_Spatial
-Temporal_Context_Descriptors_for_Action_Recognition/links/
00b7d52b7a0075d904000000.pdf	
ポスター
http://mmlab.siat.ac.cn/personal/pxj/papers/poster_bmvc2013.pdf
Michalis Raptis, Stefano Soatto, “Tracklet Descriptors for Action Modeling and Video Analysis”, in ECCV,
2010.	
【92】	
Keywords: Tracklet, HOG/HOF	
新規性・差分	
手法	
結果	
概要	
簡易版のDense Trajectoriesという位置付けであり,短い動線
の追跡や形状やモーションを記述することができる.	
それまではSTIPやCucoidsなど単純(XYT: 3x3x3)かつスパース
なパッチの表現であったが,トラッキングと特徴記述の組み合
わせにより行動を定義した.	
任意の手法で領域の追跡を行い,
HOG/HOF/Variying Length (動線の
長さを記述)と3種の特徴記述を行
う.時間のずれを相殺するために
Dynamic Time Warpingを採用した.
識別にはBag-of-features (BoF)によ
るコーディングと識別器にはSVMを
採用.	
表はKTHにおけるパフォーマンステ
ストである.各学習とテスト項目にお
いて高い性能を示した.	
Links	
論文 http://vision.ucla.edu/papers/raptisS10.pdf	
プロジェクト(コードあり)
http://vision.ucla.edu/~raptis/tracklets.html
Michalis Raptis, Iasonas Kokkinos, Stefano Soatto, “Discovering Discriminative Action Parts from Mid-Level
Video Representatiions”, in CVPR, 2012.	
【93】	
Keywords: Mid-Level Feature, Dense Trajectories	
新規性・差分	
手法	
結果	
概要	
Dense Trajectories (DT)のベクトルを人体パーツごとにクラスタ
リングしてそれぞれベクトルを抽出することで,従来のDTの
Low-levelな表現のみでなく姿勢パーツごとのMiddle-level(より
高次な情報)な表現を可能とした.	
・DTでは特徴抽出とBoFによるコーディングを行うため,低レベ
ル特徴に止まっていたが,それをMiddle-levelの特徴に拡張し
た.図をみると必ずしも姿勢ごとに分かれているわけではない
が,統計的に意味のあるまとまりである.	
動線はDense Trajectoriesの仕組み(Farneback Optical FlowとそのMedianによるフ
レーム間対応付け)を用いた.フローを領域ごとにクラスタリングすることでAction
Partsを生成した.クラスタ間の時系列特徴のつながりはMid-level part modelを保
有しており,MRFにより学習される.	
Hollywood Human Action (HOHA)やUCF-Sportsデータセットに対して評価を行っ
た.State-of-the-artではないものの,各パーツに区切ることで表現能力が増すこ
とが判明した.	
Links	
論文 http://vision.ucla.edu/papers/raptisKS12.pdf	
プロジェクト(コードあり)
http://vision.ucla.edu/~raptis/action_parts.html
Heng Wang, Alexander Kläser, Cordelia Schmid, Cheng-Lin Liu, “Dense Trajectories and Motion Boundary
Descriptors for Action Recognition”, in International Journal of Computer Vision, 2013.	
【94】	
Keywords: Dense Trajectories, Motion Boudary Histogram, Action Recognition, 	
新規性・差分	
手法	
結果	概要	
Dense Trajectories および Motion Boundry Discriptorに基づく
動画の表現方法の提案	
・Optical Flowを微分したMotion Boundary Histogram(MBH)を提
案	
・記述子としてHOG,HOF,MBHを使用したロバストで効率的な
アルゴリズム	
下図に本提案手法のフレームワークを示す.	
(1)ピラミッド画像(1/√2ずつ縮小)を生成し,各スケール毎にサンプリング	
(2)15フレームの動画像からFarneback Optical Flowを用いてフロー抽出,	
 Median Filterによるフロー対応付けを行う.	
(3)(2)で追跡された動線から周辺領域を抽出し,局所特徴量HOG, HOF, 	
 MBHを取得する.	
各データセットにおける従来手法との比較結果に示す.	
いずれのデータセットにおいても高い精度を有していることがわかる.	
Links	 論文 	
http://goo.gl/nkfM4J
ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします.

More Related Content

PDF
【2016.01】(3/3)cvpaper.challenge2016
PDF
【2016.01】(2/3)cvpaper.challenge2016
PDF
【2016.06】cvpaper.challenge2016
PDF
【2016.01】(1/3)cvpaper.challenge2016
PDF
【2016.03】cvpaper.challenge2016
PDF
【2015.08】(2/5)cvpaper.challenge@CVPR2015
PDF
【2016.08】cvpaper.challenge2016
PDF
【2016.02】cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016
【2016.06】cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
【2016.03】cvpaper.challenge2016
【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2016.08】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016

What's hot (20)

PDF
cvpaper.challenge@CVPR2015(Dataset)
PDF
CVPR 2016 まとめ v1
PDF
【2015.07】(1/2)cvpaper.challenge@CVPR2015
PDF
【2016.07】cvpaper.challenge2016
PDF
【2017.03】cvpaper.challenge2017
PDF
cvpaper.challenge@CVPR2015(Attribute)
PDF
【2017.06】 cvpaper.challenge 2017
PDF
cvpaper.challenge@CVPR2015(Re-ID)
PDF
【2017.05】 cvpaper.challenge 2017
PDF
【2016.09】cvpaper.challenge2016
PDF
【2017.02】cvpaper.challenge2017
PDF
【2016.04】cvpaper.challenge2016
PDF
ECCV 2016 まとめ
PDF
【2015.08】(3/5)cvpaper.challenge@CVPR2015
PDF
【2015.07】(2/2)cvpaper.challenge@CVPR2015
PPTX
【2016.12】cvpaper.challenge2016
PDF
cvpaper.challenge@CVPR2015(Action Recognition)
PDF
【2015.05】cvpaper.challenge@CVPR2015
PDF
【2015.08】(4/5)cvpaper.challenge@CVPR2015
PDF
【2015.08】(1/5)cvpaper.challenge@CVPR2015
cvpaper.challenge@CVPR2015(Dataset)
CVPR 2016 まとめ v1
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2016.07】cvpaper.challenge2016
【2017.03】cvpaper.challenge2017
cvpaper.challenge@CVPR2015(Attribute)
【2017.06】 cvpaper.challenge 2017
cvpaper.challenge@CVPR2015(Re-ID)
【2017.05】 cvpaper.challenge 2017
【2016.09】cvpaper.challenge2016
【2017.02】cvpaper.challenge2017
【2016.04】cvpaper.challenge2016
ECCV 2016 まとめ
【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2016.12】cvpaper.challenge2016
cvpaper.challenge@CVPR2015(Action Recognition)
【2015.05】cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(1/5)cvpaper.challenge@CVPR2015
Ad

Viewers also liked (20)

PDF
CVPR 2016 速報
PDF
CV分野におけるサーベイ方法
PPTX
DLゼミ20170522
PPTX
Ai勉強会20170127
PPTX
勉強会用スライド
PPTX
Mobilenet
PPTX
7月10日(月)dl
PDF
Generating Videos with Scene Dynamics
PPTX
Colorful image colorization
PPTX
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
PDF
Deep Forest: Towards An Alternative to Deep Neural Networks
PDF
AI勉強会用スライド
PDF
Deeply-Recursive Convolutional Network for Image Super-Resolution
PPTX
Globally and Locally Consistent Image Completion
PPTX
勉強会用スライド
PPTX
DeepLoco
PPTX
Deep voice
PPTX
A simple neural network mnodule for relation reasoning
PPTX
Densely Connected Convolutional Networks
PPTX
A3C解説
CVPR 2016 速報
CV分野におけるサーベイ方法
DLゼミ20170522
Ai勉強会20170127
勉強会用スライド
Mobilenet
7月10日(月)dl
Generating Videos with Scene Dynamics
Colorful image colorization
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Deep Forest: Towards An Alternative to Deep Neural Networks
AI勉強会用スライド
Deeply-Recursive Convolutional Network for Image Super-Resolution
Globally and Locally Consistent Image Completion
勉強会用スライド
DeepLoco
Deep voice
A simple neural network mnodule for relation reasoning
Densely Connected Convolutional Networks
A3C解説
Ad

Similar to 【2016.05】cvpaper.challenge2016 (8)

PPTX
畳み込みニューラルネットワークの研究動向
PDF
MIRU2018 tutorial
PPTX
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
PDF
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
PPTX
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
PPTX
Image net classification with deep convolutional neural network
PDF
人工知能13 deep learning
PDF
ディープラーニングフレームワーク とChainerの実装
畳み込みニューラルネットワークの研究動向
MIRU2018 tutorial
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Image net classification with deep convolutional neural network
人工知能13 deep learning
ディープラーニングフレームワーク とChainerの実装

【2016.05】cvpaper.challenge2016

  • 2. Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee, “Deeply-Recursive Convolutional Network for Image Super- Resolution”, in CVPR, 2016. (oral) 【1】 Keywords: Super Resolution, Deeply-recursive Convolutional Network (DRCN) 新規性・差分 手法 結果 概要 超解像画像生成を行うため,Deeply-Recursive Convolutional Network (DRCN)を提案する.本論文で提案するネットワークは 16層以上の再帰的な(recursive)畳み込みネットワークである. 通常,ネットワークの構造が深くなるほど勾配を学習し収束さ せることは困難となるが,これを簡略化するために”Recursive Supervision”と”Skip-connection”を提案した. 図は本論文のアーキテクチャを示す.3種の構造 -Embedding, Inference, Reconstruction network-からなる. Embedding Networkでは入力画像から特徴マップを生成する. Inference Networkで主に超解像の問題を解決している.重みを共通にしており, 再帰的に重みを学習する. Reconstruction Networkでは学習された重みから画像を入力に戻すことによりより 解像度の高い画像を再構成可能とする. Skip-connectionでは入力層や中間層から取り出した特徴マップを ReconstructionNetworkに結合することである.入力と出力が高い相関を持つ超解 像の問題では,中間層の微小な変化を再構成するステップで用いることが有効で あると位置付けた. 表はベンチマークテスト[Yang +, TIP10]における結果であ る.他手法と比較しても高い SN比を達成した.左図は再現 した実際の画像であり, GroundTruth画像に一番近い 再構成を行った. Links 論文 http://arxiv.org/pdf/1511.04491.pdf 参考 http://jiwonkim.org/awesome-deep-vision/ Recursive Neural Net [25] http://nlp.stanford.edu/pubs/SocherHuvalBhatManningNg_NIPS2012.pdf [22] http://jmlr.org/proceedings/papers/v32/pinheiro14.pdf [6] http://arxiv.org/pdf/1312.1847v2.pdf [17] http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/ Liang_Recurrent_Convolutional_Neural_2015_CVPR_paper.pdf
  • 3. Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee, “Accurate Image Super-Resolution Using Very Deep Convolutional Networks”, in CVPR, 2016. (oral) 【2】 Keywords: Super Resolution, Very Deep Convolutional Networks 新規性・差分 手法 結果 概要 VGGNetレベルの深い構造で超解像のタスクを実行するための 研究である.ネットワークアーキテクチャは20層にも及ぶ.残差 (Residual)を学習することにより勾配の最適化を高速に行うこと ができると主張. 深い構造のニューラルネットは勾配が爆発的になり,学習によ る収束が困難であるがこれを残差の最適化をすることにより勾 配の収束を簡易的かつ高速にした. 下図はネットワークアーキテクチャである.基本的には畳み込みとReLUを繰り返し 実装する.最終層で超解像に必要な残差を取得し,入力画像に組み込む形で超 解像画像を復元する. ベンチマークには[Huang+, CVPR15]を用いた.表が復元したPSNRの値やその比 較を示している. Links 論文 http://arxiv.org/pdf/1511.04587v1.pdf 参考 http://jiwonkim.org/awesome-deep-vision/
  • 4. Shandong Wu, Omar Oreifej, Mubarak Shah, “Action Recognition in Videos Acquired by a Moving Camera Using Motion Decomposition of Lagrangian Particle Trajectories”, in ICCV, 2011. 【3】 Keywords: Action Recognition, Lagrangian particle trajectory 新規性・差分 手法 結果 概要 ・カメラ自体が移動するシーン の人間の行動認識手法の提案 ・カメラの移動による誤検出やご追跡の発生をラグランジアン パーティクルトラジェクトリーに基づいた方法で除去する 以下の手順で行動認識が行われる.(左図(3列目)は特徴抽出の結果) (1) Lagrangian particle trajectoryによって,動画中から軌跡を抽出する. (2)抽出した軌跡に含まれた人間の行動の軌跡と,カメラの移動による軌跡を分割 する. (3)k-means法によって,得られた軌跡から100クラスタ生成し,Visual Wardを決定す る. (4)学習や行動認識のための記述子を作成し,行動の特徴付けを行う. (5)SVMを使用し,学習を行う. ・APHill dataset, ARG-aerial dataset, HOHA dataset, UCF sports datasetでの結果を示す Links 論文 http://ieeexplore.ieee.org/xpls/ abs_all.jsp?arnumber=6126397 動画 https://www.youtube.com/watch? v=Wl1pQr_P7-s
  • 5. Laura Sevilla-Lara, Deqing Sun, Varun Jampani, Michael J. Black, “Optical Flow with Semantic Segmentation and Localized Layers”, in CVPR, 2016. 【4】 Keywords: Semantic Segmentation, Optical Flow 新規性・差分 手法 結果 概要 オプティカルフローを高度に用いたセマンティックセグメンテー ション手法の提案.現在のオプティカルフローでは荒い領域抽 出しかできないが,密なオプティカルフローや予めセグメント化 された領域を事前情報とすることで高精度に,かつ複数の意味 的な違いを見分けることができる. ・シーンや物体などのセマンティックセグメンテーションにオプ ティカルフローを導入することで高精度化 ・階層的オプティカルフローをいかに複雑なシーンに用いるか を検討した 前処理として荒く画像セグメンテーションをする.これは,物体間の境界を求めるた めである.さらに,移動するカメラでは物体間が異なる動作をするので,オプティカ ルフロー情報を取得し,追加情報とすることで領域への意味付けが高精度にでき る.空間情報やフロー情報が相補的にKITTIデータのような移動カメラからのセマ ンティックセグメンテーションを実現する. KITTIデータセットを拡張したKITTI-2015データセットを用いた.セマンティックセグメ ンテーションの結果は表の通りである. Links 論文 http://arxiv.org/abs/1603.03911 プロジェクト
  • 6. Junseoc Kwon, Kyoung Mu Lee, “Tracking by Sampling Trackers”, in ICCV, 2011. 【5】 Keywords: Visual Tracker Sampling, 新規性・差分 手法 結果 概要 ・Visual Tracker Samplingと呼ばれる追跡フレームワークの提 案 ・状況に応じたトラッカーを逐一選定し,使用することで,実世界 における環境の変化に対応 (1)に全体の流れの概要,(2)に適切なトラ ッカーの決定法を示す. (1)左図(a)に示すように,Visual Tracker S amplingは4次元の追跡空間(外観モデル, 運動モデル,状態表現型,観測型)を有する. 追跡空間内のトラッカー(点)をサンプリングすることで,トラッカーを決定する.このト ラッカーを追跡処理中に適切なものにすることで,ロバストな追跡を可能にする(b). (2)右図に示すようにサンプラーは,平行かつ相互に処理されるトラッカーから,対象 とする物体の状態を取得することで適切なトラッカーを構築する. 実験結果を右図に示す. 白枠が提案手法であるVisual Tracker Sampling,緑枠が Visual Tracking Decomposition,紫枠がMultiple Instance Learningでの追跡結果で ある. 右図より,Multiple Instance Learningによる人物追跡は,動きや背景変動,ノイズが激 しいシーンにおいても正確に行われていることがわかる. Links 論文 http://citeseerx.ist.psu.edu/viewdoc/download? doi=10.1.1.398.4969&rep=rep1&type=pdf
  • 7. Jianming Zhang, Stan Sclaroff, Zhe Lin, Xiaohui Shen, Brian Price, Radomir Mech, “Unconstrained Salient Object Detection via Proposal Subset Optimization”, in CVPR, 2016. 【6】 Keywords: Salient Object Detection, Proposal, VGGNet 新規性・差分 手法 結果 概要 Salient Object Detection (SOD)のための候補領域抽出.全く 顕著性のない画像の場合には候補領域を抽出しない(下図). CNNモデルをベースにしており,最適化はMAPによりノイズなど 複雑背景下においても効果的に部分集合を推定する. 現在までの顕著性マップ生成は画像内の相対的な評価によ り,顕著な領域を検出してきたが,提案手法では絶対的な評価 により顕著な物体検出のみならず,顕著性のない場合には反 応しない手法を実装. 顕著物体の検出のため,Greedy(貪欲な; ここでは画像全体の)探索と不要な領域 を除去するNon-Maximum Suppression (NMS)を実装.ここで,Maximum a Posteriori (MAP)による部分集合の最適化を導入する.下図のようにステップごと 候補を除去して行き,最終的にはNMSにより出力する.図の例ではIoUが0.4以上 のトップ3を抽出.CNNモデルにはVGGNetを適用したが,Fine-tuningにより最終層 を100次元のSigmoid Layerとした.Fine-tuningに用いた画像はSalient Object Subtizing (SOS)データに含まれる5,500枚の画像である. MSRA, DUT-O, MSOデータセットにより評価 を行った.表(上)は各データセットにおける SODのAverage Precision (AP)であり,表(下) は背景の認識率のAPである. Links 論文 http://cs-people.bu.edu/jmzhang/SOD/ CVPR16SOD_camera_ready.pdf プロジェクト http://cs-people.bu.edu/jmzhang/sod.html GitHub Code https://github.com/jimmie33/SOD Model-Zoo Wiki https://github.com/BVLC/caffe/wiki/Model-Zoo
  • 8. Nicolas Ballas, Li Yao, Chris Pal, Aaron Couville, “Delving Deeper into Convolutional Networks for Learning Video Representations”, in ICLR, 2016. 【7】 Keywords: Video Representation, CNN 新規性・差分 手法 結果 概要 CNNのビデオ表現.Gated-Recurrent-Unit Recurrent Networks (GRUs)を適用することでマルチスケールの画像を入 力し,時系列の画像を処理する.荒い画像からは身体全体の 運動を,解像度の高い画像からはより繊細な動きを捉えること ができ,時系列特徴をより詳細に取得するための手がかりとす る. 複数解像度の画像から畳み込みマップを抽出し,統合すること が大きな新規性である.ここでは,GRU-RCN (RCNは再帰的畳 み込みネット)により時系列表現を拡張した. 下図は提案手法の概略図である.Recurrent Neural Network (RNN)の一種である GRUや再帰的畳み込みネットワーク(Recurrent Convolutional Network; RCN)を統 合するが,さらに複数解像度の画像を同時に畳み込み統合することにより時系列 表現を拡張. 行動認識や映像説明文のタスクにおい て実験を試みた.右図はUCF101に対す る実験結果である. Links 論文 http://arxiv.org/pdf/1511.06432v4.pdf GitHub https://github.com/yaoli/arctic-capgen-vid
  • 9. Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Fahadi, “You Only Look Once: Unified, Real-Time Object Detection”, in CVPR, 2016. (oral) 【8】 Keywords: Object Detection, Real-Time 手法 結果 概要 現在までの候補領域+CNNによる識別といった物体検出のアプ ローチとは異なり,単一のCNNモデルで画像全体を一度処理し スコアの高い領域を検出位置としてバウンディングボックス (bbox)を出力するというコンセプトとした.下図に提案手法の簡 略図を示す.提案手法は非常に高速で約45fpsでの処理が可 能であり,解像度を若干落とすと155fpsでの処理も可能とした. 画像を448x448pixelsにリサイズする.画像はSxSのグリッドに区切られ,それぞれ の領域でbbox Bやそのスコアが推定される.各bboxからはx, y, w, h, scoreと,5つ のパラメータが推定される. CNNのアーキテクチャはGoogLeNetを参考にしていて,24層の畳み込み層,2層の 全結合層から構成される. 表はPascal VOC 2012における比較である.YOLOは高速であるが単体では57.9% という結果であった.Fast R-CNN [Girshick, ICCV15]と統合することで70.7%と良好 な精度を実現可能であることが判明した. Links 論文 http://arxiv.org/pdf/1506.02640.pdf プロジェクト http://pjreddie.com/darknet/yolo/ Video https://www.youtube.com/channel/UC7ev3hNVkx4DzZ3LO19oebg
  • 10. Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, Kilian Weinberger, “Deep Networks with Stochastic Depth”, in arXiv, 1603.09382, 2016. 【9】 Keywords: Residual Networks 新規性・差分 手法 結果 概要 2015年のILSVRCの各種タスクにおいてトップの精度となった ResNetにおいて,この中間層を確率的にスキップする構造を取 り入れることで,CIFAR-10,CIFAR-100,SVHNのデータセット において学習精度・学習時間共に改善することを示した.更 に,この構造を用いることで,CIFAR-10において1200層で学習 を行った場合でも精度が改善することを示した. Dropoutなどの確率的にユニットをスキップするような手法とは 異なり,畳み込み層自体をスキップしネットワークの深さを変動 させながのアンサンブル学習を行うことで汎用性を高める. 学習時において,入力層から離れるに連れて中間層をスキップする確率を大きくし ていき,スキップを行う場合はidentity mappingのみ伝播する. テスト時は,スキップを行わず全ての層を用いて伝播するが,各層での出力に学 習時に用いたスキップする確率をかけ合わせる. 中間層をスキップしない ResNetと比較し,CIFAR-10, CIFAR-100,SVHNにおいて 精度が向上した. Links 論文 https://arxiv.org/abs/1603.09382
  • 11. Bo Li, Tianfu Wu, Caiming Xiong, Song-Chun Zhu, “Recognizing Car Fluents from Video”, in CVPR, 2016. (oral) 【10】 Keywords: ST-AOG 新規性・差分 手法 結果 概要 本論文では車両の状態の変遷(論文中ではFluentと表現)を推 定する.オクルージョンや低解像な場面においても高精度に時 系列遷移を推定するためにSpatio-Temporal And-Or Graph (ST-AOG)を用いる. ・ST-AOGを用いた時系列のFluent解析を提案.Car Fluentとい うコンセプトはCVでは新しい提案 ・Car Fluentに関してデータセットを提供 ・Car Fluentや状態推定に関するモデルを新規に提案 ST-AOGの学習にはLatent Structural SVMを適用する. Directed Acyclic Graph (DAG)に頼らず,代替としてLoopy Belief Propagation (LBP)やDynamic Programming (DP)により時系列の遷移状態を推定.Part-baed HMMを適用することでパーツ毎の時系列変化を捉える. FeatureにはImproved Dense Trajectories (IDT)やC3D特徴を採用. 下はST-AOGによるCar Fluent Recognitionの結果(と表はその比較)である.TPS やIDT,C3Dを組み合わせ,最終的には50.8%の精度での認識に成功した. Links 論文 http://www.stat.ucla.edu/~sczhu/papers/Conf_2016/ CVPR2016_car_fluent.pdf C3D Feature https://arxiv.org/pdf/1412.0767.pdf プロジェクト
  • 12. Alexander Richard, Juergen Gall, “Temporal Action Detection using a Statistical Language Model”, in CVPR, 2016. 【11】 Keywords: Action Detection, Language Model 新規性・差分 手法 結果 概要 言語モデルを参考にした行動検出の問題.行動検出では行動 を認識するのみでなく,その位置まで推定する必要があるが, 言語モデルを参考にして可変の行動長さ,文脈を判断する. 「行動の長さ」「言語モデル(文脈)」「識別性に優れた行動」の3 つを同時最適化する. ・行動検出に対して言語モデルを取り入れることで文脈やその 長さを効果的に分割することができる. ・Language Model (言語モデル),Length Model (長さモデル),Action Model (行動 モデル)を個々に定義,Dynamic Programming内で行動や位置の推定を行う. THUMOS14の行動検出タスクにおいて 実験を試みた.Overlap率が0.1の際, THUMOS14 (39.7%),MPII-Cooking (24.8%),50 salads (37.9%)を達成した. Links 論文 http://www.iai.uni-bonn.de/~gall/ download/jgall_actiondetect_cvpr16.pdf GitHub https://github.com/alexanderrichard/ squirrel
  • 13. Jinsoo Choi, Tae-Hyun Oh, In So Kweon, “Video-Story Composition via Plot Analysis”, in CVPR, 2016. 【12】 Keywords:Video-Story Composition 新規性・差分 手法 結果 概要 ビデオからストーリーを再構成する.複数のビデオを入力とし て,”Video-Story”と呼ばれるビデオクリップを構成することを 提案.特徴やマッチングにはDense Optical FlowやPatch Matchingを採用し,さらに効果的なVideo-Storyの探索のため にBranch-and-Boundアルゴリズムを適用. ・複数のビデオクリップより自動でストーリーを構成する論文は 初めてであると主張 ・Video-Storyを解決するための一般的な手法を提案. 左図はストーリー解析の様子である.ここではExposition, Rising Action, Climax, Resolution (起承転結?)をベースとして展開に沿うビデオクリップを挿入した.設定 としては,複数のビデオクリップNを入力とし,C = {c_1, …, c_N}と表現.s(⊂P)は順 序を示し,Pは可能なCの順序を示す.(1)式は最適なビデオクリップのパスであり, 目的関数であるQ(s) ((2)式)を最適化.ここで,P(s)はストーリー展開時のペナル ティを示し,D(s)は非類似度を示すため,(1)式であるようにarg minを取得すること で最適なビデオクリップのパスs^*を推定できる.ここではNP-hard問題を,Branch- and-Boundアルゴリズムを用いることで効果的に探索. 新規にデータセットを提案.23 のビデオセットから構成され, 236のビデオクリップが含まれ る.ROCカーブにより評価した結 果が右図. Links 論文 http://rcv.kaist.ac.kr/v2/bbs/board.php? bo_table=rs_publications&wr_id=522 プロジェクト
  • 14. Qifeng Chen, Vladlen Koltun, “Full Flow: Optical Flow Estimation By Global Optimization over Regular Grids”, in CVPR, 2016. 【13】 Keywords: Optical Flow Estimation, Full Flow, Markov Random Fields 新規性・差分 手法 結果 概要 Optical Flow Estimation における離散グリッド間マッピングス ペースの計算処理を大幅に削減した最適化手法の提案 ・変化の大きいシーンにおいて記述子を定義することなく実効 可 ・計算処理が簡略化されており,少ないコードで実行可 本稿の手法の概要を述べる (1)右図上に示すように,対象とする画素から近傍4画素分のオプティカルフローを 抽出するモデルを構築する. (2)(1)は2次元のマルコフ確率場な ので,メッセージパッシングアル ゴリズムを構築し,計算処理の 簡略化,さらに処理を速くするた めの改良を行う. 下図にMPI Sintelデータセットでの比較実験結果を示す. 提案手法は先行研究であるEpicFlow, TF+OFM, NNF-Local, PH-Flow, and Classic+NLよりも誤 差率が低く,十分な精度が出ている. 右図に定性的比較実験の結果を示す. Links 論文 http://vladlen.info/ publications/full-flow- optical-flow-estimation- by-global-optimization- over-regular-grids/
  • 15. Abhijit Kundu, Vibhav Vineet, Vladlen Koltun, “Feature Space Optimization for Semantic Video Segmentation”, in CVPR, 2016. (oral) 【14】 Keywords: Semantic Segmentation, Video Segmentation 新規性・差分 手法 結果 概要 静止画でなく,ビデオに対するセマンティックセグメンテーション に関する手法を提案する.ここでは対応するピクセルのマッピ ングを特徴空間のユークリッド距離にて最適化する手法を検討 する.構造的推定にはDense CRFを用いる. ・時系列情報の正規化はシーンやカメラが動的であるため非常 に困難であるが,Dense CRFを用いることでこの最適化を実行 ・CamVid / Cityspacesデータセットに対して良好な性能を達成 した 左図は時系列の構造モデルである.複数のフレームが同時に処理され,それぞれ がDense 3D CRFにより構造的にセグメンテーションされる.このCRFは下の式を最 適化することで得られる.E_uはRegularization term,E_sは空間的正規化項(Spatial Regularization Term),E_tは時間的正規化項(Temporal Regularization Term)を示 す. 表はCamVidデータセット に対する定量的な評価 である.クラスごとの IoU,平均IoU,時間的整 合性を示す.CNN有/無 で上下に分割している. Links 論文 http://vladlen.info/papers/FSO.pdf プロジェクト http://vladlen.info/publications/feature-space-optimization-for- semantic-video-segmentation/
  • 16. Yin Li, Manohar Paluri, James M. Rehg, Piotr Dollar, “Unsupervised Learning of Edges”, in CVPR, 2016. (oral) 【15】 Keywords: Unsupervised Edge Learning 新規性・差分 手法 結果 概要 データドリブン(アノテーションありの教師あり学習)のエッジ検出 ではなく,教師なし学習によりエッジ検出を高精度に実行する. ここではビデオからsemi-denseなマッチング処理を行いモー ション情報を取得. ・現在のデータドリブンのエッジ検出は物体の境界線を与えた データセットからの学習が必要であるが,本論文では教師無し 学習によりエッジ検出を高精度化する手法を提案する ・高精度なエッジ検出は物体候補領域などに用いることができ る?さらに高速化が必要か ここで,左下の図ではエッジ検出のためのフレーム間のsemi-denseなマッチングを 示した.モーションのつながりが阻害される位置は画像のエッジが存在するという 戦略で教師無しエッジ検出を実行する.semi-denseマッチングは[Weinzaepfel+, ICCV13]により実行し,それ以外の特徴は用いていない.下図,提案フローの(1) compute flowではフローベースのエッジマップを生成,(2) compute motion edgesで は(1)で生成したフロー場からのモーションエッジを得る,(3) ではモーションエッジを 学習し,(4) compute edgesで最終的なエッジを検出. 上記,semi-dense optical flowを用 いた結果,VSB benchmarkにて良好 な性能を達成 (.71). Links 論文 http://arxiv.org/pdf/ 1511.04166v2.pdf プロジェクト
  • 17. Andrii Maksai, Xinchao Wang, Pascal Fua, “What Players do with the Ball: A Physically Constrained Interaction Modeling”, in CVPR, 2016. 【16】 Keywords: Player and Ball Interaction 新規性・差分 手法 結果 概要 ボールの追跡を実行する際に,選手とボールの関係性やボー ルの物理的なモデルを用いる.モデリングはMixed Integer Program (MIP)により行った.バレーボール,バスケットボール やサッカーに対して処理を実行した.動画も下記リンクから閲 覧可能.  下図は,(左図) モーションの拘束なしにボールと選手を追跡し た結果,(中央図) モーションの拘束あり,(右図) 提案手法であ り,モーションの拘束や選手やボールのインタラクションをモデ リングした結果である. 下図は本論文で定期要するグラフィカルモデルである.毎時t のボールの位置X^t や状態S^tを適宜画像列 I^t より更新する.ボールのグラフモデルはMixed Integer Program (MIP)によりモデリングすることする.MIP内で速度や加速度の拘束を (Second-orderまで)与える.さらには選手のボール保持情報 (Possession constraints)も有り得る形式を推定する. 選手追跡結果やボール追跡結果を表に示す.左側が選手追跡で,右側が誤差 25cmの際のボール追跡結果である.実際の処理結果は動画を参照. Links 論文 http://arxiv.org/pdf/1511.06181v2.pdf プロジェクト http://cvlab.epfl.ch/research/surv/ball-tracking ビデオ https://www.youtube.com/watch?v=uZK8SmQ_3L8 著者 https://sites.google.com/site/sitexinchaowang/
  • 18. Siying Liu, Tian-Tsong Ng, Kalyan Sunkavalli, Minh N. Do, Eli Shechtman, and Nathan Carr, ”PatchMatch-based Automatic Lattice Detection for Near-Regular Textures”, in ICCV 2015 【17】 Keywords: near-regular textures (NRT), Generalized PatchMatch algorithm (GPM), k-nearest-neighbor (kNN) 新規性・差分 手法 概要 ・私たちの衣服に印刷された建物の外見により,テクスチャパ ターンは我々の日常生活に遍在している.テクスチャパターン は最良の理解と対称性検出によるモデル化ができる.並進対 称性は自然と人工構造物の中で最も一般的に発生する対称 性の一つである.本研究ではNRTの格子構造の推定を自動 で行うシステムを提案する. ・形状よりテクスチャ,テクスチャ編集,テクスチャ要素に幾何 学的歪みから面方位を推定しようとするアプリケーションには 課題がある.私たちはGPMを活用することでこれらの問題に 対処する.GPMではテクスチャ内の自己相似要素間の対応 を見つけることにより,効率的に格子推定ができる. (1)画像内に存在する特徴点を繰り返し検出する. (2)GPMより見つけたk近似を復元することにより,問パッチセンタリングをランダム に選出し,格子の基礎を作成する. (3)格子基底提案の原点を中心パッチに初期化されたテクスチャの外観テンプレー トを構築し,格子を形成する. 以下に提案手法の概要を示す. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/ Liu_PatchMatch-Based_Automatic_Lattice_ICCV_2015_paper.pdf
  • 19. 結果 ・Set AにおけるParkらの手法と提案手法の比較を図右図に示す.Set Aは Symmetry Detection from RealWorld Images Competition 2013のデータセット を使用している. ・Set BにおけるParkらの手法と提案手法の比較を図右下図に示す.Set B は PSU near-regular texture databaseにあ るNRT data setを使用している. ・表1にParkらの手法と提案手法の格子検出結果n比較を,表2に格子局在化にお ける比較を示す.表1,2の[15]はParkらが提案した手法である.
 

  • 20. Hyeokhyen Kwon, Yu-Wing Tai, “RGB-Guided Hyperspectral Image Upsampling”, in ICCV 2015 【18】 Keywords: Hyperspectral imaging, Upsampling, Sparse coding, Remote-sensing 新規性・差分 手法 結果 概要 ・本稿本稿ではハイパースペクトル画像の解像度上げ,アップ サンプリングするためのアルゴリズムを提案する. ・提案手法は2段階のアルゴリズムで構成されている.第一段 階では,高解像度RGB画像から誘導するのに使われている1 ピクセル以内のとき,混ざっていないハイスペクトル観測解法 の代理を見積もる.第二段階では,シーンの局所領域内で限 られた材料の仮定に基づいてプロキシ・ソリューションのスペ クトルを洗練する. ・提案手法の概要を以下に示す. ・Cave datasetを使用したときの提案手法と従来手法の比較を下図に示す. Links 論文 http://www.cv-foundation.org/ openaccess/ content_iccv_2015/papers/ Kwon_RGB- Guided_Hyperspectral_Image_IC CV_2015_paper.pdf 著者 https://sites.google.com/site/ hyeokhyenkwon/
  • 21. Mahyar Najibi, Mohammad Rastegari, Larry S. Davis, “G-CNN: An Iterative Grid Based Object Detector”, in CVPR, 2016. 【19】 Keywords: object detection 新規性・差分 手法 結果 概要 ・新しい物体検出手法を提案 ・Fast R-CNN + Selective Searchより高速だが概ね同程度の 性能を出すことができることを実験で示す ・新しい物体検出のパイプラインを提案 ・画像が入力されたらグリッドを切り、物体の候補領域とする ・現在の候補領域に関して物体のスコアの算出とBBoxの位置の 回帰を行い、各候補領域の位置の修正を行う。この際に一気に BBoxの位置を更新するのではなく、NNによって提示された更新 量を残りの更新回数で割った値を現在のBBoxの位置に足し込ん でいく。 ・右図がiterativeにboxを更新して いった場合の結果の例 ・Fast R-CNN+Selective Searchより も高速だが概ね同程度の性能を出 すことに成功している ・VOC 07においてはFaster R-CNN と比較すると劣りそう ・クラス数が多いとどうなるかが疑 問 Links 論文 http://arxiv.org/pdf/1512.07729v2.pdf プロジェクト http://www.umiacs.umd.edu/~najibi/GCNN.html
  • 22. Ali Borji, Saeed Izadi, Laurent Itti, “iLab-20M: A large-scale controlled object dataset to investigate deep learning”, in CVPR, 2016. 【20】 Keywords: Large-Scale DB, Object Recognition 新規性・差分 データセット 結果 概要 制限された環境下で物体認識のデータセットを作成すること で,(1) CNNの層を適応的に使用することができ,(2) ある物体 の学習結果を他のタスクに容易に転移可能,(3) システマチッ クかつランダム性を考慮した学習,(4) 自然なシーンからのドメ イン変換 ,(5) CNNに対して知識を拡張できるといったメリット がある. ・ImageNetのようにデータセット内にラベル付けされた画像が膨 大に存在するのではなく,位置・姿勢・スケール・照明・遮蔽な ど微小に調整しバリエーションを持たせた方がCNNを学習する 際にパラメータを調整しやすい iLab-20Mデータセットはターンテーブル やロボットアームにより撮影される(右 図).対象物体はToy Carsである.位置 の変動,回転,物体のバリエーションや 影,多数の背景など環境を変動させて 画像を撮影.8種の角度,11のカメラ アーチ,5種の照明,3種の背景など多 様な環境(1つのインスタンスに対して 8x11x5x3=1320画像)を作り出すことが できる. Selectivity and Invariance, Knowledge transfer, Systematic and random sampling, Domain adaptation, Analysis of parameter learning orderなど5つのタスクについて 調べた. 得られた知見としては例えば,照明やカメラ,回転などを推定する際には全結合層 を用いるよりもプーリング層を使った方が効果的であること,カテゴリ(e.g. boat, bus)など概念を分割する際にはネットワークに対してFine- tuningを施した全結合 層を用いた方が良いことなどを示した.ランダムサンプリングを行うことで,より効 果的にインスタンスレベルの分散を取得可能なことが判明した. Links 論文 http://crcv.ucf.edu/papers/cvpr2016/Borji_CVPR2016.pdf プロジェクト
  • 24. Ke Li, Bharath Hariharan, Jitendra Malik, “Iterative Instance Segmentation”, in CVPR, 2016. 【21】 Keywords: Semantic Segmentation, Instance Segment 新規性・差分 手法 結果 概要 構造化されたモデルをセマンティックセグメンテーションに組入 れることは実用的であるが,人間が拘束を与えるのは得策で はない.これを本論文では拘束を与えずに,かつ形状の事前 確率を推定する. ・下図のようにセグメンテーションを実行するCNNにより繰り返 し処理.繰り返すたびに詳細のセグメンテーションが改良され る. Implicitな形状に対してのピクセルごとのラベリング(Semantic Segmentation)は非 常に困難な課題と位置付けられているが,Auto-context [Tu+, TPAMI10]や Iterative Error Feedback (IEF) [Carreira+, arXiv15]のような繰り返し最適化にイン スパイアされている.下図が提案手法のフロー図であり,セグメンテーションを行う CNNにより出力された画像をさらにセグメンテーションを行うCNNに繰り返し入力す ることで結果を良好にしていく. なお,ここでの戦略はSimultaneous Detection and Segmentation (SDS; セグメン テーションのマスクやインスタンスを検出結果から得ること) => Non-Maximum Suppression (NMS) => Binarizationを行い,最終的なセグメンテーション結果を得 る.パラメータとして,入力画像は224x224[pixels], 出力画像は50x50[pixels],CNN アーキテクチャにはVGG-16を用いた. 最終的にはmAPが50%の オクルージョン時には 63.6%,70%のオクルージョ ン発生時にも43.3%にてセ マンティックセグメンテー ションを行うことに成功し た.なお,これは現在の state-of-the-artである. Links 論文 http://arxiv.org/pdf/1511.08498v2.pdf プロジェクト
  • 25. Shengcai Liao, Stan Z. Li, “Efficient PSD Constrained Asymmetric Metric Learning for Person Re- identification” in ICCV, 2015 【22】 Keywords:PSD, Person Re-Identification, 新規性・差分 手法 結果 概要 .現在の人物再同定には, メトリック学習が適している.本論文 の目的はメトリック学習の問題点となる計算処理能力を改善す る方法を述べる. ・従来手法 従来ではマハラノビス距離を用いて, 人物認識を広く使われて いるが, PSD制約は計算処理が多く, 時間がかかってしまう. ・提案手法 本手法はPSD制約をスムーズに計算処理する正則を提案す る. ・APGを用いた式を用いて, PSD制約の問題点である計算処理能力を解決する. . 従来の手法と提案した手法を 比較した結果, 提案した手法 のほうが認識率が一番高く出 た. Links 論文 http://goo.gl/1RX3A6
  • 26. Albert Haque, Alexandre Alahi, Li Fei-Fei, “Attention in the Dark: A Recurrent Attention Model for Person Identification”, in CVPR, 2016. 【23】 Keywords: Person Identification,CNN,RNN 新規性・差分 手法 結果 概要 ・RGB情報が存在しない暗闇環境において人物識別を行うため のattention-baseの人体形状と運動力学に基づいたモデル生 成法を提案.4次元の特徴空間から固有の運動を学習する. CNNとRNNの組み合わせで各人らしさを表す小領域を同定. ・Depth情報のみを使ったモデルのため,夜間においての人物 識別の実現への期待ができる.従来研究と異なりmetric learingを使っていない.Depth画像の公開データセットでstate- of-the-artな精度を達成. ・4次元の特徴はCNNにとって辛いので,Glimse layerはダウンサンプリング, Encoder layerでさらに次元削減が行われる.核となるRAMの段階では時空間上で の学習が行われる. recurrent attention model(RAM)とオフラインの並列で学習を行う. Links 論文 http://web.stanford.edu/~alahi/downloads/CVPR16_id.pdf ・2,3,4次元それぞれの入力に対し提案手 法は下表のように,最先端手法と比較し ても高いと言える精度を達成.
  • 27. Gedas Bertasius, Jianbo Shi, Lorenzo Torresani, “Semantic Segmentation with Boundary Neural Fields”, in CVPR, 2016. 【24】 Keywords: Semantic Segmentation 新規性・差分 手法 結果 概要 Fully Convolutional Networks (FCN)に見られるようなセマン ティックセグメンテーションの精度を改善するために,Boundary Neural Field (BNF)を構造内に取り入れ,境界の手がかりを与 えた上でタスクをこなす手法を提案する. 現在,セマンティックセグメンテーションの最先端手法はFully Convolutional Networks (FCNs)であるが,大規模な受容野 (receptive layer)やプーリング層のためにブラーや低解像なセ グメンテーションが目立つ.そのため,境界情報をFCN内に取り 入れ,主に境界付近の精度を向上することでセマンティックセ グメンテーションの結果を改善. 下の図はFCNやBNFによるセマンティックセグメンテーションの概略図である.FCN の出力結果や中間層の特徴マップから抜き出した特徴を用いて境界推定を行う (BNF).FCNやBNFにより得られた画像を大域的に最適化して得られたマップが, 最終的なセマンティックセグメンテーションの結果. データセットとしてはセマンティッ クセグメンテーションのタスクでよ く用いられるSBDデータセットを 用いた.表は複数の推定手法を 用いた比較であるが,提案の BNFを用いるのがもっとも高精度 に推定できたと主張. Links 論文 http://arxiv.org/pdf/1511.02674v1.pdf プロジェクト ここでは,FCNの出力をUnary Potential,境界情報との組み合わ せをPairwise Potentialとして最適 化.
  • 28. Xiaodan Liang, Chunyan Xu, Xiaohui Shen, Jianchao Yang, Si Liu, Jinhui Tang, Liang Lin, Shuicheng Yan “Learning Visual Clothing Style with Heterogeneous Dyadic Co-occurrences”, in ICCV, 2015. 【25】 新規性・差分 結果 概要 human parsingのためのコンテキスト(画像全体のlabel)を用いたCNNアーキテクチャであるCo-CNNを提案 PDF : http://www.cv-foundation.org/openaccess/ content_iccv_2015/papers/ Liang_Human_Parsing_With_ICCV_2015_paper.pdf Keywords : Human Parsing, Fully Convolutional Network, Context Modeling, Semantic Labeling 手法 Links  2種類の公開データセット()において,2種類の既存手 法との比較実験を行った.実験結果より,従来手法での F値は62.81% ,64.38%であったのに対しCo-CNNでは 76.95%に達した 1. 入力画像より4種類の解像度で特徴マップを生成し,特徴マップをアップサンプリングす   る.同一の解像度における特徴マップは,交差レイヤでのコンテキストを取得するために 細 かい層と粗い層で組み合わせる(青の破線と青丸の+). 2. 画像全体のラベルを予測するために,補助としてダウンサンプリングされた特徴ベクト   ルの後ろに二乗損失を付け足す(緑の実線) 3. 画像ラベルの予測確率はアップサンプリングしたあと次の層に組み合わされ,画素単位  のラベルを予測するための重みとして使用される(緑丸の+) ※ 下図ではアップサンプリング,ダウンサンプリング,softmax層のみ.中間層は省略. 複数のコンテキスト(画像全体からsuper-pixel)を階層的に統合アーキテクチャによって,画素ごとのラベル付けの精度が向上
  • 29. Hyun Soo Park, Jyh-Jing Hwang, Yedong Niu, Jianbo Shi, “Egocentric Future Localization”, in CVPR, 2016. 【26】 Keywords: Egocentric Vision, Prediction 手法 結果 概要 一人称ビジョンからの歩行経路推定を行う.頭部に装着したステ レオカメラから距離画像(正確にはEgoRetinal map)を復元,周辺 環境を認識して障害物を避けるようにかつ現在のエゴモーション から数秒後に取るべき経路を予測する. 一人称ビジョンからのWalking Affordance (歩けるかどうか)を考慮したEgo Retinal mapを生成する.同マップは頭部に装着したステレオカメラより前方を撮影し,距離 画像を計算したものである.ここから,(1) 地平面を推定し,(2) 頭部の動作から歩 いている方向を推定,(3) 建物や歩行者など障害物情報から避けるべき位置を推 定して「歩くであろう」軌道を推定する. 下図(a)はEgoRetinal mapからの地平面推定を行い,距離推定をしている様子であ る.(b)は軌道の仮説をプロットし,マップから最適な経路を予測した結果である. 表は定量的な評価であり,予測結果とGroundTruthとの誤差をmeterを示した結果 である.EgoRetinal mapを用い,CNN特徴量を取得した提案手法が最も誤差が低 かったといえる.定性的評価についても論文中の図やビデオにて表示されている. Links 論文 http://www.seas.upenn.edu/~hypar/ FutureLocalization_CVPR2016.pdf プロジェクト http://www.seas.upenn.edu/~hypar/future_loc.html ビデオ https://www.youtube.com/watch?v=0YY3aBX0GTQ
  • 30. Vignesh Ramanathan, Jonathan Huang, Sami Abu-El-Haija, Alexander Gorban, Kevin Murphy, Li Fei-Fei, “Detecting events and key actors in multi-person videos”, in CVPR, 2016. 【27】 Keywords:Detecting Events, Events Classification, multi person videos 新規性・差分 手法 結果 概要 複数の人物が写っている動画内でのイベント検出・分類および 重要な人物の決定する手法の提案 データセットの構築 ・アノテーションの学習なし でキーパーソンの識別が 可能 本稿の手法は,(1)特徴抽出,(2)イベント分類,(3)注目モデルの決定の3つの項で成 り立つ. (1)RCNN物体検出と同様の方法で,外観から特徴を抽出し,静的なCNN表記のみを 使用する. (2)双方向のLSTMでの全体の背景特徴を計算(左図青枠)し,時刻tでの状態を表現 するために単方向のLSTMを計算する(左図黒枠). (3)注目モデルを決定するうえでの必要条件を満たすBLSTMの表現を学習するモデ ルを構築する. バスケットの3ポイントシュート(成功,失敗),フリースロー(成功,失敗),レ イアップ(成功,失敗),2ポイントシュート(成功,失敗),ダンクシュート(成 功,失敗)のクラス分類,検出を行った結果を右図上および下に示す.他 の手法に比べ,本提案手法が有効であることがわかる. Links 論文 http://arxiv.org/pdf/1511.02917v2.pdf
  • 31. Bowen Zhang, Limin Wang, Zhe Wang, Yu Qiao, Hanli Wang, “Real-time Action Recognition with Enhanced Motion Vector CNNs”, in CVPR, 2016. 【28】 Keywords: The deep two-stream architecture, Real-time , Action Recognition 新規性・差分 手法 結果 概要 The deep two-stream architecture[1]のオプティカルフローの 処理を高速にする手法 The deep two-stream architectureのリアルタイム性を向上. オリジナルのThe deep two-stream architectureより約27倍早い 提案手法の構成を上図に示す. また本稿での手法の概要を以下に示す. (1)Motion Voctor CNNの初期化を行う (2)Opitical Flow CNNのFC層で得られた表現をMV CNNに学習させる. (3)(1)と(2)を組み合わせ,MV CNNの汎用性を向上させる. UCF101,THUMOS 14 datasetでの精度比較実験結果を右上図,左上 図に示す. またUCF101,THUMOS 14 datasetでの処理時間の比較実験結果を 右下図,左下図に示す. 以上より,提案手法はThe deep two-stream architectureの認識性能 の大幅な向上および,大幅な高速化をすることができる. Links [1] https://papers.nips.cc/paper/5353-two-stream-convolutional- networks-for-action-recognition-in-videos.pdf 論文 http://wanglimin.github.io/papers/ZhangWWQW_CVPR16.pdf
  • 32. Bharat Singh, Tim K. Marks, Michael Jones, Oncel Tuzel, Ming Shao, “A Multi-Stream Bi-Directional Recurrent Neural Network for Fine-Grained Action Detection”, in CVPR, 2016. 【29】 Keywords: Recurrent Newral Network, Fine-Grained Action Detection, 新規性・差分 手法 結果 概要 微小動作を検出するための双方向RNNの提案 ・長時間の動画内で,微小動作の検出 ・フルフレームと人物中心の動画から外観情報と  動作特徴を抽出し,学習するMulti-Stream   Network フレームワークの概要を右図上に示す.右図下はフレームワーク 内のMSN部の概要を示す.また以下に手法の概要を示す. (1)VGG architecture[1]に基づき,CNNの学習を行う.動画は6フ レーム毎に1チャンクとし,MSNに入力する. (2)右図下に示すように,フルフレームおよび人物中心の動画から RGBの変化とピクセル軌道変化での特徴を取得し,学習する.4つ の情報の出力を結合し,学習する. (3)学習データを双方向LSTMに出力し,LSTMによって行動を予測 する. MPII Cooking 2 datasetでの比較実験結果を右図に示す.(mAP = mean average precision) またMPII Cooking 2 and Shopping datasetにおける,Two-Stream ネットワークと Multi-Stream ネットワーク(提案手法)の比較実験結果を以下に示す. いずれにおいても提案手法であるMulti-Stream Bi-Directional Recurrent Neural Network(MSB-RNN)が優れている. Links 論文 http://www.cs.umd.edu/~bharat/ cvpr2016.pdf [1]http://arxiv.org/pdf/1409.1556v6.pdf
  • 33. Mostafa S. Ibrahim, Srikanth Muralidharan, Zhiwei Deng, Arash Vahdat, Greg Mori, “A Hierarchical Deep Temporal Model for Group Activity Recognition”, in CVPRl, 2016. 【30】 Keywords: Group Activity Recognition, Recurrent Newral Network, 新規性・差分 手法 結果 概要 集団行動認識において,LSTMモデルに基づいた個人の行動 のダイナミクスを取得するdeep modelの設計,2段階のdeep temporal modelの提案 2段階のLSTMを設けることで,フレーム全体での各個人の行動 を認識 上図にフレームワークを示す, (1)第1層で各個人の行動を認識 (2)(1)で認識した全ての人の特徴をプーリング (3)(2)のプーリング層での出力を第2層に入力し,フレーム全体での行動を認識 Collective Activity Datasetを用いた,提案手法と基本的な 手法での比較実験結果を右図上段,先行研究と提案手法 の比較実験結果を下図に示す. また,volleyball datasetを用いた,提案手法と基本的な手法 での比較実験結果を右図下段に示す. Links 論文 http://arxiv.org/pdf/ 1511.06040v2.pdf
  • 34. Yongxi Lu, Tara Javidi, Svetlana Laebnik, “Adaptive Object Detection Using Adjacency and Zoom Prediction”, in CVPR, 2016. 【31】 Keywords: Adaptive Object Detection 新規性・差分 手法 結果 概要 隣接/ズームなどサブ領域を利用して効率よく(候補領域を指定 して)物体を検出する方法を提案.スパースかつ微小でも物体 のインスタンスを探索可能とした. Faster R-CNNでは2400ものボックスを探索することで画像を全 探索していたが,提案のAdjacency and Zoom Network (AZ- Net)では領域を区切って適応的な探索を試みた. Faster R-CNNをベースとしているが,異なる点は候補領域の抽出を適応的にした 点である.左下図のように与えられた領域を5つに分割して隣接領域の移動や ズームを適応的に行う.その後は右下図のようなネットワーク構造で識別を実施す る. 下図はPASCAL VOC 2007における物体検出の結果である.AZ-Netは70.4%と Faster/Fast R-CNNよりも高い精度での検出に成功した.また,候補領域の抽出 に関しても,Faster R-CNNのRegion Proposal Network (RPN)と比較した結果,AZ- NetのTop-300のRecall Rateの方が良好な性能を示した. Links 論文 http://arxiv.org/abs/1512.07711 コード https://github.com/luyongxi/az-net
  • 35. Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, “SSD: Single Shot MultiBox Detector”, in arxiv pre-print 1512.02325, 2015. 【32】 Keywords: Object Detection 新規性・差分 手法 結果 概要 Single Shot Multibox Detector (SSD)と名付けられた手法は複 数のアスペクト比やスケールからのスコアやオフセットを評価す ることにより物体検出を実行することができる.なお,SSDは非 常に高速な手法で,かつ精度面でもComparableな手法である. ・YOLOやFaster R-CNNよりも高速かつ正確に物体検出を実行 する ・学習に必要なのは画像とその物体位置のみで,カテゴリスコ アやbboxのオフセット,検出結果を出力 ・シンプルなend-to-endモデルで学習が簡単,比較的低解像な 画像においても検出を実現 ・学習に必要なのは画像とGroundTruthのbboxである(下図(a)).畳み込みの際に は複数のスケールやアスペクト比のパッチを周辺から抽出し(下図(b)),さらには特 徴マップも複数の階層にて評価を行う(下図(b), (c)).各bboxでは物体へのオフセッ トや物体のスコアを評価する.損失関数にはWeighted Sum Between Location LossやSoftmaxが用いられた.ネットワークにはVGGを適用したが,全結合パラ メータ数を削減したものが適用された.HardNegative Miningやデータ拡張などのテ クニックも使用されている. PASCAL VOC, MS COCO, ILSVRCにお ける物体検出タスクにてComparableな精 度を記録した.300x300 [pixels]の入力に 対してSSDは58fps (NVIDIA Titan X使用 時@PASCAL VOC 2007),72.1%,500x500 [pixles]の際には75.1%を記録.これは, Faster R-CNNの精度よりも高い. Links 論文 http://arxiv.org/abs/1512.02325 GitHubコード https://github.com/weiliu89/caffe/tree/ssd 著者 http://www.dumitru.ca/
  • 36. Gedas Bertasius, Jianbo Shi, Lorenzo Torresani, “AHigh-for-Low and Low-for-High: Efficient Boundary Detection from Deep Object Features and its Applications to High-Level Vision”, in ICCV, 2015. 【33】 Keywords: Boundary detection, CNN 新規性・差分 手法 結果 概要 ・CV界では境界の検出はlow-levelな問題とされるが,人間の 知覚はそれらを最重要視しており,その知見は活かすべきもの と言え,色や勾配のみを頼りにしているのでは不足である. 物体認識のために訓練されたVGGnetを上手く利用すること で,より正確な境界を効果的に検出するたけでなく,その境界 に対して意味的な解釈を加えることができる. ・VGGnetなどのCNNは一般物体を分類するタスクに利用され るが,エッジ検出においても優れた性能を発揮することができ ることを示した.またそのようなCNNを利用して検出したエッジ により,人間のような画像の意味的理解がある程度可能である と示した. ・まず計算コスト削減のため,エッジ候補点をSE edge detectorで検出する.それ を16層のVGGnetに入力し,エッジ検出のための空間情報を保存するため全結合 層は利用しない.各特徴マップで次元が異なるため候補点がぴったり定まらない ため,活性化値を4近傍の平均でとっておくと,ひとつのエッジ候補点について 5504次元のベクトルが得られる. それらを2層の全結合層に入れて, 境界線の予測を得る. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/Bertasius_High-for-Low_and_Low-for- High_ICCV_2015_paper.pdf ・従来手法より良好なエッジを 検出(左下). 提案手法で得られたエッジと 最新手法を組み合わせること で,意味的解釈に踏み込んだ high_levelなCVタスクでも優れ た結果が得られることを示し た.(右下)
  • 37. Konstantinos Rapantzikos, Yannis Avrithis, Stefanos Kollias, “Dense saliency-based spatiotemporal feature points for action recognition”, in CVPR, 2009. 【34】 Keywords: Action Recognition 新規性・差分 手法 結果 概要 動画内の顕著性が見られる領域にて特徴点検出や特徴記述 を行い,行動認識のためのベクトルを構成する.空間的かつ時 系列的な情報を用いて,顕著性を参照しながら行動を認識す る. 直感的には,時系列の顕著性マップから時系列特徴点や特徴 量を取得,コードワード化していると解釈できる. ・時系列情報を観察しながら顕著性マップを生成,さらにはマッ プを参照しながら行動認識のための特徴とする 複数スケールの画像から特徴を抽出する.顕著性マップのための制約として,(a) 特徴内(図中緑の矢印) (b) スケール間,ボクセル間の情報 (図中青矢印) (c) 特徴 間の類似度 (図中赤矢印)を参照して最適化. 得られた顕著性は図中の右の通りである.  KTHデータセットにて88.30%を達成し た.CuoidsやST-Harris Detectorなどと 比較しても高い精度を達成した.顕著 性ベースの特徴点抽出が有効であるこ とを示した. Links 論文 https://www.google.co.jp/url? sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=0ahUKEwjgn7CMp NPMAhVGn5QKHQv2B18QFggqMAE&url=http%3A%2F %2Fwww.image.ece.ntua.gr%2Fphp%2Fsavepaper.php%3Fid %3D581&usg=AFQjCNHk7x- OQxtNe2a5KxhAqJpZ_lbtVg&sig2=PwRTwK4a_9NrL4JjNvn6uw プロジェクト
  • 38. Jiang Wang, Yi Yang, Junhua Mao, Zhiheng Huang, Chang Huang, Wei Xu, “CNN-RNN: A Unified Framework for Multi-label Image Classification”, in CVPR, 2016. 【35】 Keywords: Multi-label Image Classification, convolutional neural network, recurrent neural network 新規性・差分 手法 結果 概要 画像中の物体のラベルとその関連性を学習するCNN-RNNフ レームワークの提案 CNNとRNNを統一したフレームワーク RNN-CNNフレームワークの概要を右図 に示す. RNN-CNNフレームワークでは,ラベル の関係性と依存性の特徴付けをおこなう ためにJoint Embedding Spaceという空 間の学習を行う. 赤点はラベル,青点は入力画像,黒点 は入力画像とrecurrent newronの出力 の合計を示す. 順次,recurrent newronのラベルをJoint Embedding Spaceに入力し,リンクさせる ことでラベルの依存関係をモデル化す る. 実験結果を以下(1)〜(4)に示す. (1)はNUS-WIDE Dataseon 81 conceptsでk=3のときの比較結果 (2) NUS-WIDE Dataset on 1000 tagsでk=10のときの比較結果 (3)MS-COCO Datasetでk=3のときの比較結果 (4)PASCAL VOC 2007 datasetでの分類結果の比較 を示す. Links 論文 http://arxiv.org/pdf/1604.04573v1 (1) (2) (3) (4)
  • 39. Hyun Soo Park, Jyh-Jing Hwang, Yedong Niu, Jianbo Shi, “Force from Motion: Decoding Physical Sensation from a First Person Video”, in CVPR, 2016. (oral) 【36】 Keywords: Force Recognition, First Person Vision 新規性・差分 手法 結果 概要 一人称ビジョンからの各種情報の表示を行う.論文中では自転 車やスキーからの「重力のかかり具合の推定」「スピードや空 間などの物理量」「ペダルやブレーキの行動検出」を行うものと する.詳細はビデオ参照. 従来では困難であった(身体にかかる)重力向きの方向や物理 的なスピードなどを推定することに成功した(下図). 重力方向 (3D Gravity Direction)はStructure from Motionより抽出する. 下図が本稿で用いたモデルである.物理量は下図のモデルを参考に推定される. GoProからの映像により評価を行った.自転車やスキーのシーンにて実験を行っ た.重力の推定にはCNNやカメラ方向の推定を行い、Y軸向き・Y軸MLEなどにより 評価した.その平均の誤差は2.7度であった. Links 論文 http://www.seas.upenn.edu/~hypar/ForceFromMotion_CVPR16.pdf プロジェクト http://www.seas.upenn.edu/~hypar/ffm.html ビデオ https://www.youtube.com/watch?v=4YURe6PCF6E
  • 40. Xiaofan Zhang, Feng Zhou, Yuanqing Lin, Shaoting Zhang, “Embedding Label Structures for Fine-Grained Feature Representation”, in CVPR, 2016. 【37】 Keywords: Fine-Grained Feature Representation, Convolutional Newral Network 新規性・差分 手法 結果 概要 微小な特徴表現法を学習するフレームワークの提案 損失項から微小な特徴表現法と分類器を取得 フレームワークを上図に示す. 本フレームワークでは,リファレンスイメージ,ネガティブイメージ,ポジティブイメー ジの3項を抽出し,Parameters Sharing CNN層に入力する. CNN内での以上の3項の損失項とソフトマックスでの損失項を最適化することによ り,微小な特徴表現法と分類器を得る. (1)Stanford car datasetでの比較実験結果 (2)much larger car datasetでの比較実験結果 (3)food datasetでの比較実験結果 を示す. Links 論文 http://arxiv.org/pdf/ 1512.02895v2.pdf (1) (2) (3)
  • 41. Relja Arandjelovic, Petr Gronat, Akihiko Torii, Tomas Pajdla, Josef Sivic, “NetVLAD: CNN architecture for weakly supervised place recognition”, in CVPR, 2016. 【38】 Keywords: NetVLAD, CNN, Codeword 新規性・差分 手法 結果 概要 深層学習CNNとコードワード表現であるVLADを用いた位置推 定.昼/夜,拡大/縮小のような劇的な変化があったとしても シーン認識ベースの位置特定を行うことができる. ・End-to-endのCNNモデルに追加して,VLAD (Vector of Locally Aggregated Descriptors) layerを付け加えることに成功 した ・弱教師あり学習に基づくRanking Lossの最適化を行った.特 に,Google Street Viewにあるような画像を学習サンプルとして 最適化を行った ・Off-the-shelf CNNなどといった従来型のモデルよりも高い精 度で位置推定を行うことができた CNNの畳み込みやプーリング特徴量をそのままVLADによるコードワード表現がで きるようにした.CNNのあとにNetVLAD layerを追加することにより,これらの枠組 みは誤差逆伝播法により最適化される. 下図が4つのデータセット(Pitts250k-test, TokyoTM-val, Tokyo24/7 all queries, Tokyo 24/7 sunset/night)に対するグラフである.例えばPitts250kデータセットでは Off-the-shelf CNNで55.0%だった精度が提案手法では81.0%@top-1という精度を達 成した. Links 論文 http://arxiv.org/pdf/1511.07247v3.pdf プロジェクト http://www.di.ens.fr/willow/research/netvlad/ コード https://github.com/Relja/netvlad
  • 42. Khurram Soomro, Amir Roshan Zamir, Mubarak Shah, “UCF101: A Dataset of 101 Human Actions Classes From Videos in the Wild”, in arXiv pre-print 1212.0402, 2012. & “THUMOS: The First International Workshop on Action Recognition with a Large Number of Classes”, in ICCVW, 2013 【39】 Keywords: Action Recognition, UCF101 新規性・差分 データセット 結果 概要 大規模な行動認識データセットであるUCF101の提案論文&そ のコンペティションであるTHUMOSf2013.101クラスの行動が約 13,000の動画に収められている. 行動の数や,そのバリエーションをそれまでのデータセッ トから大幅に拡張したことで知られている.同時に,大規 模行動認識や行動検出のコンペティションである THUMOSを開催することで大規模データにおける行動認 識の技術向上に貢献している.2013~2015はTHUMOSと いう名前で開催されたが,2016年からはActivityNet Challengeとなりさらにデータの大規模化が進んでいる. データセットは101の行動クラス,13,320のビデオクリップ,総計27時間ものビデオ から構成される.すべてのビデオはYouTubeからクリッピングされている.行動クラ スは下図に示すようなものであり,そのすべては論文中に記述されている(UCF50 の拡張版であり,ほとんどがスポーツ映像により構成される).画像サイズは 320x240[pixels],フレームレートは25fps,ビデオの長さは1.06 ~ 71.04 [seconds] (平均 7.21 seconds)である.1グループごとに4~7動画が含まれており,計25グルー プが存在する.トレーニング/テストサンプルは予め指定されており,ビデオごとに 信頼度を計算して推定結果を出力する. THUMOS’13ではWangらのImproved Dense Trajectories (IDT)が85.9%で勝者とな り,以降この数字がベースラインとなった.2016年現在の最先端手法ではUCF101 データセットにて92~93%くらいまで伸びている.東大原田研大西氏のTDD+CPD (https://arxiv.org/pdf/1604.08826v1.pdf)では92.3%を記録した. Links 論文 https://arxiv.org/pdf/1212.0402v1.pdf プロジェクト http://crcv.ucf.edu/data/UCF101.php コンペティション http://crcv.ucf.edu/ICCV13-Action-Workshop/ 評価 http://crcv.ucf.edu/ICCV13-Action-Workshop/index.files/ Competition_Track_Evaluation.pdf ActivityNet Challenge http://activity-net.org/challenges/2016/
  • 43. Katsunori Ohnishi, Masatoshi Hidaka, Tatsuya Harada, “Improved Dense Trajectory with Cross Streams”, in arXiv pre-print 1604.08826, 2016. 【40】 Keywords: Cross Stream Pooled Descriptors (CPD), IDT, TDD 手法 結果 概要 行動認識のタスクに対してImproved Dense Trajectories (IDT) は非常に効果的なアプローチであるが,背景の除去は困難で あった.一方で,CNNを用いた時系列・空間表現であるTwo- stream Approachは強力な特徴表現ができる一方で注目すべ き領域を適切に評価できているわけではないという問題が生じ ている.この問題を解決すべく,本論文では注目すべき行動領 域の重みを高くする,またIDTやCNNを行動領域にて適切に表 現できるような仕組みを提案する.下図は(時系列)畳み込み マップの情報やIDTを画像に投影した際の可視化例である. IDTでは背景の除去が難しく,CNNでは重要部分のみの評価は 困難であることから,提案手法ではRGB/Optical Flowを交差し て重みの共有やプーリングの実行をするCross-Stream Pooled Descriptors (CPD)を提案する. TDDやCPD統合の仕組み (TDD+CPD)を下図に示す. 基本的なアイディアは空間的/時系列的に重要な領域の強調かつ特徴抽出であ り,下図のように空間/時間的に重みを共有し,クロスでプーリングを実行すること でこの仕組みを実現する. HMDB51やUCF101に対して評価を行う. ベースとなるアーキテクチャにはVGG16を適 用,conv3_3, 4_3, 5_3の畳み込みマップを使 用した.各層からの出力はSVMの値により 統合する.コードワードには最終的にVLAD を採用した.HMDB51では66.2% (comparable), UCF101では92.3% (state-of- the-art)と良好な精度を達成. 論文 https://arxiv.org/pdf/1604.08826v1.pdf CrossStream Pre-trained Model https://drive.google.com/folderview? id=0B7Loi-7ye3pPcUwzSVhwek9mQkU&usp=sharing Links
  • 44. Keywords: Weakly supervised, semantic segmentation Re-idの既存手法では,トレーニングサンプルの特徴の次元がはるか に少ないと,サンプルサイズが小さい(SSS)という問題に直面してしま い,次元圧縮技術や正則行列に頼る必要が有り,これでは識別力の 損失に繋がってしまっていた. この研究では,人マッチングの中の特徴的な0空間のトレーニン グデータにより,Re-ID距離メトリック学習におけるSSSの問題を 解決する手法について提案している. Null空間を学習することで,元の高次元の特徴ベクトルを低次元へと投影し て学習することができる.Re-idは,学習した判別Null空間の二つの投影ベクト ルのユークリッド距離を計算することで実現できる. 学習したnull Foley-Sammon transform (NFST) spaceはFoley-Sammon transform (FST)として知られており,linear discriminant analysis (LDA)にも密 接に関係している.FSTの目的は,示されている各列が,フィッシャー判別基 準を最大化する最適な判別方向となるように,投影行列を学ぶことである. 本研究では,従来の教師有学習のアプローチ+null Foley-Sammon transfer (NFST)を利用し,パラメータチューニングの必要がない手法を提案している. さらに,Semi教師学習の設定に,Full教師Null空間モデルを拡張する.Semi教 師有りRe-idの問題として,トレーニングデータが不足する問題を潜在的な影 響力を集めることで克服する.本研究では,辞書学習ベース手法に対して新 たなSemi教師有Null空間モデルを比較している. 貢献 (1)Metric LearningベースでのRe-id方法で生じる,SSS問題への解決策を提案した. (2)Training Dataの判別ヌル空間を学習することにより,Re-idのSSS問題を克服する. (3)SSS問題の影響を軽減するために豊富なラベルが付いていないデータを有効に用い るnovel semi-supervised learning methodを開発. Li Zhang, Tao Xiang, Shaogang Gong, “ Learning a Discriminative Null Space for Person Re-identification”, in CVPR, 2016. 【41】 論文ページ : http://arxiv.org/pdf/1603.02139.pdf 次ページに示す. 概要 新規性・差分 Links 手法 結果
  • 46. フレームワークの概要を上図に示す. 本フレームワークは, Spatio Temporal Interest Pointsを使用して,トリミング動画 から行動の特徴抽出を行い,学習する. 動画中から行動の候補のセットを生成し,その候補のランク付けを行うことで行動 提案を行う. Fabian Caba Heilbron, Juan Carlos Niebles, Bernard Ghanem, “Fast Temporal Activity Proposals for Efficient Detection of Human Actions in Untrimmed Videos”, in CVPR, 2016. 【42】 Keywords: activity proposal, Human Action, 新規性・差分 手法 結果 概要 行動の特徴表現方法を学習し,動画中の人物の高速で行動提 案を行うフレームワークの提案 動画内で同一の行動が行われた時間を検索でき ,高速で精度の高い行動提案を行う (1)はThumos14 datasetでの処理時間の比較実験結果 (2)はThumos14における最新の研究との比較結果 (3)はMSR-IIとThumos14でのMAP検出結果の比較 Links 論文 https://ivul.kaust.edu.sa/Documents/Publications/2016/Fast %20Temporal%20Activity%20Proposals%20for%20Efficient %20Detection%20of%20Human%20Actions%20in%20Untrimmed %20Videos.pdf (1) (2) (3)
  • 47. Yang Wang, Minh Hoai, “Improving Human Action Recognition by Non-action Classification”, in CVPR, 2016. 【43】 Keywords: Action Recognition, Non-action Classification 新規性・差分 手法 結果 概要 行動認識精度を向上させる Non-action 分類器の提案 動画中の人物が行動を行っていないときの描写をNon-action 分類器によって非行動として分類することで,認識精度を向上 本稿は,人物非行動時の描写を除去することによる認識精度の評価とNon-action 分類器の構築・評価について書かれている.以下Non-action 分類器の構築につ いて記述する. (1)Fisher Vectorを用いたDense TrajectoriesとTwo-stream ConvNet の deep- learned featuresを組み合わせたものを使用し,特徴計算を行う.上図に取得した 特徴量の概要を示す. (2)ActionThread datasetを用いて,最小二乗SVMの学習を行い,Non-action 分類 器とする. (1)Non-action 分類器の使用なし,一部,全てでの比較結果 (2)VideoDarwinとNon-action 分類器を用いたVideoDarwinでの比 較結果 (3)Hollywood2上でNon-action 分類器有無による比較結果 (4)6 unseen actionsでNon-action 分類器有無による比較結果 Links 論文 http://arxiv.org/ pdf/ 1604.06397v2.pdf (1) (2) (3) (4)
  • 48. Limin Wang, Yu Qiao, Xiaoou Tang, Luc Van Gool, “Actionness Estimation Using Hybrid Fully Convolutional Networks”, in CVPR, 2016. 【44】 Keywords: Actionness Estimation, Fully Convolutional Network, two-stream convolutional netwoek 新規性・差分 手法 概要 hybrid fully convolutional network (HFCN)というactionnessの推 定に向けた深層アーキテクチャの提案 アピアランスとモーションに基づいた fully convolutional networkの組み合わせによるactionness推定 アプローチのパイプラインを下図に示す. (1)appearance fully convolutinal network (A-FCN)とmotion fully convolutional network(M-FCN)の組み合わせであるHFCNでactionness を推定 (2)RCNNの行動検出システムのように,推定したactionessを用いてaction proposalを 生成する. (3)action proposalをtwo-stream convolutional networksを用いて,分類する. Links 論文 https://wanglimin.github.io/papers/WangQTV_CVPR16.pdf
  • 49. 結果 (1)Stanford40 と UCF Sports,JHMDBを用いた,提案手法 と先行研究の比較 (2)Stanford 40 (上段) and JHMDB (下段)を用いたaction proposalの評価実験の比較’(赤の実線が提案手法) 比較対象は,L-CORF, Spatio-temporal object detection proposal, objectness, discriminatively trained part-based models, random samplingである (3)JHMDBを用いた,行動検出結果  (1) (2) (3)
  • 50. Jonathan Long, Evan Shelhamer, Trevor Darrell, “Fully Convolutional Networks for Semantic Segmentation”, in CVPR, 2015. 【45】 Keywords: FCN, Semantic Segmentation 新規性・差分 手法 結果 概要 セマンティックセグメンテーションを高度に行うフレームワーク Fully Convolutional Networks (FCN)の提案論文.Caffeで実行 するためのコードもModel Zooにより配布されており,簡易的に 実行可能である. ・物体認識では[入力層] > [畳み込み層] > [全結合層] > [出力 層]で物体ラベルを,物体検出では物体認識に加えて候補領域 を入力することにより物体の位置まで含めてラベルを出力する ことができる.ここでは,セマンティックセグメンテーションのた めに,全結合層にアップサンプリング層を加えて画像としてセ グメンテーション結果を出力できるようにした. 下記にFCNの構造を示す.畳み込み層,全結合層を通り抜けたあと,Upsampling 層 (可視化でよく用いられるDeconvolutionを用いていると説明)を挿入して,物体の 概念(物体ラベル)からさらに画像の復元を行った.アーキテクチャにはAlexNet (39.8%), VGGNet (56.0%), GoogLeNet (42.5%)を試したが,精度の面からVGGNetを 採用した.右図はUpsamplingの際に複数の層のパラメータを統合する手法(Skip Layers)であり,このSkip Layerがセグメンテーションに有効であると位置付けた. 表はPASCAL VOC 2011にFCNを適用した際 の結果である.Skip Layersありの場合 (FCN-16s, -8s)がもっとも高い性能を示した. 特に,全結合層とPool3, Pool4の特徴を用い てセマンティックセグメンテーションを実行する FCN-8sは精度が非常に良かった.自転車の 画像はスキップなし(stride32),1 skip (stride16),2 skip (stride8)の際の結果例であ る. Links 論文 http://www.cs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf スライド https://computing.ece.vt.edu/~f15ece6504/slides/L13_FCN.pdf 著者 http://www.cs.berkeley.edu/~jonlong/ コード https://github.com/BVLC/caffe/wiki/Model-Zoo#fcn
  • 51. M. S. Ryoo, Brandon Rothrock, Larry Matthies, “Pooled Motion Features for First-Person Videos”, in CVPR, 2015. 【46】 Keywords: First Person Vision, Pooled Time Series (PoT) 手法 結果 概要 一人称ビジョンのための新しい特徴表現であるPooled Time Series (PoT)の提案.Improved Dense Trajectories (IDT)と統合 することでさらなる精度の向上に寄与した. 特徴取得のベースとなるのは毎フレームのCNNの全結合層から取り出したベクト ルである.Tフレーム(ここではT=1,000)に及ぶ特徴ベクトルを並べる.Per-frameの CNN特徴(全結合層である第7層を使用),各要素N (=4,096)のTフレームにおける 平均値と最大値,さらには時系列的に隣接する各要素の時系列差分の蓄積を特 徴量とする.直感的には0次 (per-frame),1次(平均&最大値),2次 (時系列差分蓄 積)の特徴統合である. DogCentricやUEC Park dataset に対して実験した結果,いずれ もState-of-the-artな結果を示し た.さらにIDTやSTIP,Cuboid特 徴などとも統合することでより高 い精度を記録した. Links 論文 http://arxiv.org/pdf/1412.6505v2.pdf コード https://github.com/mryoo/pooled_time_series/ 著者 http://michaelryoo.com/
  • 52. M. S. Ryoo, Brandon Rothrock, Charles Fleming, “Privacy-Preserving Egocnetric Activity Recognition from Extreme Low Resolution”, in arXiv pre-print 1604.03196, 2016. 【47】 Keywords: Privacy, Egocentric Action Recognition 新規性・差分 手法 結果 概要 一人称ビジョンを行う際,プライバシーを保護する目的で極限 まで解像度を下げて(16x12 [pixels])人物行動認識を実行した. さらに,映像の解像度を復元するための方法としてInverse Super Resolution (ISR)を提案する.本論文では異なる画像か ら情報を復元することで行動認識の精度を改善する. Inverse Super Resolution (ISR)フレー ムワークの提案があげられる.映像の 識別を実行するために用いられ,実験 的ではあるものの精度が高くなる. 下図が提案手法の概略図である.(左)通常の低解像画像(リサイズなど)では特徴 空間に単一のベクトルを射影するのみであるが,ISRの枠組みでは(意味のある)射 影行列をいくつも保持することにより,低解像であるにもかかわらず特徴表現を リッチにすることができる.低解像画像列 Yは入力画像 X,モーション変換 F,ブ ラーエフェクト H,ダウンサンプリング係数 D,ノイズ Vから構成される(Y = DHFX +V).とくに,VとHを除いた簡略化モデル Y = DFXを用いて,変換行列をMCMCに より最適化する.  データはDogCentric datasetやHMDB datasetをダウン サンプリングして適用した.特徴としてはIDT (Histograms of Pixel Intensities, HOG, HOF), CNNを用いている.識 別にはSVMを用いた.右の表はDogCentric datasetに対 して識別を行った結果である.ベースラインのPoTに対し てISRを行ったところ結果が向上している(61.4% => 65.8%).さらに,行動認識の手法として見た際に,HMDB にて28.71%という精度を記録した. Links 論文 http://arxiv.org/pdf/1604.03196v1.pdf プロジェクト
  • 53. Oscar Koller, Hermann Ney, Richard Bowden, “Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled”, in CVPR, 2016. 【48】 Keywords: Hand Images, CNN , EM algorithm 新規性・差分 手法 概要 ・EMアルゴリズムにCNNを埋め込むことで,ラベル付き画像を 使ったフレームベースな識別器の学習の実現へアプローチして いる. noisyなアノテーションしか与えられていなくても正当と言 えるCNNの学習が可能になる. ・EMアルゴリズムにCNNを統合すべく定式化がなされている 点. 100万枚を超える手の画像で学習されたCNNに基づくロ バストな手形状の識別手法を提案した点.45クラス3361枚の, 手作業でラベリングした手話データセットを作成した点. Links 論文 https://www-i6.informatik.rwth-aachen.de/publications/ download/1000/Koller-CVPR-2016.pdf ・提案した識別手法で,62.8%の精度. 2つの標準的なベンチマークにおける 評価では,state-of-the-artな手法と比 べて10%以上の向上が確認された. 結果 ・まず入力画像を手周辺にカットし,続いて繰り返しの学習のための初期クラス分けと して,ごみのクラスも含めてクラス分けをする(Flat Start). CNNによる学習の繰り返 しごとにそのクラス境界がより良い位置へと洗練されてゆくことで,手形状のクラス分 けを行う. EMアルゴリズムのEステップはバックフォワードとなっているが,CNNで得られる事後 確率をベイズの定理に基づいた変換を施し最大化している.
  • 54. Russell Stewart, Mykhaylo Andriluka, Andrew Ng, “End-to-end Detection in Crowded Scenes”, in CVPR, 2016. 【49】 Keywords: People Detection, Crowded Scene 新規性・差分 手法 結果 概要 混雑環境下でも各人物の検出を実現するフレームワークを提 案する.ここで,RNNのうちLSTMを適用するが,新しい損失関 数を与えることでEnd-to-Endでの学習を行う. ・画像(のみ)を入力することで候補領域やbbox regressionなど の後処理が必要なく複数の物体の位置が返却されることが新 規性である ・End-to-EndでCNN~RNNの学習が実行できること ・LSTMにて画像内の文脈を把握して人物位置を推定する ・下図はOverFeatと提案手法の比較 CNN~RNNの組み合わせにより特徴抽出や人物位置の推定を実行する.CNNには GoogLeNetを用いて畳み込みによる特徴を抽出する.VGAサイズの画像を入力す るとCNNにより固定長の特徴(20x15x1024)を出力する.この特徴をLSTMへの入力 とし,人物位置と対応付けた学習により,混雑環境下においてもロバストに人物を 検出可能とする.なお,下式をベースに最適化(最小化)を行う.Gは正解位置,Cは システムの推定値である.候補領域はiで示され,f(i)は候補領域と正解との距離 (領域の差分)を示す.yはcross-entropy lossを示し,αの値は0.03に設定された. 学習にはCaffe (CNN)やNLPCaffe (LSTM)が用いられた.学習率は0.2 (100,000回 ごとにx0.8),Momentumは0.5,繰り返し回数は500,000に設定した.ベースとなる検 出器はOverFeatやR-CNNを用いて比較を行った. 結果から,Recall rateがOverFeatの71%から提案手法では81%まで向上,Average Precision (AP)も78% (OverFeatでは67%)まで向上した. 通常の損失関数を適用時には60%であったが,提案の損失関数を適用することで 78%の精度で,混雑環境下における人物検出を実現した. Links 論文 http://arxiv.org/pdf/1506.04878v3.pdf コード https://github.com/Russell91/reinspect YouTube https://www.youtube.com/watch?v=QeWl0h3kQ24
  • 55. Ankush Gupta, Andrea Vedaldi, Andrew Zisserman, “Synthetic Data for Text Localisation in Natural Images”, in CVPR, 2016. 【50】 Keywords: Text Synthetic Data, Text Detection 新規性・差分 手法 結果 概要 文字検出(Text Detection, Text Localisation)のための自然な データを自動生成する論文.画像中の環境を認識してテキスト 情報を埋め込むための手法を提案.Fully- Convolutional Regression Network (FCRN)を用いることで文字検出やbbox regressionといったタスクをネットワーク内で実行. ・文字認識のための画像データ を自動生成できること ・文字認識のデータをFRCNにて 学習し,state-of-the-artな手法 を提案 【Image Synthetic】画像合成の前処理はRGB画像からDepth画像の推定,gPb- UCMによるセグメンテーション,テキストを埋め込むための平面推定により実行. 文字の埋め込みは平面の軸に沿って行われる.前処理により,自然な文字の埋め 込みが実行可能である. 【Fast Text Detection Network】提案のFCRNは[Long+, CVPR15]のFCNや [Redmon+, CVPR16]のYOLOの拡張版という位置付けであり,さらにImplicit Shape Model (ISM)のような投票を行う.ネットワークアーキテクチャはVGG16を参考にし ているが,本論文で用いる畳み込み層は全9層,ReLU,Max-poolingを採用. トレーニングには提案のSynthText in the Wildを用いた.同データセットには 800,000枚もの画像が含まれており,入力画像サイズは512x512[pixels],学習のパ ラメータは16 mini-batch, momentum 0.9, weightdecay 5^-4, 学習率は10^-5 ~ 10^-4とした.ICDAR2013のデータセットにて84.2%のF値を達成しただけでなく, GPU上ではあるが15FPSでの検出を実現した. Links 論文 http://www.robots.ox.ac.uk/~vgg/data/scenetext/gupta16.pdf プロジェクト http://www.robots.ox.ac.uk/~vgg/data/scenetext/ データセット http://www.robots.ox.ac.uk/~vgg/data/scenetext/SynthText.zip
  • 56. Kai Kang, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, “Object Detection from Video Tubelets with Convolutional Neural Netwroks”, in CVPR, 2016. 【51】 Keywords: Video Tubelets, Video Object Detection 新規性・差分 手法 結果 概要 動画像に対する物体検出の論文.候補領域を時系列で推定 (Video Tubelets)し,検出する.ILSVRC2015の”Object Detection from Video (VID)”にて優勝したCUHKのアイディアで ある. 動画像に対する候補領域や候補領域からの選択を実施するこ とにより物体検出を行った.静止画に対する検出では37%しか 到達できなかったところを,47%まで引き上げた. 初期値として静止画により検出. (1)  時系列の候補領域を算出する.初期値はR-CNNにより検出.R-CNNには Selective Search (SS)による候補領域やAlexNetによる識別を採用し, Negativeを除去する.さらに,次のステップではGoogLeNetを用いてR-CNN を構成しPositiveの信頼度を高める.これにより,高い信頼度の領域をト ラッキングすることで時系列候補領域を生成. (2)  Temporal Convolutional Network (TCN)により候補領域中の時系列の検出 スコア・追跡スコア・アンカーオフセットを評価.出力はTubeletの評価値が 算出される. VIDタスクにて47.5%,下の表はYouTube- Objects (YTO) datasetにおける評価の結果で あり,76.8%を達成した.. Links 論文 https://arxiv.org/pdf/1604.04053v1.pdf プロジェクトhttps://github.com/myfavouritekk/vdetlib
  • 57. Kwang Moo Yi, Yannick Verdie, Pascal Fua, Vincent Lepetit, “Learning to Assign Orientations to Feature Points”, in CVPR, 2016. (oral) 【52】 Keywords: Orientation Feature Points 新規性・差分 手法 結果 概要 オリエンテーションを考慮したキーポイント検出を新規に提案す る.特徴の記述子にはConvolutional Neural Networks (CNN)を 採用し,さらにReLUやMaxout,PReLUといった活性化関数の 一般化に取り組んだ. 右図はSIFTと比較した際のキー ポイントにおけるオリエンテー ション推定である.SIFTでは誤り がある場合でもCNNであれば少 ない誤差でオリエンテーションを 推定可能である.Multi-View Stereo (MVS)を実行した結果, 再構成の性能自体も向上した. CNNのアーキテクチャにはSiamese Networkを採用する.ネットワークの活性化関 数にはGeneralized Hinging Hyperplanes (GHH)をベースとした手法を提案する. GHHの改良版はReLU・Maxout・PReLUを一般化した性質を持つ.問題としては SIFTのように画像パッチを入力とし,対応するキーポイントを算出する.ここで,(1) 式を最小化することでCNNの重みWの値を調整.L(p_i)は損失関数を,p_i = {p^1, p^2}はパッチのペアを示す.fw(p_i)はパッチのオリエンテーションを,g(p, θ)はパッ チのあるオリエンテーションにおける画像記述を示す. 表は各キーポイント検 出器との比較結果であ る.提案法はEF-VGG であり,困難な条件が 含まれる各データセット においても安定して良 好な性能を得た. Links 論文 https://cvarlab.icg.tugraz.at/pubs/yi_cvpr16.pdf Lab https://cvarlab.icg.tugraz.at/publications.php
  • 58. Shuo Yang, Ping Luo , Chen Change Loy, Xiaoou Tang, “WIDER FACE: A Face Detection Benchmark”, in CVPR, 2016. 【53】 Keywords: Face detection, data set, Muti-scale CNN 新規性・差分 手法 概要 ・顔検出はCV界で最も取り組まれているタスクのひとつだ が,従来のベンチマークを利用した検出と現実での検出との 間にはギャップが存在する. そこで従来の10倍の規模となる 顔データセットを公開し,学習やアルゴリズムの評価に利用 価値があることを述べている. ・枚数だけでなく,オクルージョンやメイクされた顔の画像など, 従来には無かったリッチなアノテーションを用意 . 顔検出のための良質な学習用データセットとして利用できる ことを示している Links 論文 http://arxiv.org/pdf/1511.06523v1.pdf ・4つの既存顔検出手法を用いて提案ベン チマークで評価し結果を記載している. また提案セットを含む4つのデータセットを 学習に用いた場合についても調査がなさ れている. 結果 ・既存のWIDER datasetから32203枚の画像を選 び,393703の顔をラベル付けしている. さらにOcculusionやPoseなど6種類のattribute情 報が付与されており,その度合いもそれぞれ数 段階に分けられている. PASCAL VOCに習って,10ピクセル以下のよう なあまりに難しい顔にはIGNOREラベルを用意し ている. またこのデータセットを用いた,multi-scale cascade CNNのパイプラインも提案している.
  • 59. Wanli Ouyang, Xiaogang Wang, Cong Zhang, Xiaokang Yang, “Factors in Finetuning Deep Model for Object Detection with Long-tail Distribution”, in CVPR, 2016. 【54】 Keywords: Fine-tuning Analysis, Object Detection 新規性・差分 手法 結果 概要 CNNのFine-tuningの解析に関する論文.以下の2点について 考察した. (1)  サンプル数が確保できている場合(e.g. 人物や犬)は良 いが,サンプル数が確保しづらい場合の対処 (Long- tail property) (2)  特定クラスの特徴表現についてFine-tuningの検討 ・Fine-tuningの解析やその特徴に及ぼす影響について検証を 行った.Long-tail propertyによるサンプル数の違いや各層の 重みなどについて評価する ・物体クラスをグループ分けしたCascaded Hierarchical Feature Learning (カスケード型階層的特徴学習?)を提案,Fine-tuning をよくする ベースラインとなる手法はDeepID-Net [Ouyang+, CVPR15]を用いる. Cascaded Hierarchical Feature Learning:ILSVRCの検出タスクに含まれる200の物 体クラスに対して階層的クラスタリングを実行する.距離の比較にはGoogLeNetの 中間層の特徴を用いる.Level 1には200クラス,Level 2には各50クラス,Level 3に は各29クラス,Level 4には11クラス (クラス数は平均値)が含まれる.階層的学習 の際には学習サンプルや階層的クラスタリングにより得られたP/Nサンプル,Pre- trained Deep Modelを入力として,各階層ごとに学習を実施する.この階層的クラ スタリングを行った後のFine-tuningが効果的であると主張. 下の表は階層的クラスタリングの各レベルとFine- tuningした結果,各手法との比較を示す.レベルが 1~4と進むごとに精度が向上することや,オリジナル のGoogLeNet (38.8%)からFine-tuningした結果,45% まで向上した. Links 論文 http://www.ee.cuhk.edu.hk/~wlouyang/Papers/ OuyangFactors_CVPR16.pdf プロジェクト www.ee.cuhk.edu.hk/~wlouyang/projects/ ImageNetFactors/CVPR16.html
  • 60. Zichao Yang , Xiaodong He, Jianfeng Gao, Li Deng , Alex Smola, “Stacked Attention Networks for Image Question Answering”, in CVPR, 2016. 【55】 Keywords: Face detection, data set 新規性・差分 手法 概要 ・コンピュータビジョンと自然言語処理の融合分野である,画 像についての自然言語による質問に答えるタスク(image question answering,QA)のための,CNNに基づく stacked attention networks (SANs)を提案. ・4つのQAデータセットについて,従来のstate-of-the-art な手法と比べてかなりの差をつけた正解率を達成 . QAを解くためにはマルチステップな絞り込みが必要で あるとの考えに基づき,ネットワークのアウトプットを可視 化することにより,答えへとどのようなプロセスでアテン ションが選ばれてゆくのかを示した. Links 論文 http://arxiv.org/pdf/1511.02274v2.pdf ・4つの既存顔検出手法を用いて提案ベンチマー クで評価し結果を記載している.いずれのセットで も最先端手法に勝る精度を達成している.例え ば,COCOデータセットでは61.6%. また提案セットを含む4つのデータセットを学習に 用いた場合についても調査がなされている. 結果 ・大きく次の3要素から成る. (1)the image model;入力画像に対しCNNから 高次の特徴ベクトルを抽出する. (2)the question model;CNNかLSTMを用いて 入力言語に対し特徴ベクトルを抽出する. (3)the stacked attention model;マルチステップ な理由付けにより,アテンションを選んでゆく. (3)では画像特徴ベクトルと質問の特徴ベクトル を1層のニューラルネットワークに通し,ソフトマッ クス層の出力をもってアテンションの分布とす る.
  • 61. Xiaodan Liang, Xiaohui She, Donglai Xiang, Jiashi Feng, “Semantic Object Parsing with Local-Global Long Short-Term Memory”, in CVPR, 2016. 【56】 Keywords: Semantic Object Parsing, Semantic Segmentation 新規性・差分 手法 結果 概要 Local-Global Long Short-Term Memory (LG-LSTM)を提案す ることで,局所的・大域的な空間情報を考慮してセマンティック な領域の解析 (Semantic Object Parsing)を実行する. ・8近傍の空間的LSTMやDepth LSTMの実行により特徴学習 ・Global Hidden Cells により大域的な(離れた位置であっても)空 間の評価ができる ・Stacked LG-LSTM (層を繰り返し通り抜ける)により大域的に 評価できる 畳み込みにより特徴マップを生成,その後Transition Layerを通り抜けLG-LSTMに よる繰り返し演算によりセマンティック物体解析を実現. 表はFashionista datasetによる領域解析結果である. Links 論文 http://users.eecs.northwestern.edu/ ~xsh835/assets/ cvpr2016_lstmparsing.pdf 著者 http://users.eecs.northwestern.edu/ ~xsh835/
  • 62. Joao Carreira, Pulkit Agrawal, Katerina Fragkiadaki, Jitendra Malik, “Human Pose Estimation with Iterative Error Feedback”, in CVPR, 2016. 【57】 Keywords: Human Pose Estimation 新規性・差分 手法 結果 概要 繰り返しエラーをフィードバック (Iterative Error Feedback)しな がら学習することにより,人物姿勢推定の誤差を最小化する. まずは与えられた初期値から誤差を計算,さらに修正して誤差 を計算,の繰り返しにより最適な値に補正していく. 一般的なフレームワークとしての入力と出力,さらに正解と比 較してのエラーを最小化する枠組みにより階層的な特徴学習 を実現する.この枠組みはIterative Error Feedback, またはIEF と呼ばれる. 下図は提案手法の概略図である.左が入力画像と3つの関節点(実際には全身で 17点を推定)である.赤が頭部,緑が右手首,青が左手首に対応.推定した結果を 評価,誤差を計算,画像への投影...といった感じで繰り返しにより誤差を最小 化. 下の表はMPI test setのPCKh-0.5における評価結果である.シンプルな手法なが ら確実に精度が向上している. Links 論文 http://arxiv.org/pdf/1507.06550v2.pdf コード https://github.com/pulkitag/ief 著者 http://www.cs.berkeley.edu/~carreira/ スライド https://www.robots.ox.ac.uk/seminars/Extra/ 2016_02_22_JoaoCarreira.pdf
  • 63. Waqas Sultani, Imran Saleemi, “Human Action Recognition across Datasets by Foreground-weighted Histogram Decomposition”, in CVPR, 2014. 【58】 Keywords: Cross-dataset, Action Recogntiion 新規性・差分 手法 結果 概要 人物行動認識のためのCross-Dataset問題 (学習とテストの データセットが異なる問題設定のこと)を解決するために顕著性 マップを適用して前景領域に重み付けする. ・顕著性を適用することでより重要な特徴に対して高い重み付 けを行うことが可能 ・行動の比較の際には重要な部分のみが用いられるべき (背 景は行動に関係ないことから不要であると主張) 戦略としては,顕著性マップを用いることで背景の重みを小さく,前景の重みを大 きくする.Background Motion FeatureにはSpace-Time Interest Point (STIP)を, Global Scene Features にはGIST特徴量を用いた. 前景領域に特化した特徴表現としては,Bag-of-words (BoW)を採用し,Motion GradientsやColor Gradientsからコードワードを生成する.さらに,BoWのベクトルの 各要素に対して重みを計算する.下記の(8)(9)式を用いることでヒストグラムの重 み付けを実行する.(8)式はK-meansをする際の重みであり,(9)式は領域に重み付 けした場合のヒストグラムインターセクションの値を示す(Histogram Decomposition). UCF50, HMDB51, Olympic SportsのサブセットにてCross-Datasetでの学習やテス トを実行した.下の表が精度であり,重み付け有無,さらにHistogram Decompositionありの場合について表記した. Links 論文 http://crcv.ucf.edu/papers/cvpr2014/Sultani-Saleemi- CVPR-2014.pdf 著者 https://scholar.google.com/citations?user=Iu9BD-QAAAAJ
  • 64. Fan Zhu, Ling Shao, “Enhancing Action Recognition by Cross-Domain Dictionary Learning”, in BMVC, 2013. 【59】 Keywords: Domain-Adaptation, Dictionary Learning, Action Recognition 手法 結果 概要 行動認識のためのドメイン変換の問題を解決すべく,辞書学習 を行った.ドメイン変換では学習とテストのデータの性質が異な る場合を扱うが,共通の因子や識別的に優れた特徴を強調す ることで性能を保持する仕組みを考案する. Dense TrajectoryによるベクトルをLLCによりコーディングする.Source Domainと Target Domain間の特徴の性質を学習し,Source-Targetの変換を行う.ここでは Dictionary Learningが採用された.通常のDictionary LearningではSource-Target の性質から辞書Dtや左の式を求めるのみであったが,提案手法では左式のような Source, Targetの双方向の変換を考慮して最適化. HMDB51をSource Domain,UCF Youtubeを Target Domainとしてテストした結果が表の通り である. Links 論文 http://www.bmva.org/bmvc/2013/ Papers/paper0052/paper0052.pdf プロジェクト
  • 65. Viktoriia Sharmanska, Novi Quadrianto, “Learning from the Mistakes of Others: Matching Errors in Cross- Dataset Learning”, in CVPR, 2016. 【60】 Keywords: 手法 結果 概要 他タスクの認識誤りから知識を得て活かすことができるかどう かを考慮する.例えば,動画=>画像,クリップアート=> 画像, 3Dモデル => 画像といった同じ認識対象の誤差を,異なる性質 のデータから補正を実現するフレームワークを提供する. Learning with Privileged Information (LUPI)を一般化する形でこの問題を解決す る.すなわち,画像データに追加の情報を与えて誤差を少なくする問題を扱う.提 案手法では誤差の分布 (Distribution Mismatch)を最小化するために画像に追加し て動画・クリップアート・3次元モデルなどを採用した.データの性質を見極めるため にSkewnessやKurtosisに追加してMaximum Mean Discrepancy (MMD)を提案す る. 右のグラフは画像(Image)に追加 して,異なるデータからの誤り情 報の共有である.棒グラフは各タ スクに対する精度の相対値であ る.青は提案が,赤は従来法が高 いことを示す. Links 論文 http://users.sussex.ac.uk/~nq28/pubs/ShaQua16.pdf コード http://users.sussex.ac.uk/~nq28/lupi/CVPR2016_matchingdistr.zip 著者 https://scholar.google.com/citations? hl=en&user=8TDBdicAAAAJ&view_op=list_works&sortby=pubdate
  • 66. Dim P. Papadopoulos, Jasper R. R. Uijlings, Frank Keller, Vittorio Ferrari, “We don’t need no bounding-boxes: Training object class detectors using only human verification”, in CVPR, 2016. 【61】 Keywords: 新規性・差分 手法 結果 概要 人物によるバウンディングボックスのアノテーション作業はかな り時間のコストを要することから,「生成されたバウンディング ボックスの評価」をするのみで学習データを生成する.さらに は,生成したデータで再学習することと,アノテーションの評価 を繰り返すことで識別器を改善していく. ・初期の識別器さえ用意できれば人間は推定値の評価をする のみでアノテーション作業が完了する ・学習とテスト,人間による評価の繰り返しにより識別器の性能 を向上させることが可能 下図が提案手法の概略図である. まずは初期の学習で構成された識別器により候補領域生成や物体検出を行う.人 物がラベルをつけるのは,正解・非正解のみである.正解ラベルは次の学習のラ ベルに対して,非正解ラベルは候補領域に対してフィードバックを行う.繰り返しに より識別器の性能を向上させる.さらに細かいラベルには”Mixed”, “Part”, “Container”が含まれる. データはPASCAL VOC 2007を用いる.表はFullSupervision (すべてのラベルがあ る場合)と提案のYes/Noによるアノテーションである.時間を短縮した場合でもある 程度の精度までは復元が可能である.グラフは横軸が時間(hour)であり,縦軸が 精度.数時間のアノテーション作業で50%付近まで精度が向上する. Links 論文 http://calvin.inf.ed.ac.uk/wp-content/uploads/ Publications/papadopoulos16cvpr.pdf 著者 https://scholar.google.com/citations?hl=en&user=- _JAhdQAAAAJ&view_op=list_works&sortby=pubdate Lab http://calvin.inf.ed.ac.uk/
  • 67. Tao Kong, Anbang Yao, Yurong Chen, Fuchun Sun, “HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection”, in CVPR, 2016. 【62】 Keywords: Region Proposal, HyperNet 新規性・差分 手法 結果 概要 物体候補領域の抽出や物体検出を同時にこなすニューラル ネットのアーキテクチャであるHyperNetを提案する.HyperNet はend-to-endでの学習が可能であり,約100の候補領域である が非常にRecall Rateが高い.さらに,5FPSで動作することが明 らかになった. ・現在,候補領域のstate-of-the-artはRegion Proposal Network (RPN)であるが,微小領域の評価には向いていないた め,改善する 下図は本論文の提案するフローチャートである.入力画像からCNNによりHyper Feature Extractionを実行する.この特徴はObject Proposal や検出タスク自体にも 用いる.図を参照すると,top-10ではあるが物体候補領域の段階ですでに物体検 出に近い出力を行っている.Hyper FeatureではConv1/3/5の出力値を統合して候 補領域の生成や物体検出に用いる.Conv1はMax-poolを,Conv5はDeconvolution を行うことで第3層の特徴マップサイズに統一. 50の候補領域で95%,100では97%のRecall Rateを実現した.さらに,PASCAL VOC 2007/2012ではそれぞれ76.3%,71.4%というmAPを実現.下の表にPASCAL VOC 2012の結果を示す. Links 論文 https://arxiv.org/pdf/1604.00600.pdf プロジェクト
  • 68. Ting Yao, Tao Mei, Yong Rui, “Highlight Detection with Pairwise Deep Ranking for First-Person Video Summarization”, in CVPR, 2016. 【63】 Keywords: Video Summarization, First Person Vision 新規性・差分 手法 結果 概要 一人称ビジョンからのライフログに関する研究.自動的にビデ オサマライズする.Two-stream ConvNetを用いたランキング学 習によりビデオを自動でセグメンテーションする. ・CNNによる一人称ビジョンからのビデオ要約を実現 下図が一人称ビジョンからのビデオ要約の概略図である.入力のビデオからTwo- Stream ConvNetにより特徴を抽出する.Spatial Stream (空間的特徴抽出)では AlexNetが,Temporal Stream (時系列的特徴抽出)ではC3Dが用いられた. Highlight Curveでは要約のためのスコア値を算出し,要約を行う. 15のスポーツ映像から撮影された100時間超のビデオに対してサマライズを行っ た.比較の結果,この分野におけるstate-of-the-artであるRankSVMを用いた手法 よりも10.5%精度が向上し,ビデオ要約の可能性を示した. Links 論文 http://research.microsoft.com/pubs/264919/2219.pdf プロジェクト http://research.microsoft.com/apps/pubs/default.aspx?id=264919 著者 http://vireo.cs.cityu.edu.hk/TingYao/
  • 69. Dong Li, Jia-Bin Huang, Yali Li, Shengjin Wang, and Ming-Hsuan Yang, “Weakly Supervised Object Localization with Progressive Domain Adaptation”, in CVPR, 2016. 【64】 Keywords: weakly supervised object localization, in detection adaptation, in classification adaptation 新規性・差分 手法 結果 概要 ・本論文では, 教師画像を用いて弱教習でも物体の認識・特定 を行う. ・従来研究 多くのアプローチは、オブジェクトの提案マイニングを通じてこ の弱教師でも位置特定を行う.しかし, オブジェクトのノイズの 量によって、判別対象モデルを学習するための曖昧さを引き起 す. ・提案手法   2つのステップ分類適応と検出適応を用いてこの問題に対処 します.   分類適応では, 画像内の特定のオブジェクトの存在を認識す るため,マルチラベル分類タスクに事前訓練を受けたネットワー クに送る. 検出適応にはクラス固有のオブジェクトを収集の提案するた め, 候補を発見するための教師有り学習を提案するためにマス クアウト処理を使用する. ・物体をデータセット内の画像を収集するための検出適応, 認識・識別するための 分類適応を用いる.誤検出し無いように画像に微調整する. ・実験結果より, 提案手法が大幅に最先端の方法よりも優れていることが分かる. 識別率の平均は39.5%を表示した. . Links 論文 http://goo.gl/vLkEQe
  • 70. Nazli Ikizler-Cinbis, Stan Sclaroff, “Object, Scene and Actions: Combining Multiple Features for Human Action Recognition”, in Proceedings of the 11th European conference on Computer vision, 2010. 【65】 Keywords: Action Recognition, Multiple Features 新規性・差分 手法 結果 概要 物体やシーン,行動からの特徴を統合した行動認識のアプ ローチmultiple instance learning (MIL)の提案 無関係なインスタンスへの関連 や誤検出に強い 右図に物体,シーン,行動それぞ れの特徴の抽出方法を示す. 物体と行動の特徴抽出にはHOGと Optical Flowを使用し, シーンの特徴では,Gist特徴と色 特徴を抽出している. これらの特徴を組み合わせる.(ア ノテーションを弱めにつけ,学習を 行うことで,識別に最適な特徴を自 動で選定する) (1)YouTube datasetでの物体,シーン,行動の各特徴単体および組み合わせ時の 精度検証結果 (2)YouTube datasetでのすべての特徴を組み合わせたときの認識精度.平均は 75.21%となった. Links 論文 http://goo.gl/G9f4vK (1) (2)
  • 71. Ziming Zhang, Yuting Chen, “Efficient Training of Very Deep Neural Networks for Supervised Hashing”, in CVPR2016. 【66】 Keywords: 新規性・差分 手法 結果 概要 ・より深いDeepLearningを用いて,バイナリハッシュコード化の 勾配消失を解決している.back propagationの際,レイヤー毎 に分割し,alternating direction method of multipliers(ADMM)を ベースにした最適化をしている(VDSH).Cifar-10やMNISTで比 較実験した結果,従来手法(SDH)などよりも高い性能を示した. 大規模データセットでの計算効率向上などを目的に,教師あり ハッシュコード化に関する技術が提案されている.しかし,従来 の手法はback propagation(勾配消失など)の課題を残してい た.そこで,提案手法では back propagationの際にレイヤー毎に分割して最 適化している.最適化手法はADMMをベースにし ている.これにより勾配消失の課題が解決され, より深い層のDeep Learningでのハッシュコード化 が可能となった Links 論文 : https://arxiv.org/pdf/1511.04524v2.pdf コード:https://zimingzhang.wordpress.com/publications/
  • 72. Hossein Rahmani, Ajmal Mian, “3D Action Recognition from Novel Viewpoints”, in CVPR2016. 【67】 Keywords: 手法 結果 概要 1つの視点から撮影した特徴を基に,複数視点の特徴を算出す ることで視点変化に依存しない3D行動認識を提案している.N- UCLA Multiview Action3D Dataset ,IXMAS,UCF Sports Datasetな どの複数のデータセットで比較実験した結果,提案手法の有効性が 確認された. Mocapデータを3Dモデルにフィッティングさせ,そこから複数視点のDT特徴(F1, F2, F3)を抽出.F1・F2・F3の全ての特徴をSoftmax関数に入力し,異なる視点での行動 認識を実現している(R-NKTM). Links 論文 :https://arxiv.org/pdf/1602.00828.pdf
  • 73. Oscar Koller, “Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled”, in CVPR2016. 【68】 Keywords: 結果 概要 EMアルゴリズムにCNNを組み込むことにより,ラベルづけの甘 いデータセットに対して,新しくより詳細なラベル付けを実現し ている.実験では,動画からの手の形状推定を題材としてお り,より詳細なラベル付けの有用性を検証している. RWTH-PHOENIX-Weather 2014 手法 EMアルゴリズムにCNNを組み込んでいる.入力画像とそのラベルをGoogLeNetに 入力し,再度ラベル付けをしている. Links 論文 : https://www-i6.informatik.rwth-aachen.de/publications/download/ 1000/KollerOscarNeyHermannBowdenRichard-- DeepHHowtoTrainaCNNon1MillionHImagesWhenYourDataIsContinu ousWeaklyLabelled--2016.pdf Youtube:https://www.youtube.com/watch?v=TPXzc3GKF9c
  • 74. Keywords:Large-scale Object Detection 離散エネルギー最小化(discrete energy minimization)を用いた大規模 物体検出のための効率的なPoint Process Inferenceの提案.オブジェ クトの数を任意に増やすことができるような画像(群衆,鳥の大群等)で の大規模な物体検出の問題に対処し,著しい人の重なりやオクル― ジョンを提示することができる. 左の2枚の図では,4144の幹細胞が検出されており,一番右の図では 492人のランナーが検出できている. オブジェクトの信頼度と空間オブジェクトパターンを含む密度関数 によるPoint process probabilistic modelを用いることでオブジェクト 検出の問題を定式化する.. Trung T. Pham, Seyed Hamid Rezatofighi, Ian Reid and Tat-Jun Chin, “ Efficient Point Process Inference for Large-scale Object Detection”, in CVPR, 2016. 【69】 論文ページ : https://cs.adelaide.edu.au/~trung/lib/exe/fetch.php?media=ls_obj_det.pdf 概要 新規性・差分 Links 手法 結果 オブジェクトの位置を特定するプロセスを複雑にする要因とし て,人の重なりやオクル―ジョンの問題が生じるがこれにについ て解いている.
  • 75. Nishit Soni, Anoop M. Namboodiri, C. V. Jawahar, Srikumar Ramalingam, “Semantic Classification of Boundaries of an RGBD Image”, in BMVC2015, 2015. 【70】 Keywords: RGBD, occlusion edges, convex or concave edges, four class edge labeling, Random forest 新規性・差分 手法 結果 概要 ・ラベリングのタスクは、コンピュータビジョンにおける古典的な 問題の一つである.そこで,提案本稿では、凸面,凹面と閉塞 エンティティをエッジを分類ためのランダムフォレストを用い た新規アルゴリズムを提案する. ・我々のアプローチはJiaらの手法と類似しているが,4つのクラ スのエッジラベリングを使用し,またランダムフォレストを使用 している.これにより,SVMを用いたものと比べ,不足してい るデータやノイズに対してより堅牢である. (1)両方の画像と奥行き手がかりにエッジ画素のラベルを推測する.
 (2)得られたエッジ画素のそれぞれに4クラスラベリングを割り当てる.
 (3)各エッジ画素を1つの輪郭セグメントにマッピングする.
 (4)輪郭セグメントを使用して構築として我々は問題を定式化し,グラ フを最適化する.
 (5)ランダムフォレストに基づく画素分類器を使用して単項特徴を得る. 右にアルゴリズムの概要を示す.
 
 Links 論文http://www.bmva.org/bmvc/2015/papers/ paper114/paper114.pdf コードとデータセット https://cvit.iiit.ac.in/projects/ semanticBoundaries
  • 76. Benjamin Hughes and Tilo Burghardt, “Automated Identification of Individual Great White Sharks from Unrestricted Fin Imagery”, in BMVC 2015. 【71】 新規性・差分 結果 概要 生体科学分野におけるフィールドワークでの生態調査では,個体認証を時間をかけて繰り返すことが基本的な要件である.本稿ではホホジ ロザメの鰭に注目し,図1に示すような制約のない鰭画像からの特徴抽出~照合までの視覚的識別手法のパイプラインを自動化する. PDF:http: //www.bmva.org/bmvc/2015/papers/paper092/ paper092.pdf Keywords : Object detection, Segmentation, Animal recognitoin 手法 Links 鰭検出として用いる,開いているエッジの検出: 単純なセグメ ンテーションアルゴリズムでは最終的には,検出に失敗する. しかし,提案するストロークモデルを組み合わせることで,鰭を 図中の白線で囲んだ固体のようにセグメンテーションすること ができた.2456枚の画像より構成されるデータセットを用いて 実験を行った結果,82%の精度で個体認証に成功した. 提案システムの概要: 1. 物体検出とセグメンテーションの組み合わせ,マルチスケール領 域でのセグメンテーション,開いているエッジの構築,エッジの順位付けと鰓の検出 2.生体情報の符号化と個体識別,エッジの微細化,生態特徴を抽出し,さらに照合する 提案システムは初の動物のエッジに基づいた個体認証システムである.
  • 77. Z Kalal, J Matas, K Mikolajczyk, “P-N Learning: Bootstrapping Binary Classifiers by Structural Constraints”, in CVPR, 2010 IEEE Conference on, 49-56. 【72】 Keywords: P-N Learning, 新規性・差分 手法 結果 概要 P-N learningと呼ぶラベル付した例とラベル付していない例から 2値分類器を訓練する方法(パラダイム)を提案している.学習 プロセスとして,ラベル付していないデータに対しラベル付を制 限してP(positive)とN(negative)に分ける. 学習器作成する際,ラベル付されたものを用いるが,P-N Learningでは,ラベル付されていないデータセットにも適応する ことが可能である. ・ ・ Links 論文: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5540231
  • 78. Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri, “Learning Spatiotemporal Features with 3D Convolutional Networks”, in ICCV, 2015. 【73】 Keywords: C3D, 3D Convolution 新規性・差分 手法 結果 概要 時系列の畳み込みネットであるC3D (Convolutional 3D)の提案 論文.xytの3次元畳み込みを行うことで時系列情報を畳み込 みマップ上に投影することが可能である.Sports-1Mデータセッ トにおけるCaffeのPre-trained Modelが公開されている. ・2次元の畳み込みよりも時系列特徴の抽出に有効である ・3x3x3の畳み込みカーネルを用意した ・4つの異なるデータセットにおいてstate-of-the-artな精度を達 成した C3Dは3x3x3の畳み込みカーネルが用意されている.さらに,構造的には8回の畳 み込み,5回のmax-pooling,2層の全結合層が用意されている.各全結合層の出 力は4,096次元である.識別の際にはt全結合層であるFC6の特徴を抽出し,Linear SVMによる識別を行う. 3次元畳み込みにより下表のように各データセットに対して良好な精度を実現した. 時系列の畳み込みにより,FC6から特徴を抽出するのみで時系列特徴を得ること ができた. Links 論文 http://vlg.cs.dartmouth.edu/c3d/c3d_video.pdf プロジェクト http://vlg.cs.dartmouth.edu/c3d/ コード https://github.com/facebook/C3D
  • 79. Zheng Shou, Dongang Wang, Shih-Fu Chang, “Temporal Action Localization in Untrimmed Videos via Multi- stage CNNs”, in CVPR, 2016. 【74】 Keywords: Action Localization, Multi-stage CNN 新規性・差分 手法 結果 概要 トリミングされていない長時間の動画から,行動のローカライズ を行う手法の提案 3つのセグメントベースのConvNetを使用することで,Deep Networksにおけるアクションのローカライズを効率的に行う. フレームワークの概要を右上図に示す.本フレームワークは3つの 構成からなる. (1)Multi-scale segment generation: 入力された動画から,様々な長 さのセグメントを生成(16frame, 32frame,64frame...) (2)Segment-CNN: proposal networkが候補セグメントを識別. classification networkはlocalization networkの初期設定を行うため に,行動識別モデルを学習.その後localization networkは,動画か ら行動のローカライズを行い,スコアを出力する. (3)Post-processing: 出力されたスコアにNMSを用いることで,冗長 性を除去し,最終的な結果を取得する. (1)MEXaction2における,Dense Trajectoriesとの平均精度の比較 (2)THUMOS 2014における平均精度の比較 (3)THUMOS 2014における,各クラスの平均精度のヒストグラム(緑が提案手法) Links 論文 https://arxiv.org/pdf/1601.02129v2.pdf (1) (2) (3)
  • 80. Ilke Demir, Bedrich Benes, “Procedural Editing of 3D Building Point Clouds”, ICCV, 2015. 【75】 Keywords:Point Cloud, Editing, procedural modeling 新規性・差分 手法 結果 概要 ・本研究では,点群の構築と編集の問題に取り組んでいる.本 論文では点群データで構成された建物の手続きモデリングのた めのアプローチを提案している. ・中間三角測量をすることなく点群上で直接動作することが出 来る. ・本論文の提案手法を以下に示す. (1)semi-automatic segmentationとテンプレートマッチングを用いて繰り返し構造   を検出する. (2)入力ツリー表現を作成し,繰り返しconsensus-basedの投票方式とパターン抽出 アルゴリズムを使用して点群を構築していく. また,(2)でユーザの編集操作,最小二乗最適化,エッジを意識したリサンプリング を用いて点群を編集する. ・点群データの建物に対しての提案手法の結果を図と表に示す. 図から建物の点群データが合成,補完,編集が出来ていることがわかる. Links 論文: http://www.cv-foundation.org/openaccess/ content_iccv_2015/papers/ Demir_Procedural_Editing_of_ICCV_2015_paper.pdf
  • 81. Han Zhang, Tao Xu, Mohamed Elhoseiny, Xiaolei Huang, Shaoting Zhang, Ahmed Elgammal, Dimitris Metaxas, “SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-grained Recognition”, in CVPR, 2016. 【76】 Keywords: Semantic Parts Detection, Semantic Parts Abstraction, Fine-grained Recgnition 新規性・差分 手法 概要 fine-grainedな分類を行うCNNアーキテクチャ(SPDA-CNN)の提 案 検出と認識を行う2つのサブネットワークを持ち,detection sub- networkでは,semantic part候補の生成を行い検出を行う. classification sub-networkでは,detection sub-networkが検出 した部分からの特徴を抽出する フレームワークの概要を右上図に示す. (1)新規のKNN法により,small semantic partsを抽出し,パーツの 候補を生成する. (2)Fast RCNNを用いて,生成した候補から正確な部分のバウン ディングボックスを得,classification sub-networkに送信する.こ の時,オクルージョンによって見えない部分がある場合,0(図の Leg参照)として送信される. (3)正確なsmall semantic partsを結合し,相関関係を学習する. Links 論文 http://paul.rutgers.edu/~hz138/publications/CVPR16.pdf 結果 (1)CUB-2011において,正しくローカライズされた割合の比較 (2)CUB-2011における最新の研究との比較 (3)CUB-2010における最新の研究との比較 (1) (2) (3)
  • 82. Karen Simonyan, Andrew Zisserman, “Two-Stream Convolutional Networks for Action Recognition in Videos”, in NIPS, 2014. 【77】 Keywords: Two-Stream ConvNet 新規性・差分 手法 結果 概要 行動認識で用いられるTwo-Stream ConvNetの論文.RGB画 像やオプティカルフロー蓄積画像と,2種類の入力からそれぞ れ空間情報や時系列情報を抽出する. ・深層畳み込みネットに対して,構造をほとんど変えずに時系 列情報や空間情報のベクトルを抽出でき,統合可能である ・オプティカルフロー蓄積画像の畳み込み特徴は行動認識に対 して非常に有効であることを実証した ・2つの学習データ(UCF101, HMDB51)に対してFine-tuningして 高い精度を実現した 下図はTwo-Stream ConvNetのフローチャートである.空間の畳み込み(Spatial Stream ConvNet)や時系列の畳み込み (Temporal Stream ConvNet)から構成され る.空間の畳み込みに関しては基本的には全8層から構成されるAlexNet (ImageNet Pre-trained Model)を参考にした.時系列の畳み込みに関して,オプティ カルフローはBroxにより抽出,x-,y-方向のフローを蓄積し,学習はUCF101, HMDB51のデータにより行った.ここで,学習時にはMulti-task Learningを適用し, それぞれのデータに対してSoftmax関数を用意して最適化を行った. Spatial StreamはUCF101による学習が52.3%だったのに 対してImageNetモデルは72.7%であった.また,Temporal Streamでは1フレームのオプティカルフローが73.9%で あったのに対して10フレーム蓄積時には81.0%まで向上 した.さらに,Two-Stream ConvNetにすると 88.0%@UCF101,59.4% @HMDB51まで向上する.ここで, 2つのConvNetの出力はSVMにより統合した. Links 論文 https://papers.nips.cc/paper/5353-two- stream-convolutional-networks-for- action-recognition-in-videos.pdf スライド http://www.robots.ox.ac.uk/~vgg/ publications/2014/Simonyan14b/ poster.pdf 著者 http://www.robots.ox.ac.uk/~karen/
  • 83. Shuiwang Ji, Wei Xu, Ming Yang, Kai Yu, “3D Convolutional Neural Networks for Human Action Recognition”, in IEEE Transaction on Pattern Analysis and Machine Intelligence, 2013. 【78】 Keywords: 3D convolutional Neural Network, Action Recognition 新規性・差分 手法 結果 概要 行動認識に向けた3DモデルのCNNの提案 ・CNNのようなdeep modelは2Dの入力にしか対応していなかっ たため,3Dの入力に対応したモデルは新規 ・出力に新規の正規化法を行うことで,パフォーマンスを向上 2D-CNNと3D-CNNの畳み込み層の比較を右図に示す. 時間方向の次元では,畳込みカーネルの大きさは3であり, 畳み込みする際の重みは,各色で同じである. 下図に示すように3D-CNNでの特徴抽出は,連続的なフ レームから行う.畳み込みする際の重みは,各色ご毎に異 なる. 上図はKTH Dataでの比較結果, 右図は false positive ratesを変 えた時の各種法での比較結果で ある Links 論文 http:// ieeexplore.ieee.org/ stamp/stamp.jsp? arnumber=6165309
  • 84. Bangpeng Yao, Aditya Khosla, Li Fei-Fei, “Combining Randomization and Discrimination for Fine-Grained Image Categorization”, in CVPR, 2011. 【79】 Keywords: Fine-Grained Image Categorization, Random Forest, 新規性・差分 手法 結果 概要 画像から弁別可能な情報を含むパッチを特定するアルゴリズ ムの提案 Discriminative feature mining による詳細な情報の取得 randomization による次元削減とオーバーフィッティングの防止 下図(左)に示すように,パッチの大きさとパッチの中 心位置を変えながらサンプリングを行う.(サンプリン グはdense samplingで行う) 下図(右)に示すように,複数サンプリングされた空間 を決定木のノードに割り当て,識別器を構成する. (1)PASCAL VOC2010 action classification challengeでの比較 (2)PPMI datasetでの比較 (3)PPMI 12-class datasetでの比較 (4)Caltech-UCSD Birds 200 datasetでの比較 Links 論文  http://vision.stanford.edu/pdf/YaoKhoslaFeiFei_CVPR2011.pdf スライド http://slidegur.com/doc/5625945/presentation (1) (2) (3) (4)
  • 85. Shaoxin Li, Junliang Xing, Zhiheng Niu, Shiguang Shan, Shuicheng Yan, “Shape Driven Kernel Adaptation in Convolutional Neural Network for Robust Facial Traits Recognition”,CVPR, 2015. 【80】 Keywords: CNN, Facial Traits Recognition 新規性・差分 手法 結果 概要 ・顔の特徴認識において、表情の多 様性は課題である。また現実世界で は特徴が環境のもとで容易に見え 方が変わることがしばしばある。こ れに対処するための手法としてCNN に輪郭情報をどのように活用するこ とを考えている。 ・従来手法のCNNはテキスチャ情報に基づくことが多いがこれ は現実世界の環境下で変化しやすく、深いCNNであればこう いった変化にも強いがさらなる情報の加味によりよりロバストな 認識が出来る。そこで本論文で提案されているのが輪郭情報 である。 ・顔の輪郭情報とテキスチャ情報の組み合わせによりCNNによる認識の精度を上昇させ る。輪郭情報の抽出には木構造のカーネルを適用したCNNを用いる。 ・他の従来手法と比べ高い識別率をマークした Links 論文:http://www.cv-foundation.org/openaccess/ content_cvpr_2015/papers/ Li_Shape_Driven_Kernel_2015_CVPR_paper.pdf プロジェクト http://www.cv-foundation.org/openaccess/content_cvpr_2015/ html/Li_Shape_Driven_Kernel_2015_CVPR_paper.html
  • 86. Florian Jug, Evgeny Levinkov, Corinna Blasse, Eugene W. Myers, Bjoern Andres, “Moral Lineage Tracing”, in CVPR, 2016. 【81】 Keywords: Lineage Tracing, Integer Linear Program (ILP) 新規性・差分 手法 結果 概要 細胞の分岐を自動でトレーシングする手法を提案する.Integer Linear Program (ILP)を用いることでセグメンテーションや細胞 の家系図(Lineage Forest)をトレーシングする.セグメンテーショ ンをPath-Cutにより分割して細胞の分岐をトレーシングする が,NP-hard問題を解決するための手法を考案する. ・単一画像内の複数のセルをセグ メンテーションベースで分割 することに成功 ・細胞の木構造を階層的に捉える ことにおいて最先端の精度を達成 した グラフのセグメンテーション分割問題を,最適化と置き換えて解決する.空間的な 最適化のみならず,時系列方向も参照して最適化を行う.下図は各データに対し て適用した結果である. セグメンテーションやトレーシングの精度を示したのが下 の表である.想像以上にうまく領域分割やそのトレーシ ングができている. Links 論文 http://arxiv.org/pdf/1511.05512v1.pdf プロジェクト https://github.com/mpi-inf-cia/moral-lineage-tracing
  • 87. James Charles, Tomas Pfister, Derek Magee, David Hogg, Andrew Zisserman, “Personalizing Human Video Pose Estimation”, in CVPR, 2016. 【82】 Keywords: Personalized CNN 手法 結果 概要 姿勢推定の精度を向上させるために個人に特化したCNNモデ ルを用いる.下記の新規性を保有している. ・高精度なアノテーションが少ない状態で,個人に特化すること で高精度な姿勢推定を実現できる.Dense optical flowなどによ り補正することが可能である ・セルフオクルージョンに対するモデルを生成し,混同するよう なアノテーションは自動で排除できる ・個人に合わせて姿勢推定のためのFine-tuningを実行できる. PersonalizeされたCNNは一般化された姿勢推定のCNNモデル よりも精度が大幅に向上した.詳細はビデオを参照. 手法は4つのステージに分類される. Stage 1: ごく少数で構わないので,動画に対する(信頼度の高い)アノテーションを 行う. Stage 2: 空間的なマッチングを行う. Stage 3: 時系列方向のアノテーションを行う. Stage 4: オクルージョンなどによる外れを含めて,評価を行う. Stage 2~4の繰り返しにより得られた良質なデータを用いて,”Personalized” CNN モデルをFine-tuning. 初期の姿勢推定には[Pfister+, ICCV15]を用いる. 左の表はピクセル誤差が20以内を正解とした際の姿勢推定精度である. Personalized ConvNetが驚異的な精度を実現した.ここから,姿勢推定において Generalなモデルを作るのでなく,個別に特化したモデルにFine-tuningすることが 重要であると位置付けた. Links 論文 https://arxiv.org/pdf/ 1511.06676v1.pdf プロジェクト ビデオ https://www.youtube.com/ watch?v=YO1JF8aZ_Do
  • 88. Tomas Pfister, James Charles, Andrew Zisserman, “Flowing ConvNets for Human Pose Estimation in Videos”, in ICCV, 2015. 【83】 Keywords: Flow CNN 新規性・差分 手法 結果 概要 動画としてフレームが蓄積できる場合の姿勢推定手法の提 案.オプティカルフローマップ生成と学習により姿勢推定を実現 した. ・オプティカルフローのヒートマップ画像から姿勢を回帰するた めのDeeperNetを構築して高精度なモデルを実現した ・潜在的空間モデル(Implicit Spatial Model)を学習することでい わゆる時系列と空間のTwo-Streamを形成した ・Parametric Pooling Layerにより姿勢回帰のための手掛かりと した 下図が提案手法である.姿勢推定のための関節位置回帰のためにネットワーク内 にて空間特徴やフロー特徴を効果的に統合していく. 右図はChaLearnにおけるState-of-the-artとの比較.提 案の中でもSpatial Fusion Flowがもっとも精度が高い. Links 論文 https://www.robots.ox.ac.uk/~vgg/publications/2015/Pfister15a/ pfister15a.pdf コード https://github.com/tpfister/caffe-heatmap 著者 http://tomas.pfister.fi/ ビデオ https://www.youtube.com/watch?v=pj2N5DqBOgQ
  • 89. Vasileios Belagiannis, Andrew Zisserman, “Recurrent Human Pose Estimation”, in arXiv pre-print 1605.02914, 2016. 【84】 Keywords: Recurrent CNN, Human Pose Estimation 新規性・差分 手法 結果 概要 2次元の人物姿勢推定手法において最先端のCNN手法を提供 する.画像に対する回帰モデルにより,各関節位置をヒートマッ プ表示する.さらに,関節のアピアランス情報や形状を学習・表 現する方法を提供する. ・順伝播や再帰的な(Recurrent)構造の組み合わせにより ニューラルネットのアーキテクチャを構成.再帰的な構造では 繰り返しにより性能を向上させる働きがある. ・モデルはEnd-to-Endかつスクラッチにより学習可能. ・キーポイントのヒートマップが可視化できる. ・[Pfister+, ICCV15] (空間やフローのFusion Layer)や[Carreira+, CVPR16] (繰り返 しによる性能向上)の手法を参考にしたと主張.このアイディアを実装するために, 下図のような構造を考案した(ConvNet with Recurrent Module).全体で畳み込み は7層から構成されるが,6/7層は再帰的に繰り返される.図は2回の繰り返しを実 行した例(通常の試行+二回の繰り返しで計3回の畳み込み).対象のヒートマップを 得るためのロス関数は数式のように示される.hがヒートマップ正解値であり,f()は 再帰的畳み込みによるヒートマップの復元値である.誤差をもとにしてパラメータを 最適化する. 表はMPII Human Poseに対する評価であ る.複数のデータに対してComparativeな精 度を実現した.繰り返しの結果,精度が向 上していくことも明らかにした. Links 論文 http://arxiv.org/abs/1605.02914 著者 http://www.robots.ox.ac.uk/~vb/
  • 90. Kyuwon Kim, Kwanghoon Sohn, “Real-time Human Detection based on Personness Estimation”, in BMVC, 2015. 【85】 Keywords: Personness, Object Proposal, Human Detection 新規性・差分 手法 結果 概要 人物検出に特化した候補領域を生成することができる.さら に,候補領域を高速に抽出できることから,後段の処理も含め て人物検出を高速に行うことができる.正規化された勾配やカ ラーを考慮した高速な候補領域を実装した. ・10msでの候補領域抽出を実現する.後段にDPMを持ってきた としても相対的に70%の精度向上を達成した. ・DPMを用いた際にもリアルタイムでの処理に成功した. Edge特徴:HOGを,人物やその周辺の強度の高い勾配を強調することで改良した Normed Gradients (NG) [Cheng+, CVPR14] (BING)を採用する.提案法ではさらに このNG特徴を改良する. Color特徴:広いレンジの肌色特徴を採用した.服装のカラーもあり得る範囲を採 用する. 上式は物体候補領域BINGのモデルであり,学習された係数(v_i),バイアス(t_i)と各 量子化された形状のフィルタスコア(s(i,x,y))を示す.一方で下式のPersonnessは人 物により学習された係数や肌色のスコアであるuiを適用しているため,より人物に 特化した候補領域であると言える. 右図はrecall-timeのトレードオフグラフであ る.BINGやNGなどよりも高い性能を保有して いる.Pascal VOCにより比較した歩行者検出 においても36%のエラー率を実現(Personness + DPM採用時).さらに,50 ミリ秒/画像の速度 での処理を実現している. Links 論文 http://www.bmva.org/bmvc/2015/papers/paper113/paper113.pdf Extended Abstract http://www.bmva.org/bmvc/2015/papers/paper113/ abstract113.pdf
  • 91. Dan Levi, Noa Garnett, Ethan Fetaya, “StixelNet: A Deep Convolutional Network for Obstacle Detection and Road Segmentation”, in BMVC, 2015. 【86】 Keywords: StixelNet, Stixel World 新規性・差分 手法 結果 概要 3次元の障害物検出の技術であるStixelを,CNNを用いて解決 するStixelNetを提案.今回は障害物検知のみならず道路領域 のセグメンテーションタスクも同時に解いている.実験はKITTI データセットに対して行った. 下図はStixelNetの入力(右)と障害物検出の結果例(左)である. 棒状(stick)の入力から「走れない」領域,つまり障害物領域を 検出するのがStixelであるが,手法をCNNに置き換えて実現し た. 左図はStixelNetのアーキテクチャ,右図はセグメンテーションの入力と出力であ る. StixelNetは全5層であり,うち2層が畳み込み,2層が全結合,1層がsoftmaxであ る.Stixel Inputから障害物と道路の境目を抽出し,その後セグメンテーションを実 行する.最初のセグメンテーションをCRFを用いて更新する, グラフは障害物検出の結果,表はセグメンテー ションの結果である. Links 論文 http://www.bmva.org/bmvc/2015/papers/paper109/paper109.pdf プロジェクト http://www.cvlibs.net/datasets/kitti/eval_road_detail.php? result=94169f33bfc2b957eac6a0280c5016fd76dfde6f
  • 92. Qiyang Zhao, “Segmentation natural images with the least effort as humans”, in BMVC, 2015. 【87】 Keywords: Segmentation 新規性・差分 手法 結果 概要 自然画像に対するセグメンテーション(前景と背景の分離)に対 して,いかに人物の労力を軽減し,高速に実行するかを提案. 最小限の労力でかつ1秒以内という高速なセグメンテーション 手法を提供した. ・The Least Effort Principle (LEP)と名付けた手法は人物の労 力を最小限にすべく考案された ・ 表は提案のLEPを用いたセグ メンテーションの精度である. 従来の方法と比較すると,各 評価方式で見てみても精度が 向上した. Links 論文 http://www.bmva.org/bmvc/2015/papers/paper110/paper110.pdf コード https://github.com/leduoba/LEP
  • 93. Albert Gordo, Adrien Gaidon, Florent Perronnin, “Deep Fishing: Gradient Features from Deep Nets”, in BMVC, 2015. 【88】 Keywords: CNN, Fisher Vector, Deep Fishing 新規性・差分 手法 結果 概要 CNNとFisher Vectorの統合により新しい物体認識の枠組みを 提案する.CNNの畳み込みにより得られた勾配やフィルタリン グをいわゆるハンドクラフト特徴量とみなし,Fisher Vectors (FV)によりエンコーディングする. ・CNNのPre-trained Modelにより特徴量を抽出し,Fisher Vectorsによりエンコーディングすることにより,新しい特徴抽出 の枠組みとして提案 ・新しいカーネル抽出方法を提案する 下図はAlexNetのアーキテクチャである.畳み込みを繰り返し,最後のプーリング 層や全結合層,ソフトマックス層のベクトルを抽出し,直接Fisher Kernelに通す手 法や勾配間の類似度を計算する手法が提案された.実験ではAlexNetやVGGNet のアーキテクチャを採用した. 表はPascal Voc2007/2012におけるImage Classificationの結果である. Links 論文 http://arxiv.org/pdf/1507.06429.pdf プロジェクト http://www.cvc.uab.es/?p=2054
  • 94. Philipp Werner, Frerk Saxen, Ayoub Al-Hamadi, “Handling Data Imbalance in Automatic Facial Action Intensity Estimation”, in BMVC, 2015. 【89】 Keywords: Action Unit Intensity 新規性・差分 手法 結果 概要 顔認識のAction Unitの問題として,バイアスがありデータのバ ランスが保たれていない状態になることで最適化がうまく言って いなかった.提案手法では,過学習することなしに複数クラス の最適化を行い,それらを統合することで効果的なAction Unit 推定器を生成する. 複数クラスの最適化手法であるMIDRUS (Multiclass Imbalance Damping Random Under-Sampling)を提案し,それらをアンサン ブルで識別器を構成.Action Unitの推定として非常に優れた 手法である. 下図はAction Unit Intensityの時系列推定結果である.顔部から抽出された特徴 点の軌道から提案手法のMIDRUSやSVRによりその強度が推定されている. MIDRUSはマイノリティのバイアスを減らし,マジョリティの最適化の質を高めるべく 考案され,その手順は(1) 各クラスのサンプル数を数え (2) (1)で計算したクラス数 を参照し繰り返しなしかつランダムに過学習を防ぐべく最適化を行う.さらに,バギ ングを採用しており識別器のアンサンブルにより最終的な識別器を構成する. 表は提案手法と従来法の比較を示す. 提案手法の中でもImbalanced, Balanced, MIDRUSを比較して,AUの強 度推定にはMIDRUSがもっとも効果的 なことを示した. Links 論文 http://www.bmva.org/bmvc/2015/papers/paper124/paper124.pdf Supplimentary Material http://www.bmva.org/bmvc/2015/papers/paper124/sup124.zip
  • 95. A. Gilbert, Richard Bowden, “Data Mining for Action Recognition”, in ACCV, 2014. 【90】 Keywords: Apriori Algorithm, Dense Trajectories 新規性・差分 手法 結果 概要 行動認識のベクトル空間をデータマイニング手法のひとつであ るAprioriアルゴリズムにより探索し,効果的な次元のみで識別 する.Hollywood2 データセットにて65.1%の精度で識別可能. BoFのベクトル空間をマイニングし,低次元かつ高精度なベクト ルを生成可能. Dense TrajecotiresによるHOG/HOF/MBH/Traj.特徴と,BoFによるコーディング. BoF空間をAprioriアルゴリズムにより有効な次元を探索する.Support と Confidence(Lift)という指標である特徴がベクトル空間内でどの程度の頻度を保有 するかを評価する. Hollywood2データセットにて65.1%の精度で識別を実行した. Links 論文 http://personal.ee.surrey.ac.uk/Personal/R.Bowden/ publications/2014/Gilbert_ACCV_2014pp.pdf 参考 http://hirokatsu16.blog.fc2.com/blog-entry-105.html
  • 96. Xiaojiang Peng, Yu Qiao, Qiang Peng, Xianbiao Qi, “Exploring Motion Boundary based Sampling and Spatial- Temporal Context Descriptors for Action Recognition”, in BMVC, 2013. 【91】 Keywords: Dense Trajectoires, Motion Boundary 新規性・差分 手法 結果 概要 オプティカルフローの画像空間内にてDense Trajectories (DT) を抽出することでノイズが除去されるというメリットを取ることが できる.さらに,HOGやHOFなどのみならず,共起特徴量を時 系列に拡張することで高次の特徴表現を可能とした. ・RGB空間では照明のちらつきや,自然条件などにより背景ノ イズを多く含んでしまうが,オプティカルフロー空間内のモー ション境界(Motion Boundary)を参照することによりこのノイズは 大幅に除去されると主張.DTにおいてノイズの除去が課題で あったので,大きな効果があった. 下図は(a)~(c)が通常のRGB画像入力,特徴サンプリングと動線抽出,(d)~(f)がオプ ティカルフロー画像を入力した際の特徴サンプリングと動線抽出である.さらに,時 系列動線から共起特徴量CoHOG/CoMBH/CoHOFにより特徴抽出. KTH, YouTube, HMDB51にて実験を行った. HMDB51については特に難しい問題であるが,Dense Trajectoriesga 46.6%に対して提案手法はノイズ除去と特徴改善により49.22%に向上した. Links 論文 https://www.researchgate.net/profile/Xianbiao_Qi2/publication/ 259399483_Exploring_Motion_Boundary_based_Sampling_and_Spatial -Temporal_Context_Descriptors_for_Action_Recognition/links/ 00b7d52b7a0075d904000000.pdf ポスター http://mmlab.siat.ac.cn/personal/pxj/papers/poster_bmvc2013.pdf
  • 97. Michalis Raptis, Stefano Soatto, “Tracklet Descriptors for Action Modeling and Video Analysis”, in ECCV, 2010. 【92】 Keywords: Tracklet, HOG/HOF 新規性・差分 手法 結果 概要 簡易版のDense Trajectoriesという位置付けであり,短い動線 の追跡や形状やモーションを記述することができる. それまではSTIPやCucoidsなど単純(XYT: 3x3x3)かつスパース なパッチの表現であったが,トラッキングと特徴記述の組み合 わせにより行動を定義した. 任意の手法で領域の追跡を行い, HOG/HOF/Variying Length (動線の 長さを記述)と3種の特徴記述を行 う.時間のずれを相殺するために Dynamic Time Warpingを採用した. 識別にはBag-of-features (BoF)によ るコーディングと識別器にはSVMを 採用. 表はKTHにおけるパフォーマンステ ストである.各学習とテスト項目にお いて高い性能を示した. Links 論文 http://vision.ucla.edu/papers/raptisS10.pdf プロジェクト(コードあり) http://vision.ucla.edu/~raptis/tracklets.html
  • 98. Michalis Raptis, Iasonas Kokkinos, Stefano Soatto, “Discovering Discriminative Action Parts from Mid-Level Video Representatiions”, in CVPR, 2012. 【93】 Keywords: Mid-Level Feature, Dense Trajectories 新規性・差分 手法 結果 概要 Dense Trajectories (DT)のベクトルを人体パーツごとにクラスタ リングしてそれぞれベクトルを抽出することで,従来のDTの Low-levelな表現のみでなく姿勢パーツごとのMiddle-level(より 高次な情報)な表現を可能とした. ・DTでは特徴抽出とBoFによるコーディングを行うため,低レベ ル特徴に止まっていたが,それをMiddle-levelの特徴に拡張し た.図をみると必ずしも姿勢ごとに分かれているわけではない が,統計的に意味のあるまとまりである. 動線はDense Trajectoriesの仕組み(Farneback Optical FlowとそのMedianによるフ レーム間対応付け)を用いた.フローを領域ごとにクラスタリングすることでAction Partsを生成した.クラスタ間の時系列特徴のつながりはMid-level part modelを保 有しており,MRFにより学習される. Hollywood Human Action (HOHA)やUCF-Sportsデータセットに対して評価を行っ た.State-of-the-artではないものの,各パーツに区切ることで表現能力が増すこ とが判明した. Links 論文 http://vision.ucla.edu/papers/raptisKS12.pdf プロジェクト(コードあり) http://vision.ucla.edu/~raptis/action_parts.html
  • 99. Heng Wang, Alexander Kläser, Cordelia Schmid, Cheng-Lin Liu, “Dense Trajectories and Motion Boundary Descriptors for Action Recognition”, in International Journal of Computer Vision, 2013. 【94】 Keywords: Dense Trajectories, Motion Boudary Histogram, Action Recognition, 新規性・差分 手法 結果 概要 Dense Trajectories および Motion Boundry Discriptorに基づく 動画の表現方法の提案 ・Optical Flowを微分したMotion Boundary Histogram(MBH)を提 案 ・記述子としてHOG,HOF,MBHを使用したロバストで効率的な アルゴリズム 下図に本提案手法のフレームワークを示す. (1)ピラミッド画像(1/√2ずつ縮小)を生成し,各スケール毎にサンプリング (2)15フレームの動画像からFarneback Optical Flowを用いてフロー抽出,  Median Filterによるフロー対応付けを行う. (3)(2)で追跡された動線から周辺領域を抽出し,局所特徴量HOG, HOF,  MBHを取得する. 各データセットにおける従来手法との比較結果に示す. いずれのデータセットにおいても高い精度を有していることがわかる. Links 論文 http://goo.gl/nkfM4J