Towards Performant Video Recognition

Towards Performant Video Recognition
若宮天雅、笠井誠斗、石川裕地、片岡裕雄
1
http://xpaperchallenge.org/cv

自己紹介
2
● 若宮天雅
東京電機大 M2・産総研RA
● 石川裕地
慶應義塾大 M2・産総研RA
● 笠井誠斗
慶應義塾大 M2・産総研RA
CVPR 2019@ロングビーチにて

導入
3
● 動画認識
○ 理解に繋がる情報を動画から抽出すること
画像同様に深層学習による解析手法が主流
画像よりも不要な部分が多いため難しい
担当：若宮 
入力
video ● ラベル
throwing, basketball, …
● 時間区間
● キャプション
A man is throwing a ball.
　　etc…
出力

導入
4
● CNNによる動画解析手法
○ 主に3種類の手法
• 下記の通り，何れの手法も出力の確率分布は時間的に積分
• 2D CNN: 空間畳み込み
• 3D CNN: 固定長の時空間畳み込み
• (2+1)D CNN: 時間と空間の畳み込みを分離，順次処理
担当：若宮

導入
5
●
●
●
●
●
○ 画像認識と同様の手法
○ 時系列拡張されていないため RNN 等やオプ
ティカルフロー画像などの工夫が必要
担当：若宮

導入
6
●
●
●
●
●
○ 時系列方向にカーネルサイズを拡張をすること
により動きの特徴表現を獲得
○ (2 + 1)D CNNよりも先に登場
担当：若宮

導入
7
●
●
●
●
●
○ 空間方向に 2D Conv，時間方向に 1D Conv を
もつカーネルによる時系列拡張
○ 認識精度的にSoTAな手法 
担当：若宮

導入
8
時系列拡張した CNN について
● 2017年くらいまで 2D CNN が主流
○ オプティカルフローを用いた two-stream
○ 時系列拡張した CNN の認識精度が低い
○ データ不足による過学習
● 大規模動画データセットによるの認識の発展
○ YouTube の登場
○ Kinetics-400 データセット
2017年のI3D + Kinetics-400がGame Changer
担当：若宮

導入
9
2004年 
KTH 2391 動画 
2008年 
Holywood 
430 動画 
2011年 
HMDB 
6894 動画 
2012年 
UCF-101 
13320 動画 
2015年 
ActivityNet 
19994 動画 
2016年 
Youtube-8M 
5.6M+ 動画 
2017年 
Kinetics-400 
300K+ 動画 
2018年 
Moments in Time 
1M+ 動画 
2004年 
2020年現在 
急速な データ量の増加 
・・・ 
・・・ 
担当：若宮 
102
- 104
order; Learning by hand-crafted features  
104
- 105
order; Learning by 2D CNNs  
105
- 106
order; Learning by 3D CNNs  
2019/2020年 
Kinetics-600/700 
500K+/650K+ 動画 
2020年 
HVU 
550K+動画 
動画あたり複数ラベル

導入
10
● Kinetics: The Kinetics Human Action Video
Dataset [Key+, arXiv]
○ 行動クラス → 400 クラス!!
○ 動画数 → 300K+ 動画!!
圧倒的なデータ量！
→ 2D CNNと比較してパラメータ数が
膨大な3Dの学習を成功！！
担当：若宮 
https://arxiv.org/abs/1705.06950

導入
11
● Can Spatiotemporal 3D CNNs Retrace the
History of 2D CNNs and ImageNet? [Hara+ ,
CVPR 2018]
○ 3D CNNが Kinetics を過学習せずに学習可能
○ Kinetics の学習済みモデルを使えば
UCF-101/HMDB-51やActivityNet も学習が可
能
事実上の動画 × 3D CNN が可能となり、
動画認識の時代の開幕
担当：若宮 

導入
12
● 深層学習やデータセットの拡大・拡張
○ 様々な動画認識のコンペが登場
■ ActivityNet Challenge（CVPR WS）
■ Kaggle (e.g. YouTube-8M Challenge)
■ Moments in Time Challenge
■ etc…
○ 動画認識の手法×コンペのノウハウの調査
■ 対象ドメインに対して最高の性能を持つため
の方法
■ 手法などのサーベイだけでは勝てない？？
担当：若宮

Agenda
13
● 論文紹介
○ 以下のタスクに関する論文を参照
■ ActivityNet Challenge
■ (Kaggle) YouTube-8M Large-Scale Video
Understanding Challenge
■ Moments in Time Challenge etc...
● メタ部分
○ ActivityNet Challengeで勝利するための秘訣を
模索する
○ 動画認識分野の傾向・展望
担当：若宮

ActivityNet Challenge
16
● どんなコンペ？
○ 動画認識界では最大規模
■ proposal（イベント時間推定）
■ localization（指定した行動の時間推定）
■ captioning（イベント時間を推定・文章生成）
■ Kinetics-X00（X=4, 6, 7; 行動クラスの識別）
■ etc...
○ 対象動画データセット
■ ActivityNet
■ Kinetics-X00（X=4, 6, 7）
■ AVA dataset
■ etc...
担当：若宮

ActivityNet Challenge 
Kinetics-X00

ActivityNet
18
● Kinetics-X00（X = 4, 6, 7）
○ 与えられたフレーム（10 秒）に対して行動ラベルを推測する
タスク
○ 学習するデータの詳細
■ ラベル数： X00（X=4, 6, 7）
■ 動画数 : 300k動画, 500K 動画, 650K動画
■ フレーム数 : 300枚
○ 予測する行動ラベル例
■ abseiling
■ air drumming
■ answering questions
■ applauding
■ etc...
担当：若宮

A Short Note on the Kinetics-700 Human Action Dataset
[Carreira+, arXiv]
19
● ActivityNet 2019 Kinetics-700 Challengeのタスク・データセットの
提案論文
● 手法
○ RGB のみを用いた I3D（ベースの手法として提案）
● 結果
○ Top-1 acc : 57.3%（ベースライン） 
担当：若宮 

Exploiting Spatial-Temporal Modelling and Multi-Modal Fusion for
Human Action Recognition [He+, arXiv] 
20
● 学会・順位
○ ActivityNet 2018 Kinetics-600 Challenge の1位論文
● 手法
○ 従来の手法よりも空間方向と時間方向から総合的に動画を認識できる
spatial-temporal network (StNet) の提案
○ RGB・TVL1 Flow・Farneback Flow・Audio を結合する improved
temporal Xception network (iTXN) を提案
● 結果
○ Top-1 acc : 82.4%
○ モデルのアンサンブルにより Top-1 acc : 85.0% 
担当：若宮 

YH Technologies at ActivityNet Challenge 2018 [Yao+, ICCV 2018]
21
● 学会・順位
○ ActivityNet 2018 Kinetics-600 Challenge の2位論文（Ting Yao はすべ
てのコンペに参加した強者）
● 手法
○ 2D 空間畳み込みと 1D 時間方向を組み合わせた Pseudo-3D Residual
Network (P3D) を使用
○ Audio は MFCC に変換, RGB と Optical Flow では Compact Bilinear
Pooling (CBP) を使用
● 結果
○ Top-1 acc : 83.75%
担当：若宮 

Qiniu Submission to ActivityNet Challenge 2018 [Zhang+, arXiv]
22
● 学会・順位
○ ActivityNet 2018 Kinetics-600 Challenge の3位論文 (MiT も3位)
● 手法
○ 動画から一定数のフレームをクリップする手法である temporal segment
network (TSN) とある注目点の値を特徴マップ中全てに重み付き和とし
て与えることでグローバルな特徴を学習する non-local neural network
を構成し，マルチモーダルな動画認識の方法を提案
● 結果
○ Top-1 acc : 83.5%
担当：若宮 

Learning Spatio-Temporal Representation with Local and Global
Diffusion [Qiu+, CVPR2019]
23
● 学会・順位
○ ActivityNet 2019 Kinetics-700 Challenge の1位論文
● 手法
○ 時空間特徴学習を促進するために Local 表現と Global 表現を平行に
学習するニューラルネットワークアーキテクチャである Local and Global
Diffusion (LGD) を提案
● 結果
○ Kinetics-400 Top-1 acc : 81.2%
○ Kinetics-600 Top-1 acc : 82.7%
担当：若宮 

Action Recognition の傾向
24
● 基本的にはマルチモーダルが強い
○ 情報量は多ければ精度も上がる
● モデルのアンサンブルが精度追求の上では有効
● 優勝チームの精度の遷移
○ 概ねできるようになってきた
■ ActivityNet Challenge 2020 では action recognition のタスクが廃止
(spatio-temporal) action localization のタスクが増える
Kinetics Team Average Error
2017 400 Tsinghua and Baidu 12.4
2018 600 Baidu Vis 10.99
2019 700 JD AI Research 17.88
担当：若宮

Action Proposal Generation
26
● どんなタスク？
○ CVPR workshop ActivityNet Challenge にて開催
○ 動画中の action が起こっていそうな時間区間 (Action Proposal) を予
測
○ action localization や dense-captioning のタスクにも使われる
● データセット
○ ActivityNet
■ 動画数 : 20k動画
■ 計 648 時間
● 評価指標
○ The area under the Average Recall vs Average Number of
Proposals per Video (AR-AN) with tIoU thresholds
担当：石川

Action Proposal Generation の主な手法 (1/2)
27
Anchor-based Approaches
● マルチスケールな anchor を用いて proposal を生成
● 主な手法
○ SSAD[1]
, CBR[2]
, TURN TAP[3]
● 長所
○ マルチスケールの proposal を効果的に生成できる
○ 全ての anchor の情報を同時に捉えるため，
○ confidence score が信頼できることが多い
● 短所
○ anchor の設計が難しい
○ 正確でないことが多い
○ 様々な時系列区間を捉えるのが難しい 
担当：石川 
[1] T. Lin, “Single Shot Temporal Action Detection”, in ACM Multimedia 2017  
[2] J. Gao, “Cascaded Boundary Regression for Temporal Action Detection”, in BMVC 2017  
[3] J. Gao, “TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals” in ICCV2017

Action Proposal Generation の主な手法 (2/2)
28
Anchor-free Approaches
● action boundary や actioness を評価して，proposal を生成
● 主な手法
○ TAG[1]
, BSN[2]
, BMN[3]
● 長所
○ 時系列方向の区間を柔軟に，かつ正確に proposal を生成可能
○ BSP (Boundary Sensitive Proposal) features を用いれば，
○ confidence score の信頼性が上がる
● 短所
○ feature の設計と confidence score の評価が別々で
行われるため，非効率的である
○ 特徴量が単純になりがちで，時系列方向のコンテキストを捉えるには不
十分である場合がある
○ multi-stage で，end2end なフレームワークではない
担当：石川 
[1] Yue Zhao et al., “Temporal Action Detection with Structured Segment Networks” in ICCV 2017  
[2] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation” in ECCV 2018  
[3] T. Lin et al., “BMN: Boundary-Matching Network for Temporal Action Proposal Generation”, in ICCV 2019

SSAD
29
担当：石川 
Single Shot Temporal Action Detection
Tianwei Lin, Xu Zhao, Zheng Shou, in ACM Multimedia 2017
● Anchor-based の手法
● 物体検出で用いられる SSD を action detection に拡張
● default anchor に対する時系列方向の offset を予測

BSN (Boundary Sensitive Network)
30
担当：石川 
BSN: Boundary Sensitive Network for Temporal Action Proposal Generation
Tianwei Lin, Xu Zhao, Haisheng Su, Chongjing Wang, Ming Yang in ECCV 2018
● ActivityNet Challenge 2018 winner
● 動画特徴量からの starting point, ending point, actioness を推定
● starting point と ending point の起こりうる組み合わせを
action proposal と見なして，その区間での actioness で評価
● Soft-NMS を使用して，proposal の重複を抑える

BMN (Boundary Matching Network)
31
担当：石川 
BMN: Boundary-Matching Network for Temporal Action Proposal Generation
Tianwei Lin, Xiao Liu, Xin Li, Errui Ding, Shilei Wen in ICCV 2019
● ActivityNet Challenge 2019 winner
● 動画特徴量から action boundary を予測した後，全ての proposal の信頼度を
評価するための Boundary- Matching Confidence Map を作成し，
proposal を決定する

Action Proposal Generation の傾向
32
● Anchor-free approach が主流
● Baidu Visが二年連続優勝
○ 中でも Tianwei Lin が action proposal の分野をリード
● action proposal が強いチームは他タスクでも好成績
○ action localization: (2019) Baidu Vis 優勝, (2018) Baidu Vis 3位
○ dense-captioning 2019: Baidu Vis 2位
● 優勝チームの精度
○ 精度の向上もゆるやかになってきた
■ この結果を受け，ActivityNet Challenge 2020 では
action proposalのタスクが廃止され，action localization にシフト
Team AUC
2017 SJTU and Columbia 64.80
2018 Baidu Vis 71.00
2019 Baidu Vis 72.98
担当：石川

ActivityNet Challenge 
Dense Captioning

Dense Captioning Events in Videos
34
● どんなタスク？
○ 与えられた動画に対して複数イベントのタイムスタンプ・キャプションを出
力するタスク
○ 動画理解に深くアプローチする！
● データセット： ActivityNet Captions [Krishna+, ICCV 2017]
● 評価方法：tIoU 閾値ごとの METEOR の平均
担当：笠井

Dense Captioning Events in Videos [Krishna+, ICCV 2017]
35
● タスク・データセットの提案論文
● 手法
○ 行動候補領域の表現に、他のイベントの表現を付加した過去・未来の情
報を追加してキャプショニングを行う
● 結果
○ METEOR : 4.82 (この数値がベースラインとなる)
担当：笠井 

RUC+CMU: System Report for Dense Captioning Events in Videos
[Shizhe+, CVPR WS 2018]
36
● 学会・順位
○ 2018 Challenge にて優勝手法となった論文
● 手法
○ クリップ分割ののち特徴抽出・スライディングウィンドウで候補領域取得・
尤度 s_p 算出
○ キャプションモデルのアンサンブルで尤度 s_c 算出、SCST 使用
○ 最後にキャプション・候補領域を s = s_p * s_c を用いてリランキングを行
い最終的な予測結果を得る
● 結果
○ METEOR : 8.524
担当：笠井 

End-to-End Dense Video Captioning with Masked Transformer [Zhou+,
CVPR 2018]
37
担当：笠井 
● 学会・順位
○ CVPR 2018 (Challenge には載っていない？)
● 手法
○ Transformer を用いて End-to-end Dense Captioning を達成
○ Action Proposal を微分可能にしてキャプションの情報をフィードバックし
ている
● 結果
○ (val METEOR : 9.56)

Streamlined Dense Video Captioning [Mun+, CVPR 2019]
38
● 学会・順位
○ CVPR 2019
● 手法
○ Action Proposal, Event Sequence Detection, Captioning のフロー
○ Event Sequence Generation Network が Pointer Networks を使用
● 結果
○ (val METEOR : 13.07)
担当：笠井 

Exploring Contexts for Dense Captioning Events in Videos
[Shizhe+, CVPR WS 2019]
39
● 学会・順位
○ CVPR 2019 Challenge 優勝手法
● 手法
○ Intra-event や Inter-event のキャプショニングモデルを採用してイベント
間の関係をモデリング
○ 特徴量としては時間情報や物体情報・マルチモーダル情報を活用
● 結果
○ METEOR : 9.90
担当：笠井 

Dense Captioning の手法の傾向
40
● 一般的には proposal, event sequence generation, captioning
の順番で行われる
○ 単純なキャプショニングではなく、キャプション間にも関係は
ある (代名詞、接続詞)
○ Event Sequence Generation (多くのプロポーザルから必要
十分なイベントの順番を決定する) が特有のタスク
○ 基本的にほぼフレームレベルの特徴を使用している
● End-to-end の手法でひときわ目立っている Masked
Transformer
○ 一気通貫で Dense Captioning を行うスゴい手法
○ 考えてみれば可変長の動画 → 可変長のキャプションならば
seq2seq の手法が良いのでは？

The 2nd YouTube-8M Large-Scale
Video Understanding Challenge

The 2nd YouTube-8M Large-Scale Video Understanding Challenge
42
○ 与えられたフレームに対して行動ラベルを予測するタスク
○ 学習する動画
■ Youtube-8M
– ラベル数 : 3862
– 動画数 : 5.6M 動画
○ 条件
■ 1G 以下のモデルサイズ
担当：若宮

Building a Size Constrained Predictive Model for Video Classification
[Skalic+, ECCV 2018 WS]
43
● 学会・順位
○ The 2nd YouTube-8M Large-Scale Video Understanding Challenge
の動画認識コンペの1位
● 手法
○ NetVLAD, Deep Bag of Frames, FVNet, RNNのモデルとモデルの蒸
留によって親と子を最小化するように学習
● 結果
○ GAP（評価方法） : 0.89053
担当：若宮 
http://openaccess.thecvf.com/content_eccv_2018_workshops/w22/html/Skalic_Buildin
g_a_Size_Constrained_Predictive_Model_for_Video_Classification_ECCVW_2018_pa
per.html

Label Denoising with Large Ensembles of Heterogeneous Neural
Networks [Ostyakov+, ECCV 2018 WS]
44
● 学会・順位
○ The 2nd YouTube-8M
Large-Scale Video
Understanding Challengeの動
画認識コンペの2位
● 手法
○ 様々なモデルのアンサンブルし
た結果をLGBM勾配加速モデ
ルに入れて蒸留ラベルの生成
後に蒸留することで高い精度を
算出
● 結果
○ GAP : 0.88729
担当：若宮 

NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for
Large-scale Video Classification [Lin+, ECCV 2018 WS]
45
● 学会・順位
○ The 2nd YouTube-8M Large-Scale Video Understanding Challenge
の動画認識コンペの3位
● 手法
○ 高速かつ効率的な NeXtVLAD を提案
● 結果
○ GAP : 0.8798 (val)
担当：若宮 

Youtube-8M challengeの傾向
46
● 知識蒸留
○ モデルサイズに制限がある場合必須
● ResNetなどのDeepな手法はサイズが大きいため使用不可
● Kinetics-X00のコンペ同様にモデルのアンサンブルは本コンペ
でも有効
担当：若宮

Moments in Time Challenge
48
○ 与えられたフレーム (3秒) に対して行動ラベルを認識するタ
スク
○ 対象動画
■ Moments in Time Challenge (2018, 2019)
– ラベル : 339, 313 (マルチラベル)
– 動画数 : 1M 動画
– 補足 : ラベルを動詞に統一
担当：若宮

Moments in Time Dataset: one million videos for event understanding
[Monfort+, IEEE 2019]
49
● 学会・順位
○ Moments in Time Challenge 2018 のタスク・データセットの提案論文
● 手法
○ 様々な手法を実験（右図）
● 結果
○ Top-1 acc : 0.3116 
担当：若宮 

Team DEEP-HRI Moments in Time Challenge 2018 Technical Report
[Li+, CVPR 2018 WS]
50
● 学会・順位
○ Moments in Time Challenge 2018の動画認識コンペの1位
● 手法
○ 提案するMV-CNNと2018年にSoTAであった手法のモデルアンサンブル
○ モデルアンサンブル時にはオプティカルフローは未使用
○ AudioはResNetを用いて認識
● 結果
○ Top-1 acc : 0.3864
担当：若宮 
http://moments.csail.mit.edu/challenge2018/DEEP_HRI.pdf

Submission to Moments in Time Challenge 2018
[Li+, CVPR 2018 WS]
51
● 学会・順位
○ Moments in Time Challenge 2018の動画認識コンペの2位
● 手法
○ RGB情報をI3D ResNet50, Xception, SENetで認識, 動き情報をTV-L1
で Optical Flow を取得してから BN-Inception で認識, 音情報を
VGG16 で認識してそれぞれ5つのモデルをアンサンブルにすることで高
い認識精度を出力
● 結果
○ Top-1 acc : 0.3750
担当：若宮 
http://moments.csail.mit.edu/challenge2018/Megvii.pdf

Multi-Moments in Time: Learning and Interpreting Models for
Multi-Action Video Understanding [M. Monfort+, arXiv]
52
● 学会・順位
○ Moments in Time Challenge
2019 のタスク・データセットの
提案論文
● 手法
○ I3D を軸に様々な手法を実験
（右図）
● 結果
○ Top-1 acc : 0.593 
担当：若宮 

Alibaba-Venus at ActivityNet Challenge 2018 - Task C Trimmed Event
Recognition (Moments in Time) [Chen+, CVPR 2018 WS]
53
● 学会・順位
2018 の動画認識コンペの4位
● 手法
○ 様々なモデルを実験し、TRN
（下図）に時間方向のアテンショ
ン機構を追加
● 結果
○ Top-1 acc : 0.3551
担当：若宮 
http://moments.csail.mit.edu/challenge2018/Alibaba_Venus.pdf

Team Efficient Multi-Moments in Time Challenge 2019 Technical Report
[Zhang+, ICCV 2019 WS]
54
● 学会・順位
○ Moments in Time Challenge 2019 の動画認識コンペの1位
● 手法
○ TSN, TRN以外にも新たにシフト距離と特定の入力データとの関係を学
習するネットワークである Temporal Interlacing Network (TIN) を提案
○ SlowFast やその改良型も実験
● 結果
○ mAP : 0.6077
担当：若宮 
http://moments.csail.mit.edu/challenge2019/efficient_challenge_report.pdf

Alibaba-AIC: Submission to Multi-Moments in Time Challenge 2019
[Li+, ICCV 2019 WS]
55
● 学会・順位
● 手法
○ マルチラベルタスクのラベルに着目したことから焦点損失関数とラベル相
関関数を結合した損失関数を使用
● 結果
○ mAP : 0.6051
担当：若宮 
http://moments.csail.mit.edu/challenge2019/Alibaba-AIC_challenge_report.pdf

Team SPEEDY Multi Moments in Time Challenge 2019 Technical Report [Liu+,
ICCV 2019 WS]
56
● 学会・順位
● 手法
○ 各モダリティ情報の集合からコンテキスト情報を抽出して最大限に動画認
識に使う speed expert を新たに提案
● 結果
○ mAP : 0.5810
担当：若宮 
http://moments.csail.mit.edu/challenge2019/speedy_challenge_report.pdf

Continuous Tracks CNN and Non-local Gating for Multi-class Video
Understanding [Yu+, ICCV 2019 WS]
57
● 学会・順位
2019 の動画認識コンペの4位
● 手法
○ SlowFast を改良した新たなモデ
ルである CT-CNN と短時間の動
画から複数の行動ラベルを出力
するためのNon-Local Gating モ
デルを提案
● 結果
○ mAP : 0.4858
担当：若宮 
http://moments.csail.mit.edu/challenge2019/SNUVL-RIPPLE_challenge_report.pdf

ActivityNet Challenge のタスクの変遷・歴史
59
担当：全員 
2016 2017 2018 2019 2020
ActivityNet
Classification
ActivityNet
Localization
Kinetics
Classification
ActivityNet
Proposal
ActivityNet
Dense-Captioning
AVA
Spatiotemporal
EPIC Challenges
(Egocentric)
ActEV
Spatiotemporal

ActivityNet Challenge のタスクの変遷・歴史
60
担当：全員 
2016 2017 2018 2019 2020
ActivityNet
Classification
ActivityNet
Localization
Kinetics
Classification
ActivityNet
Proposal
ActivityNet
Dense-Captioning
AVA
Spatiotemporal
EPIC Challenges
(Egocentric)
ActEV
Spatiotemporal
動画ならではの時間に着目した
タスク・複雑なタスクが残った

共通の知見
61
● Global 特徴＆ Local 特徴
○ 単純な GAP よりもさらなる追求が必要...？
● 背景特徴＆動き特徴
○ 背景バイアスが大きい
○ Optical Flow が必要な理由？
○ SlowFast Network の Fast 特徴？
●
担当：全員 
複数のGAPを使用

共通の知見
62
● 複数のモーダルを使うことで精度が上がる
○ RGB は必須だが Optical Flow や Audio は？
　→　コンペにおいては必要不可欠
担当：全員 
singing（CDのパッケージか何か？）  singing（おじさんが歌っている）  
ActivityNet Challenge Kinetics-600 一位論文から
Kinetics-600 においては 
RGB > Optical Flow >> Audio  
の順で重要だと考えられる

共通の知見
63
● 動画のRGBやAudioなどのモーダルのアンサンブルや
コンカットの手法の検討
● (2+1)D CNNよりも3D CNNの方が多い
○ コンペにおいては単純に性能が良い？ or 扱いやすい？
● 様々なコンペのBaseline ≒ I3D
担当：全員 
複雑化すればいいというわけではない？  
何らかのノウハウをトップランカーは知っている？

● ActivityNet Recognition Challenge (Kinetics) ランキングの変
動
　　　Dongliang HeとTing Yaoの2強
　
　　　　　　※Dongliang Heはランキング内にはいるが投稿が2019/11/21と締切には間に合っていない
強者たち
64
2018  2019 
担当：全員

強者たち
65
● Ting Yao（ActivityNet）
○ 中国北京 JD AI Research
○ 様々なコンペでトップ
 
Rank 1 in Multi-Source Domain Adaptation Track and Rank 2 in Semi-Supervised Domain Adaptation Track of Visual Domain
Adaptation Challenge at ICCV 2019.
Rank 1 in Trimmed Activity Recognition (Kinetics) of ActivityNet Large Scale Activity Recognition Challenge at CVPR 2019.
Rank 1 in both Open-set Classification Track and Detection Track of Visual Domain Adaptation Challenge at ECCV 2018.
Rank 2 in three tasks of Dense-Captioning Events in Videos, Temporal Action Localization, and Trimmed Activity Recognition
(Kinetics) of ActivityNet Large Scale Activity Recognition Challenge at CVPR 2018.
Rank 1 in Segmentation Track of Visual Domain Adaptation Challenge at ICCV 2017.
Rank 1 in Dense-Captioning Events in Videos and Rank 2 in Temporal Action Proposals of ActivityNet Large Scale Activity
Recognition Challenge at CVPR 2017.
Rank 1 in COCO Image Captioning.
 
 
 
担当：全員 
 
● JD AI Researchとは？
○ JD.COM が支持する研究団体
○ 特に最先端の AI を研究して実用化を図
るための団体
○ すでに実績はいくつか存在

強者たち
66
● Dongliang He (ActivityNet）
○ 中国北京 Baidu, Inc.
○ 2018年のActivityNet Recognition Challenge (Kinetics) に
おいて1位
担当：全員

強者たち
67
● Limin Wang, Xiong Yuanjun (ActivityNet 初代優勝者）
○ 元CUHK（香港中文大学）
○ 現在も行動認識に関しての研究中(e.g. TSN)
担当：全員

強者たち
68
● Tianwei Lin
○ Baidu Vis.
○ ActivityNet Challenge action proposalで2年連続優勝
担当：全員

強者たち
69
● Shizhe Chen
○ Renmin University of China
○ ACM MM, AAAI Reviewer と CV 以外の分野でも活躍
○ Dense Captioning Challenge 2連覇
担当：全員

生まれた問い・まとめ
70
● 結局、空間と時間はどう扱うべき？
○ 一緒にするべきではない (SlowFast, Two Stream)
○ 結局同じように扱ってもよい (3D CNN)
● どういうタスクがこれからの動画認識でホットか
○ 高次タスク (Spatiotemporal Action Localization)
○ マルチモーダル（Audio, Video & Language）
● 強い研究者は？
○ 企業：資金力と実験力が強い、コンペ人間を生み出す力があ
る、協力している人数が多い
○ アカデミア：コンペより研究向き？
担当：全員

Towards Performant Video Recognition

More Related Content

What's hot (20)

Similar to Towards Performant Video Recognition (20)

Towards Performant Video Recognition