論文紹介
Video Action Transformer Network
2019/7/6@CV勉強会
酒井 俊樹
自己紹介
名前:酒井 俊樹
所属:NTTドコモ
仕事:Deep Learningを使ったAPI/サービスの研究開発
● 画像認識のAPI開発
● 法人様向けソリューション提供
● スポーツ動画解析技術開発
本発表は個人で行うものであり、所属組織とは関係ありません。 2
著者
※特に断りのない限り、図表は著者らの論文、プロジェクトページ
(https://rohitgirdhar.github.io/ActionTransformer/)および著者らの動画から引用
3
概要: Spatio-temporal Action LocalizationでSOTA
● Spatio-temporal Action Localization(アクションの時空間定位?)
=ビデオクリップ中のKeyFrameについて、人の動作の認識&定位を行う
● 提案手法で既存手法から+3.5%, +7.5%の精度向上(評価データの違い)
● NLP分野でスタンダードとなったTransformerを利用したネットワークを提案
4
本論文を紹介する理由①
● 動画のようなより複雑なタスクへのDeep Learningの適用が拡大
○ 初期: 小さい、短い動画クリップの分類 →実用的でない
○ 最近: 大きな画像でActionの時空間的な定位 →実サービスで利用できそう
■ AVA Dataset: 長めの動画中の人の Actionを特定、時空間的に定位
● 80種類のAction
● 15分の動画 x 430本
5
→1.62M action labels
[Gu et al., CVPR 2018]
本論文を紹介する理由②
● NLP界隈ではスタンダードなTransformerをきちんと理解しておきたい&
CV分野でのRNN/LSTMの代替として、CV分野での適用方法を知りたい
○ Transformer: Attentionを利用したネットワークで、機械翻訳で SOTAを大幅に更新
○ その後、様々なNLPタスクのネットワークが Transformerベースに
6Attention Is All You Need [Łukasz Kaiser et al., arXiv, 2017/06]
先行研究: Two-Stream Inflated 3DConvNet(I3D)
● Videoのアクション分類のための手法
● Two-Stream: フレームのRGB情報だけでなく、optical flow情報も入力
● 3D ConvNet: 畳み込みをh, w方向だけでなく、t(もしくはd)方向にも
● Inflated: 2Dで、画像を入力として学習した重みを、3D Convの初期値とする
7[Carreira & Zisserman, CVPR 2017]
H
W
T
先行研究: I3Dのアクションの時空間定位への応用
● 動画クリップを特徴マップに変換
○ ビデオクリップ、OpticalFlowなど入力
○ I3D等複数のネットワーク
● RPNを用いて人領域を抽出
● 抽出された領域の特徴を抽出
● 学習ベースの分類器でBBox回帰、クラス分類
8
[Jiang et al., 2019]
提案手法
● 動画クリップを特徴マップに変換
○ ビデオクリップ、Flowなど入力ビデオクリップのみ
○ I3D等複数のネットワーク I3Dのみ
● RPNを用いて人領域を抽出
● 抽出された領域の特徴を抽出Transformerを使って特徴量化
● 学習ベースの分類器でBBox回帰、クラス分類
9
ビデオクリップ入力 I3D Transformer
BBox回帰
クラス分類
Region Proposal
なぜTransformerを使うのか?
● RPNで抽出された領域内の特徴を取ってくるだけでは、
Actionの推定に必要な周辺の情報を取ってくることができない
● より広い時間的、空間的な特徴の情報(Context)に選択的に注意を向けて
必要な情報を入力とし、領域内の人のアクションを推定する必要がある
10
Transformer
● 自己注意を用いて、周辺の情報(Context)を選択的に利用して次の層の出力を計
算するネットワーク
11
I like cat more than dog
embed
layer 1の特徴量
layer 2の特徴量
Transformer
● 自己注意を用いて、周辺の情報(Context)を選択的に利用して次の層の出力を計
算するネットワーク
12
I like cat more than dog
embed
layer 1の特徴量
出力候補の特徴(value)
線形変換
key
query
softmax =
weight
layer 2の特徴量
重みづけ平均を
取ったうえで線形変換
線形変換
線形変換
上記を繰り返してより深く
Transformer
● Location Embedding: 位置情報が失われてしまうので、位置をCodeした
特徴をConcatenateする(実際には、位置のインデックスではなく、位置をCodeした数値担っている)
● Multi-head Attention:
線形変換を複数用意することで、
AttentionのQ, K, Vを複数用意する
●
13
1 2 3 4 5 6
Transformer
● RNNよりも高精度
● 前のtの計算を待たないので、GPUでの学習効率が良い
○ 学習時
○ 推論時のエンコーダー
● Convolution, RNNよりも、より広範なContextの情報を利用することができる
14
提案手法のネットワーク
15
ビデオ
クリップ入力 I3D Transformer(2 head x 3)
BBox回帰
クラス分類
600x600
64 frame
3channel
25x25
16 frame
128 channel
● 単語→h, w, tで定義される1つのmap上の点
● クエリ→RPNで抽出されたKeyFrame上の
領域の特徴
RPNの抽出領域をクエリとして、時空間上の点に
注意を向け、特徴量を計算している
Resion
Proposal
抽出された領域からのクエリの作成
1. 抽出された領域はRoIプーリング&Maxプーリングで7x7x1x128の特徴に変換
2. 128次元のデータに変換
● HighRes: Region内での特徴の分布情報を残せるように
a. 1x1 Conv処理をかけて7x7x128の特徴を算出
b. 線形変換により128次元の特徴に変換
● LowRes: 単純なプーリング
a. H, W方向に平均を取って 128次元の特徴に変換
16
ベースライン: I3Dヘッダー
● 抽出された領域の特徴をRoIPoolingしたうえで、再度I3Dにかけて
クラス分類、BBox回帰する
17
実験条件
● 事前学習: I3Dをkinetics-400データセットで学習
● 学習
○ Data augmentation: あり(random flipとcrop)
○ Optimizer: SGD
○ Learning Rate: 0.01-0.1(warm up)
○ AVA Dataset
■ 80クラス
■ 430 x 15min video clips
■ 211K training
■ 57K validation(データが25サンプル以上ある60クラスのみを利用)
■ 117K testing
18
結果①: クラス分類部分の精度
● RPN部分をGroundtruthで代替することで、Transformer部分だけの効果を測定
○ GT Boxesを使うと、I3DよりもTransformerの法が、低Flopsで高精度
○ GT Boxesを使わないとTransformerで精度が下がる
■ RPNの提案するRegion数を64と少なめにしたことが影響している
(300にした版は後述)
19
結果②: BBox抽出の精度
● Actionのクラスを1つにまとめて評価
○ I3Dヘッドの方が高精度
○ Transformerは、クラス分類側に大きな精度向上をもたらす半面、
位置は正確さが犠牲になる傾向がある
20
結果③: 全過程での比較
● RPNで多くのRegionを抽出するとTransformerで高精度になる。
● 先行研究の手法と比べても高精度
21
注意の可視化
● 左: Keyの値の可視化(PCAで3次元に落とす)
○ 人というカテゴリに着目している Txと人のインスタンスに着目している Tx
● 右: Attentionの向いている部分の可視化
○ 人オブジェクトに注意が向いている
22
● 出現回数の多いクラスの方が精度が高い傾向にあるが、例外もある
● 領域が大きなActionの方が高精度
● 一つのクリップ内で、BBoxが少ない方が高精度
23
定性評価: 成功した例
● 人と人、人と物の関係を表したアクションが上手く認識できるようになった
24
定性評価: 失敗した例
a. 似た動作を喫煙と誤推定
b. 異なる人にアクションを紐づける
c. まだ動作が始まっていない/終わってしまったシーンにアクションを紐づけ
25
所感
● 先行研究よりも構成要素をよりシンプルにして精度向上している点が良い
● 特徴マップ上のx, y, tで定義される点をkey, valueとしてAttentionをかける点が、動
画データでのTransformerの使い方として参考になる
○ CV分野でもLSTM等からTransformerへの置き換えが進むか?
● 動画の処理では計算量が課題という点は残っている
● 2週間ほどで他のチームに精度がぬかされているので、
そちらのチームの手法も気になる
26

More Related Content

PDF
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
PDF
ディープラーニングの産業応用とそれを支える技術
PDF
実社会・実環境におけるロボットの機械学習
PDF
拡がるディープラーニングの活用
PPTX
ディープラーニングの車載応用に向けて
PPTX
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
PDF
【チュートリアル】コンピュータビジョンによる動画認識
PPTX
「実ロボットの運動生成」
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
ディープラーニングの産業応用とそれを支える技術
実社会・実環境におけるロボットの機械学習
拡がるディープラーニングの活用
ディープラーニングの車載応用に向けて
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
【チュートリアル】コンピュータビジョンによる動画認識
「実ロボットの運動生成」

What's hot (20)

PDF
【慶應大学講演】なぜ、博士課程に進学したか?
PDF
求職サービスの検索ログを用いたクエリのカテゴリ推定とその活用事例の紹介
PDF
非技術者でもわかる(?)コンピュータビジョン紹介資料
PPTX
Amazon Picking Challenge 結果報告
PPTX
ディープラーニングによる時系列データの異常検知
PDF
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
PDF
実世界Live Programmingの実現に向けて
PDF
機械学習システムの品質保証に向けた課題とコンソーシアム活動
PDF
Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太
PDF
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
PDF
ICCV2019 report
PDF
Dataset for Semantic Urban Scene Understanding
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PDF
機械学習品質管理・保証の動向と取り組み
PDF
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
PDF
Case study of DevOps for Hadoop in Recruit.
PDF
東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也
PDF
JTF2016 The strategy and Sun Tzu
PDF
リクルートにおける画像解析事例紹介
PDF
R-tech BDGにおける自然言語処理活動
【慶應大学講演】なぜ、博士課程に進学したか?
求職サービスの検索ログを用いたクエリのカテゴリ推定とその活用事例の紹介
非技術者でもわかる(?)コンピュータビジョン紹介資料
Amazon Picking Challenge 結果報告
ディープラーニングによる時系列データの異常検知
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
実世界Live Programmingの実現に向けて
機械学習システムの品質保証に向けた課題とコンソーシアム活動
Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
ICCV2019 report
Dataset for Semantic Urban Scene Understanding
これからの Vision & Language ~ Acadexit した4つの理由
機械学習品質管理・保証の動向と取り組み
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
Case study of DevOps for Hadoop in Recruit.
東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也
JTF2016 The strategy and Sun Tzu
リクルートにおける画像解析事例紹介
R-tech BDGにおける自然言語処理活動
Ad

Similar to CV勉強会CVPR2019読み会: Video Action Transformer Network (20)

PDF
【メタサーベイ】Video Transformer
PDF
動作認識の最前線:手法,タスク,データセット
PDF
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
PDF
動画認識サーベイv1(メタサーベイ )
PDF
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
PDF
【2017.04】cvpaper.challenge 2017
PDF
文献紹介:Video Transformer Network
PDF
Towards Performant Video Recognition
PPTX
CVPR 2017 報告
PPTX
近年のHierarchical Vision Transformer
PPTX
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
PDF
【チュートリアル】コンピュータビジョンによる動画認識 v2
PPTX
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
PDF
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
PDF
【2017.06】 cvpaper.challenge 2017
PDF
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
PDF
動画像理解のための深層学習アプローチ
PDF
【2016.09】cvpaper.challenge2016
【メタサーベイ】Video Transformer
動作認識の最前線:手法,タスク,データセット
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
動画認識サーベイv1(メタサーベイ )
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
【2017.04】cvpaper.challenge 2017
文献紹介:Video Transformer Network
Towards Performant Video Recognition
CVPR 2017 報告
近年のHierarchical Vision Transformer
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
【チュートリアル】コンピュータビジョンによる動画認識 v2
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
【2017.06】 cvpaper.challenge 2017
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
動画像理解のための深層学習アプローチ
【2016.09】cvpaper.challenge2016
Ad

CV勉強会CVPR2019読み会: Video Action Transformer Network