AGA_CVPR2017

Attribute Guided Augmentation
2017/06/18
伊神大貴
(@_Nonane_)
最新のML, CV, NLP関連
論文読み会

TL; DR
2
Data Augmentationを特徴量空間で行う
-Encoder-Decoderネットワークを用いて所望の
One-shot object recognition
実験
Attributeを持つような特徴量に変換する
Object-based one-shot scene recognition
-物体検出ネットワークを使ってワンショットシーン認識
-提案手法でAugmentationすると精度が上がるやったー！

Data Augmentation
3
Cifar-10, 9層のConvNet [1]
Method error
Without DA 9.08%
With DA 7.25%
With Large DA 4.41%
[1] JT Springenberg, Striving for Simplicity: The All Convolutional Net
学習データを人工的に増やす
flipping random cropping

目的・手法
4
DAを特徴量空間で行う
-Deep featureをSVMに突っ込む場合などは生画像
をDAするより特徴量をDAしたほうがよい
𝐱 ∈ 𝒳に対していい感じに特徴量を変換する
𝒳: feature space (an object)
𝜙 𝐱 : 𝒳 → 𝒳
を学習する

目的・手法
5
DAを特徴量空間で行う
𝐱 ∈ 𝒳に対して属性𝑡を持つように変換する関数
𝐱 = 𝜙 𝐱 ,
を学習する
𝑠. 𝑡. 𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒 𝐱 = 𝑡
-Deep featureをSVMに突っ込む場合などは生画像
をDAするより特徴量をDAしたほうがよい

Tables with depth
in the range of 1-2[m]
6
𝐱 = 𝜙 𝐱, 𝑡
目的：𝜙の学習
𝑠. 𝑡. 𝛾 𝐱 = 𝑡
Input: 画像特徴𝐱
output: 画像特徴 𝐱
s.t. アトリビュート𝛾 𝐱 = 𝑡

7
Attribute regressor 𝛾 𝐱 : 𝒳 → ℝ+
Feature regressor 𝜙 𝐱, 𝑡 : 𝒳 × ℝ+ → 𝒳

8
Feature regressor 𝜙𝑖
𝑘
𝐱 : 𝒳 → 𝒳
𝑖: 入力特徴のアトリビュート（区間）
𝑘: 出力特徴のアトリビュート
入力区間数 × 出力ターゲット数 × アトリビュート数
の𝜙𝑖
𝑘
を学習する

Attribute regressor
9
何でもいい
今回は二層のNN

Feature regressor
10
Feature regressor
𝜙𝑖
𝑘
𝐱 : 𝒳 → 𝒳
min
𝜙
𝐿 𝐱, 𝑡 𝑘; 𝜙 = 𝐿1 + 𝜆𝐿2
𝐿2 = 𝜙 𝐱 − 𝐱 2
2
𝐿1 = 𝛾(𝜙 𝐱 − 𝑡 𝑘
2
Attribute error
Regularizer (same object)

Experiments
11
Attribute regressor, Feature regressor
の性能評価
-物体検出ネットワークを使ってワンショットシーン認識
-提案手法でAugmentationすると精度が上がるやったー！

Dataset
12
SUN RGB-D
103,35 RGB-D images
2D & 3Dのバウンディングボックス（BB）

Dataset
13
今回用いたAttribute 𝒜 = depth, pose
-depth: BBの中心
-pose: BBのz軸周りの回転
SUN RGB-D
103,35 RGB-D images
2D & 3Dのバウンディングボックス（BB）

Experiments: attribute regressor
14
Attribute regressor 𝛾 𝐱 : 𝒳 → ℝ+を学習する
入力：Fast RCNNのFC7
出力：depthとpose

15
Depth [m] Pose [deg]Median
absolute error
同一クラスで学習 vs クラスを無視して学習
Depth
0.2m, 7.5m
Pose
0°, 180°
データが少ない
(lamp, door)と厳
しい

Experiments: feature regressor
16
Feature regressor 𝜙𝑖
𝑘
𝐱 : 𝒳 → 𝒳を学習する
入力：Fast RCNNのFC7
出力：それっぽい特徴ベクトル
評価：
1. 同じオブジェクトの特徴
→ピアソンの相関係数
2. 所望のアトリビュート値
→𝛾 𝐱 と𝑡 𝑘のMAE

17
学習に使ってないオブジェクト
でもそこそこのスコア

Experiments: one-shot recognition
18
データセット1: ソースクラス𝒮
-アトリビュート付き，大量のデータ
-𝜙と𝛾をこれでトレーニング
データセット2: ターゲットクラス𝒯
-各クラス1枚，アトリビュート無し
-𝒮 ∩ 𝒯 = ∅
𝒯から1枚学習用サンプルを選び，SVMで学習
残りでテスト，を500回繰り返す

Experiments: one-shot recognition
19
RCNNで得られた物体候補特徴をAGAで増やす
（𝒯1, 𝒯2:10クラス，𝒯3:20クラス）
D: Depth augmentation, P: Pose augmentation

20
物体検出ネットワークの特徴ベクトルから
シーン認識を行う
AggregateFast RCNN
0.2
−0.8
⋮
0.4
Images from A. Gupta, From 3D Scene Geometry to Human Workspace
SVM

Experiments
21
MIT Indoor dataset
-屋内シーン認識
-25 classのサブセットを使用
Base line:
RCNNの候補領域の特徴をMax Pooling
提案手法:
特徴をAGAで増やしてFisher Vector

まとめ，感想
23
Data Augmentationを特徴量空間で行う
実験
-普通のAugmentationとの比較は？
-one-shotじゃない場合の精度向上はどの程度？
-Encoder-Decoderネットワークを用いて所望の
Attributeを持つような特徴量に変換する

AGA_CVPR2017

More Related Content

What's hot (20)

Similar to AGA_CVPR2017 (20)

AGA_CVPR2017