SlideShare a Scribd company logo
Attribute Guided Augmentation
2017/06/18
伊神 大貴
(@_Nonane_)
最新のML, CV, NLP関連
論文読み会
TL; DR
2
Data Augmentationを特徴量空間で行う
-Encoder-Decoderネットワークを用いて所望の
One-shot object recognition
実験
Attributeを持つような特徴量に変換する
Object-based one-shot scene recognition
-物体検出ネットワークを使ってワンショットシーン認識
-提案手法でAugmentationすると精度が上がるやったー!
Data Augmentation
3
Cifar-10, 9層のConvNet [1]
Method error
Without DA 9.08%
With DA 7.25%
With Large DA 4.41%
[1] JT Springenberg, Striving for Simplicity: The All Convolutional Net
学習データを人工的に増やす
flipping random cropping
目的・手法
4
DAを特徴量空間で行う
-Deep featureをSVMに突っ込む場合などは生画像
をDAするより特徴量をDAしたほうがよい
𝐱 ∈ 𝒳に対していい感じに特徴量を変換する
𝒳: feature space (an object)
𝜙 𝐱 : 𝒳 → 𝒳
を学習する
目的・手法
5
DAを特徴量空間で行う
𝐱 ∈ 𝒳に対して属性𝑡を持つように変換する関数
𝒳: feature space (an object)
𝐱 = 𝜙 𝐱 ,
を学習する
𝑠. 𝑡. 𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒 𝐱 = 𝑡
-Deep featureをSVMに突っ込む場合などは生画像
をDAするより特徴量をDAしたほうがよい
Tables with depth
in the range of 1-2[m]
6
𝐱 = 𝜙 𝐱, 𝑡
目的:𝜙の学習
𝑠. 𝑡. 𝛾 𝐱 = 𝑡
Input: 画像特徴𝐱
output: 画像特徴 𝐱
s.t. アトリビュート𝛾 𝐱 = 𝑡
Attribute Guided Augmentation
7
Attribute regressor 𝛾 𝐱 : 𝒳 → ℝ+
Feature regressor 𝜙 𝐱, 𝑡 : 𝒳 × ℝ+ → 𝒳
𝒳: feature space (an object)
Attribute Guided Augmentation
8
Attribute regressor 𝛾 𝐱 : 𝒳 → ℝ+
Feature regressor 𝜙𝑖
𝑘
𝐱 : 𝒳 → 𝒳
𝑖: 入力特徴のアトリビュート(区間)
𝑘: 出力特徴のアトリビュート
𝒳: feature space (an object)
入力区間数 × 出力ターゲット数 × アトリビュート数
の𝜙𝑖
𝑘
を学習する
Attribute regressor
9
Attribute regressor 𝛾 𝐱 : 𝒳 → ℝ+
何でもいい
今回は二層のNN
𝒳: feature space (an object)
Feature regressor
10
Feature regressor
𝜙𝑖
𝑘
𝐱 : 𝒳 → 𝒳
min
𝜙
𝐿 𝐱, 𝑡 𝑘; 𝜙 = 𝐿1 + 𝜆𝐿2
𝐿2 = 𝜙 𝐱 − 𝐱 2
2
𝐿1 = 𝛾(𝜙 𝐱 − 𝑡 𝑘
2
Attribute error
Regularizer (same object)
Experiments
11
Attribute regressor, Feature regressor
の性能評価
One-shot object recognition
Object-based one-shot scene recognition
-物体検出ネットワークを使ってワンショットシーン認識
-提案手法でAugmentationすると精度が上がるやったー!
Dataset
12
SUN RGB-D
103,35 RGB-D images
2D & 3Dのバウンディングボックス(BB)
Dataset
13
今回用いたAttribute 𝒜 = depth, pose
-depth: BBの中心
-pose: BBのz軸周りの回転
SUN RGB-D
103,35 RGB-D images
2D & 3Dのバウンディングボックス(BB)
Experiments: attribute regressor
14
Attribute regressor 𝛾 𝐱 : 𝒳 → ℝ+を学習する
入力:Fast RCNNのFC7
出力:depthとpose
15
Depth [m] Pose [deg]Median
absolute error
同一クラスで学習 vs クラスを無視して学習
Depth
0.2m, 7.5m
Pose
0°, 180°
データが少ない
(lamp, door)と厳
しい
Experiments: feature regressor
16
Feature regressor 𝜙𝑖
𝑘
𝐱 : 𝒳 → 𝒳を学習する
入力:Fast RCNNのFC7
出力:それっぽい特徴ベクトル
評価:
1. 同じオブジェクトの特徴
→ピアソンの相関係数
2. 所望のアトリビュート値
→𝛾 𝐱 と𝑡 𝑘のMAE
17
学習に使ってないオブジェクト
でもそこそこのスコア
Experiments: one-shot recognition
18
データセット1: ソースクラス𝒮
-アトリビュート付き,大量のデータ
-𝜙と𝛾をこれでトレーニング
データセット2: ターゲットクラス𝒯
-各クラス1枚,アトリビュート無し
-𝒮 ∩ 𝒯 = ∅
𝒯から1枚学習用サンプルを選び,SVMで学習
残りでテスト,を500回繰り返す
Experiments: one-shot recognition
19
RCNNで得られた物体候補特徴をAGAで増やす
(𝒯1, 𝒯2:10クラス,𝒯3:20クラス)
D: Depth augmentation, P: Pose augmentation
Object-based one-shot scene recognition
20
物体検出ネットワークの特徴ベクトルから
シーン認識を行う
AggregateFast RCNN
0.2
−0.8
⋮
0.4
Images from A. Gupta, From 3D Scene Geometry to Human Workspace
SVM
Experiments
21
MIT Indoor dataset
-屋内シーン認識
-25 classのサブセットを使用
Base line:
RCNNの候補領域の特徴をMax Pooling
提案手法:
特徴をAGAで増やしてFisher Vector
Results
22
まとめ,感想
23
Data Augmentationを特徴量空間で行う
One-shot object recognition
実験
Object-based one-shot scene recognition
-普通のAugmentationとの比較は?
-one-shotじゃない場合の精度向上はどの程度?
-Encoder-Decoderネットワークを用いて所望の
Attributeを持つような特徴量に変換する

More Related Content

PPTX
論文紹介: Fast R-CNN&Faster R-CNN
PDF
第1回NIPS読み会・関西発表資料
PDF
SSD: Single Shot MultiBox Detector (ECCV2016)
PDF
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
PDF
[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
PDF
20130626 kawasaki.rb NKT77
ODP
PDF
20130626 kawasaki.rb NKT77
論文紹介: Fast R-CNN&Faster R-CNN
第1回NIPS読み会・関西発表資料
SSD: Single Shot MultiBox Detector (ECCV2016)
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
20130626 kawasaki.rb NKT77
20130626 kawasaki.rb NKT77

What's hot (20)

PDF
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det...
PDF
[DL輪読会]YOLO9000: Better, Faster, Stronger
PPTX
[DL輪読会]Focal Loss for Dense Object Detection
PDF
物体検知(Meta Study Group 発表資料)
PDF
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
PDF
Variational Kalman Filter
PDF
Shusaku Taniguchi Bachelor Thesis
PPT
プログラム説明 kgPhotonMapping v0-1-0
PDF
輪読発表資料: Efficient Virtual Shadow Maps for Many Lights
PPTX
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
PDF
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
PPTX
農業AIハッカソンマイクロソフト様発表資料
PPTX
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
PPTX
Rabbit challenge dnn_day3-4
PPTX
CNNの構造最適化手法(第3回3D勉強会)
PDF
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
PDF
2012-03-08 MSS研究会
PPTX
レトリバ勉強会資料:深層学習による自然言語処理2章
PPTX
関東GPGPU勉強会資料
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det...
[DL輪読会]YOLO9000: Better, Faster, Stronger
[DL輪読会]Focal Loss for Dense Object Detection
物体検知(Meta Study Group 発表資料)
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
Variational Kalman Filter
Shusaku Taniguchi Bachelor Thesis
プログラム説明 kgPhotonMapping v0-1-0
輪読発表資料: Efficient Virtual Shadow Maps for Many Lights
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
農業AIハッカソンマイクロソフト様発表資料
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
Rabbit challenge dnn_day3-4
CNNの構造最適化手法(第3回3D勉強会)
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
2012-03-08 MSS研究会
レトリバ勉強会資料:深層学習による自然言語処理2章
関東GPGPU勉強会資料
Ad

Similar to AGA_CVPR2017 (20)

PDF
【2015.07】(1/2)cvpaper.challenge@CVPR2015
PDF
【2015.05】cvpaper.challenge@CVPR2015
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PDF
cvpaper.challenge@CVPR2015(Attribute)
PDF
三次元表現まとめ(深層学習を中心に)
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PDF
CVPR 2019 report (30 papers)
PDF
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
PDF
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
PDF
3DFeat-Net
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
PDF
画像認識における幾何学的不変性の扱い
PDF
20201010 personreid
PDF
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
PPTX
KantoCV/Selective Search for Object Recognition
PDF
点群SegmentationのためのTransformerサーベイ
PDF
東工大長谷川修研紹介 2011 (8月1日版)
PDF
PFI成果発表会2014発表資料 Where Do You Look?
PPTX
3 d object recognition
PPTX
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
cvpaper.challenge@CVPR2015(Attribute)
三次元表現まとめ(深層学習を中心に)
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
CVPR 2019 report (30 papers)
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
3DFeat-Net
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
画像認識における幾何学的不変性の扱い
20201010 personreid
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
KantoCV/Selective Search for Object Recognition
点群SegmentationのためのTransformerサーベイ
東工大長谷川修研紹介 2011 (8月1日版)
PFI成果発表会2014発表資料 Where Do You Look?
3 d object recognition
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
Ad

AGA_CVPR2017