【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Masked Siamese Networks for Label-Efficient Learning”
Naoki Nonaka
2022/5/5

書誌情報
2022/5/5 2
• 会議：?
• 著者：Meta AI

概要
2022/5/5 3
p 自己教師あり学習の手法
Masked Siamese Networks(MSN)を提案
p 新規性
ランダムにマスクされたパッチの表現と
マスクされていない元画像の表現を一致させるように学習
p 画像でのLow-shot learningタスクで
自己教師あり学習のSOTAを達成

背景: Mask-denoising + Joint-embedding
2022/5/5 4
p Mask-denoising p Joint-embedding
[1] [2]

背景: Mask-denoising + Joint-embedding
2022/5/5 5
p Mask-denoising
p Visionで優れた性能
p Pixel or Tokenレベルでの再構成が必要
p Joint-embedding
p 再構成不要
再構成不要で自己教師あり学習をする手法を提案

提案手法：Masked Siamese Network (MSN)
2022/5/5 6
p Masked prediction + Joint-embedding
p 先行研究との相違点：Maskなしデータの表現に近づけるように学習
提案手法の概念図: MSN

提案手法: MSN（学習手順）
2022/5/5 7
1. 入力画像をランダムなdata augmentationにより二通りに変換（anchor & target）
2. Anchorにランダムにmaskを適用（Targetはそのまま）
3. Anchor & Targetについてのprototype集合に対するsoft-distributionを計算して学習
1 2 3

提案手法: MSN（学習手順）
2022/5/5 8
損失関数
クロスエントロピー
正則化項
(Mean entropy maximization; ME-MAX)

実験概要
2022/5/5 9
p Label-efficient learning
p Linear Evaluation & Fine-tuning
p Transfer Learning
p Ablations
獲得した表現が優れていることを示す
= 少数ラベル条件，線形分類器の学習，再学習，転移学習の性能

実験概要
2022/5/5 10
n Extreme Low-shot
n ImageNet-1K
p Transfer Learning
p Ablations

実験：Extreme low-shotでの結果
2022/5/5 11
MSNが最も高い精度を示した
→ 少数ラベルでも分類問題を解ける特徴量を獲得できている
p データセット：ImageNet-1K
p 事前学習で得たweightを固定し，
線形分類器のみを学習し評価
p 使用するラベル付きデータ数を
極少数（1, 2, 5/class）にして学習
p 3回の試行での
Top1 accuracyの平均値で評価

実験：1% ImageNet-1Kでの結果
2022/5/5 12
p データセット：ImageNet-1K
p 各クラス1%（= 10枚）のラベル付き
データを使用
p MSN（提案手法），DINO，iBOTは
Fine-Tuningなしの結果
p パラメータ数の多いSimCLRv2を上回る
p Fine-Tuningなしで同程度の大きさのモデルを大きく上回る

実験概要
2022/5/5 13
n Linear Evaluation
n Fine-Tuning
p Transfer Learning
p Ablations

実験：全ラベルを使用した場合の実験結果
2022/5/5 14
Fine-Tuning
→ ネットワーク全体を再学習
Linear Evaluation
→ 線形分類器のみを学習
両条件でSOTAに近い性能を達成

実験概要
2022/5/5 15
p Transfer Learning
n Fine-Tuning Transfer Learning
n Linear Evaluation Transfer Learning
p Ablations

実験：獲得した表現による転移学習の性能
2022/5/5 16
Fine-Tuning
→ ネットワーク全体を転移先で学習
Linear Evaluation
→ 線形分類器のみ転移先で学習
DINOと同程度の性能を達成

結論・まとめ
2022/5/5 17
p 自己教師あり学習手法Masked Siamese Networks(MSN)を提案
p ランダムにマスクされたパッチの表現と
マスクされていない元画像の表現を一致させるように学習
p 少数ラベルでの分類，獲得した特徴量の線形分類，Fine-Tuning,
転移学習の実験において，既存手法を上回るまたは同程度の性能
を示した

Reference
2022/5/5 18
1. Masked Autoencoders Are ScalableVision Learners
2. Exploring Simple Siamese Representation Learning

実験：Low-shot learning結果まとめ
2022/5/5 20
1% ImageNet-1K Extreme Low-shot Evaluation

実験概要
2022/5/5 21
Ablations
n Combining Random and Focal Masking
n Random Masking ratio
n Augmentation Invariance and Low-shot Learning
n Random Masking Compute and Memory

実験：Ablation study
2022/5/5 22
Maskingの条件を検討 → RandomとFocalを組み合わせた場合が最も良い結果
Maskingの比率の検討 → Architectureが大きいほど，最適なMasking比は高い

実験：Ablation study
2022/5/5 23
Augmentationの効果
Maskingと計算効率

【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"

More Related Content

What's hot (20)

Similar to 【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning" (20)

More from Deep Learning JP (20)

【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"