SlideShare a Scribd company logo
7
Most read
9
Most read
11
Most read
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Masked Siamese Networks for Label-Efficient Learning”
Naoki Nonaka
2022/5/5
書誌情報
2022/5/5 2
• 会議:?
• 著者:Meta AI
概要
2022/5/5 3
p 自己教師あり学習の手法
Masked Siamese Networks(MSN)を提案
p 新規性
ランダムにマスクされたパッチの表現と
マスクされていない元画像の表現を一致させるように学習
p 画像でのLow-shot learningタスクで
自己教師あり学習のSOTAを達成
背景: Mask-denoising + Joint-embedding
2022/5/5 4
p Mask-denoising p Joint-embedding
[1] [2]
背景: Mask-denoising + Joint-embedding
2022/5/5 5
p Mask-denoising
p Visionで優れた性能
p Pixel or Tokenレベルでの再構成が必要
p Joint-embedding
p 再構成不要
再構成不要で自己教師あり学習をする手法を提案
提案手法:Masked Siamese Network (MSN)
2022/5/5 6
p Masked prediction + Joint-embedding
p 先行研究との相違点:Maskなしデータの表現に近づけるように学習
提案手法の概念図: MSN
提案手法: MSN(学習手順)
2022/5/5 7
1. 入力画像をランダムなdata augmentationにより二通りに変換(anchor & target)
2. Anchorにランダムにmaskを適用(Targetはそのまま)
3. Anchor & Targetについてのprototype集合に対するsoft-distributionを計算して学習
1 2 3
提案手法: MSN(学習手順)
2022/5/5 8
損失関数
クロスエントロピー
正則化項
(Mean entropy maximization; ME-MAX)
実験概要
2022/5/5 9
p Label-efficient learning
p Linear Evaluation & Fine-tuning
p Transfer Learning
p Ablations
獲得した表現が優れていることを示す
= 少数ラベル条件,線形分類器の学習,再学習,転移学習の性能
実験概要
2022/5/5 10
p Label-efficient learning
n Extreme Low-shot
n ImageNet-1K
p Linear Evaluation & Fine-tuning
p Transfer Learning
p Ablations
実験:Extreme low-shotでの結果
2022/5/5 11
MSNが最も高い精度を示した
→ 少数ラベルでも分類問題を解ける特徴量を獲得できている
p データセット:ImageNet-1K
p 事前学習で得たweightを固定し,
線形分類器のみを学習し評価
p 使用するラベル付きデータ数を
極少数(1, 2, 5/class)にして学習
p 3回の試行での
Top1 accuracyの平均値で評価
実験:1% ImageNet-1Kでの結果
2022/5/5 12
p データセット:ImageNet-1K
p 各クラス1%(= 10枚)のラベル付き
データを使用
p MSN(提案手法),DINO,iBOTは
Fine-Tuningなしの結果
p パラメータ数の多いSimCLRv2を上回る
p Fine-Tuningなしで同程度の大きさのモデルを大きく上回る
実験概要
2022/5/5 13
p Label-efficient learning
p Linear Evaluation & Fine-tuning
n Linear Evaluation
n Fine-Tuning
p Transfer Learning
p Ablations
実験:全ラベルを使用した場合の実験結果
2022/5/5 14
Fine-Tuning
→ ネットワーク全体を再学習
Linear Evaluation
→ 線形分類器のみを学習
両条件でSOTAに近い性能を達成
実験概要
2022/5/5 15
p Label-efficient learning
p Linear Evaluation & Fine-tuning
p Transfer Learning
n Fine-Tuning Transfer Learning
n Linear Evaluation Transfer Learning
p Ablations
実験:獲得した表現による転移学習の性能
2022/5/5 16
Fine-Tuning
→ ネットワーク全体を転移先で学習
Linear Evaluation
→ 線形分類器のみ転移先で学習
DINOと同程度の性能を達成
結論・まとめ
2022/5/5 17
p 自己教師あり学習手法Masked Siamese Networks(MSN)を提案
p ランダムにマスクされたパッチの表現と
マスクされていない元画像の表現を一致させるように学習
p 少数ラベルでの分類,獲得した特徴量の線形分類,Fine-Tuning,
転移学習の実験において,既存手法を上回るまたは同程度の性能
を示した
Reference
2022/5/5 18
1. Masked Autoencoders Are ScalableVision Learners
2. Exploring Simple Siamese Representation Learning
Appendix
2022/5/5 19
実験:Low-shot learning結果まとめ
2022/5/5 20
1% ImageNet-1K Extreme Low-shot Evaluation
実験概要
2022/5/5 21
Ablations
n Combining Random and Focal Masking
n Random Masking ratio
n Augmentation Invariance and Low-shot Learning
n Random Masking Compute and Memory
実験:Ablation study
2022/5/5 22
Maskingの条件を検討 → RandomとFocalを組み合わせた場合が最も良い結果
Maskingの比率の検討 → Architectureが大きいほど,最適なMasking比は高い
実験:Ablation study
2022/5/5 23
Augmentationの効果
Maskingと計算効率

More Related Content

PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PPTX
[DL輪読会]DropBlock: A regularization method for convolutional networks
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PDF
Point net
PDF
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Point net
【DL輪読会】Vision-Centric BEV Perception: A Survey

What's hot (20)

PDF
Vision and Language(メタサーベイ )
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
PDF
[DL輪読会]ICLR2020の分布外検知速報
PPTX
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PDF
PRML学習者から入る深層生成モデル入門
PPTX
SfM Learner系単眼深度推定手法について
PDF
Domain Adaptation 発展と動向まとめ(サーベイ資料)
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PPTX
近年のHierarchical Vision Transformer
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
PPTX
モデルアーキテクチャ観点からの高速化2019
PDF
実装レベルで学ぶVQVAE
PDF
研究効率化Tips Ver.2
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
GAN(と強化学習との関係)
Vision and Language(メタサーベイ )
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PRML学習者から入る深層生成モデル入門
SfM Learner系単眼深度推定手法について
Domain Adaptation 発展と動向まとめ(サーベイ資料)
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
近年のHierarchical Vision Transformer
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
モデルアーキテクチャ観点からの高速化2019
実装レベルで学ぶVQVAE
研究効率化Tips Ver.2
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
Transformerを多層にする際の勾配消失問題と解決法について
畳み込みニューラルネットワークの高精度化と高速化
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
GAN(と強化学習との関係)
Ad

Similar to 【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning" (20)

PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
自己教師学習(Self-Supervised Learning)
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PDF
Masked Autoencoders Are Scalable Vision Learners
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PPTX
Noisy Labels と戦う深層学習
PDF
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
PPT
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
PPTX
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
PPTX
令和元年度 実践セミナー - Deep Learning 概論 -
PPTX
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
PDF
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
PDF
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
PDF
20160329.dnn講演
PPTX
<AI開発者向け>Deep Learningへの取り組み、およびKAMONOHASHIのご紹介
PDF
Deep learning入門
PPT
Deep Learningの技術と未来
PDF
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
PDF
Deep Neural Network の教師なし学習 (MIJS 分科会資料)
【メタサーベイ】数式ドリブン教師あり学習
自己教師学習(Self-Supervised Learning)
Semi supervised, weakly-supervised, unsupervised, and active learning
Masked Autoencoders Are Scalable Vision Learners
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Noisy Labels と戦う深層学習
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
令和元年度 実践セミナー - Deep Learning 概論 -
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
20160329.dnn講演
<AI開発者向け>Deep Learningへの取り組み、およびKAMONOHASHIのご紹介
Deep learning入門
Deep Learningの技術と未来
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Deep Neural Network の教師なし学習 (MIJS 分科会資料)
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"