SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“data2vec: A General Framework for
Self-supervised Learning in Speech,Vision and Language ”
Naoki Nonaka
2022/2/2
書誌情報
2022/2/2 2
• 会議:ICML?
• 著者:Meta AI
概要
2022/2/2 3
p モダリティ非依存の自己教師あり学習の手法を提案
p 新規性
n Masked predictionと潜在表現の学習を組み合わせる
n 複数層の出力の平均値を予測対象とする
p Vision, NLP, SpeechでSOTAまたはそれと同程度の性能
背景: モダリティ非依存の自己教師あり学習
2022/2/2 4
p 自己教師あり学習の手法の成功
p これまでの自己教師あり学習はモダリティ依存的
p モダリティ依存的である必然性はないはず
(人間の学習,Percieverの事例)
モダリティ非依存の自己教師あり学習手法の開発
提案手法:data2vec
2022/2/2 5
p Masked prediction + 潜在表現の学習
p TeacherとStudentの2つのモードを利用
n Teacher: 完全な入力データから表現を取得
n Student: マスクされた入力から完全なデータの表現を予測
p 先行研究との相違点:連続な潜在表現の学習 + 最終層以外の表現の利用
提案手法の概念図: data2vecは異なるモダリティのデータに対しても同一の学習過程で学習
提案手法: data2vec(学習手順)
2022/2/3 6
Embed
Embed
Transformer
Transformer
Transformer
Transformer
…
Transformer
Transformer
Transformer
Transformer
…
Exponential Moving Average (EMA)
!!: Top-K average
#!(%!)
p 元画像をTeacher modeで変換し,上位K層の出力の平均(!!)を予測対象
p Maskした入力のStudent modeでの出力を!!に近づける
p Teacher modeのweightはStudentの指数移動平均(EMA)
Teacher mode
Student mode
提案手法: data2vec(学習手順)
2022/2/2 7
損失関数:Smooth L1 loss
L1, L2損失とSmooth L1損失の形状比較([2]より)
実験概要
2022/2/2 8
各モダリティの代表的なデータセットで評価
p Vision: ImageNet
p Speech: Librispeech (LS-960)
p NLP: GLUE benchmark
実験:Vision
2022/2/2 9
Vision taskの学習条件
p 224 x 224 pixelを16 x 16のpatchに分割してEmbed
p 各patchを線形変換後,系列としてTransformerに入力
p MaskingはBEiTと同じ方法
p Random resize, horizontal flip, color jitteringを使用
p Adam optimizer + cosine scheduleで学習
実験:Vision
2022/2/2 10
ViT-B, ViT-Lのいずれにおいても,先行研究を上回る精度
ImageNetの分類結果の比較
実験:Speech & NLP
2022/2/2 11
Speech: Librispeechでの結果の比較
NLP: GLUE benchmarkでの結果の比較
両モダリティにおいても,先行研究を上回るor同程度の精度
実験:使用する層の数の影響
2022/2/2 12
最終層のみを予測(K=1)する場合より
複数層の平均値を予測する方が高い性能
予測対象に使用する層の数と各モダリティにおける性能
予測対象として何層分の出力を用いるべきか?
実験:予測対象とする表現の比較
2022/2/2 13
FFNを予測対象とする場合の精度が最もよい Transformer encoder
([1]より改変)
①
②
③
④
①
②
③
④
Transformer内の表現のうち,どの表現を予測対象とすべきか?
Transformer内の表現と
LibrispeechにおけるWERの関係
結論・まとめ
2022/2/2 14
p モダリティ非依存の自己教師あり学習の手法を提案
p Masked predictionと潜在表現の学習を組み合わせ,
Vision, Speech, NLPにおいてSOTAまたはそれと同程度を達成
p TransformerのFFNを予測対象として,複数層の出力の平均値を
予測対象とすることで高い性能を示した
Reference
2022/2/2 15
1. Attention Is All You Need
2. Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks

More Related Content

PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
マルチモーダル深層学習の研究動向
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PDF
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]相互情報量最大化による表現学習
マルチモーダル深層学習の研究動向
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
【DL輪読会】DayDreamer: World Models for Physical Robot Learning

What's hot (20)

PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
Transformer メタサーベイ
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PDF
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PPTX
[DL輪読会]When Does Label Smoothing Help?
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PDF
Transformer 動向調査 in 画像認識(修正版)
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
自己教師学習(Self-Supervised Learning)
PDF
最適化超入門
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Transformer メタサーベイ
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]When Does Label Smoothing Help?
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Transformer 動向調査 in 画像認識(修正版)
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会] マルチエージェント強化学習と心の理論
【DL輪読会】時系列予測 Transfomers の精度向上手法
【メタサーベイ】数式ドリブン教師あり学習
自己教師学習(Self-Supervised Learning)
最適化超入門
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
これからの Vision & Language ~ Acadexit した4つの理由
Ad

Similar to [DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (20)

PPTX
【DL輪読会】マルチモーダル 基盤モデル
PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
PDF
Active Learning の基礎と最近の研究
PPTX
全脳関西編(松尾)
PDF
深層学習入門
PDF
PythonによるDeep Learningの実装
PDF
20160329.dnn講演
PPTX
Variational Template Machine for Data-to-Text Generation
PDF
ICML2017 参加報告会 山本康生
PDF
2020 0906 acl_2020_reading_shared
PPTX
Hello deeplearning!
PDF
Masked Autoencoders Are Scalable Vision Learners
PDF
Deep learning入門
PDF
論文紹介:Deep Mutual Learning
PDF
Deep Learning技術の今
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PDF
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DOCX
レポート深層学習Day4
PPTX
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
【DL輪読会】マルチモーダル 基盤モデル
【メタサーベイ】基盤モデル / Foundation Models
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Active Learning の基礎と最近の研究
全脳関西編(松尾)
深層学習入門
PythonによるDeep Learningの実装
20160329.dnn講演
Variational Template Machine for Data-to-Text Generation
ICML2017 参加報告会 山本康生
2020 0906 acl_2020_reading_shared
Hello deeplearning!
Masked Autoencoders Are Scalable Vision Learners
Deep learning入門
論文紹介:Deep Mutual Learning
Deep Learning技術の今
Semi supervised, weakly-supervised, unsupervised, and active learning
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
レポート深層学習Day4
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language