[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“data2vec: A General Framework for
Self-supervised Learning in Speech,Vision and Language ”
Naoki Nonaka
2022/2/2

書誌情報
2022/2/2 2
• 会議：ICML?
• 著者：Meta AI

概要
2022/2/2 3
p モダリティ非依存の自己教師あり学習の手法を提案
p 新規性
n Masked predictionと潜在表現の学習を組み合わせる
n 複数層の出力の平均値を予測対象とする
p Vision, NLP, SpeechでSOTAまたはそれと同程度の性能

背景: モダリティ非依存の自己教師あり学習
2022/2/2 4
p 自己教師あり学習の手法の成功
p これまでの自己教師あり学習はモダリティ依存的
p モダリティ依存的である必然性はないはず
（人間の学習，Percieverの事例）
モダリティ非依存の自己教師あり学習手法の開発

提案手法：data2vec
2022/2/2 5
p Masked prediction + 潜在表現の学習
p TeacherとStudentの2つのモードを利用
n Teacher: 完全な入力データから表現を取得
n Student: マスクされた入力から完全なデータの表現を予測
p 先行研究との相違点：連続な潜在表現の学習 + 最終層以外の表現の利用
提案手法の概念図: data2vecは異なるモダリティのデータに対しても同一の学習過程で学習

提案手法: data2vec（学習手順）
2022/2/3 6
Embed
Embed
Transformer
Transformer
Transformer
Transformer
…
Transformer
Transformer
Transformer
Transformer
…
Exponential Moving Average (EMA)
!!: Top-K average
#!(%!)
p 元画像をTeacher modeで変換し，上位K層の出力の平均（!!）を予測対象
p Maskした入力のStudent modeでの出力を!!に近づける
p Teacher modeのweightはStudentの指数移動平均（EMA）
Teacher mode
Student mode

提案手法: data2vec（学習手順）
2022/2/2 7
損失関数：Smooth L1 loss
L1, L2損失とSmooth L1損失の形状比較（[2]より）

実験概要
2022/2/2 8
各モダリティの代表的なデータセットで評価
p Vision: ImageNet
p Speech: Librispeech (LS-960)
p NLP: GLUE benchmark

実験：Vision
2022/2/2 9
Vision taskの学習条件
p 224 x 224 pixelを16 x 16のpatchに分割してEmbed
p 各patchを線形変換後，系列としてTransformerに入力
p MaskingはBEiTと同じ方法
p Random resize, horizontal flip, color jitteringを使用
p Adam optimizer + cosine scheduleで学習

実験：Vision
2022/2/2 10
ViT-B, ViT-Lのいずれにおいても，先行研究を上回る精度
ImageNetの分類結果の比較

実験：Speech & NLP
2022/2/2 11
Speech: Librispeechでの結果の比較
NLP: GLUE benchmarkでの結果の比較
両モダリティにおいても，先行研究を上回るor同程度の精度

実験：使用する層の数の影響
2022/2/2 12
最終層のみを予測（K=1）する場合より
複数層の平均値を予測する方が高い性能
予測対象に使用する層の数と各モダリティにおける性能
予測対象として何層分の出力を用いるべきか？

実験：予測対象とする表現の比較
2022/2/2 13
FFNを予測対象とする場合の精度が最もよい Transformer encoder
（[1]より改変）
①
②
③
④
①
②
③
④
Transformer内の表現のうち，どの表現を予測対象とすべきか？
Transformer内の表現と
LibrispeechにおけるWERの関係

結論・まとめ
2022/2/2 14
p モダリティ非依存の自己教師あり学習の手法を提案
p Masked predictionと潜在表現の学習を組み合わせ，
Vision, Speech, NLPにおいてSOTAまたはそれと同程度を達成
p TransformerのFFNを予測対象として，複数層の出力の平均値を
予測対象とすることで高い性能を示した

Reference
2022/2/2 15
1. Attention Is All You Need
2. Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks

[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

More Related Content

What's hot (20)

Similar to [DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language (20)

More from Deep Learning JP (20)

[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language