[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language
1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“data2vec: A General Framework for
Self-supervised Learning in Speech,Vision and Language ”
Naoki Nonaka
2022/2/2
4. 背景: モダリティ非依存の自己教師あり学習
2022/2/2 4
p 自己教師あり学習の手法の成功
p これまでの自己教師あり学習はモダリティ依存的
p モダリティ依存的である必然性はないはず
(人間の学習,Percieverの事例)
モダリティ非依存の自己教師あり学習手法の開発
5. 提案手法:data2vec
2022/2/2 5
p Masked prediction + 潜在表現の学習
p TeacherとStudentの2つのモードを利用
n Teacher: 完全な入力データから表現を取得
n Student: マスクされた入力から完全なデータの表現を予測
p 先行研究との相違点:連続な潜在表現の学習 + 最終層以外の表現の利用
提案手法の概念図: data2vecは異なるモダリティのデータに対しても同一の学習過程で学習
9. 実験:Vision
2022/2/2 9
Vision taskの学習条件
p 224 x 224 pixelを16 x 16のpatchに分割してEmbed
p 各patchを線形変換後,系列としてTransformerに入力
p MaskingはBEiTと同じ方法
p Random resize, horizontal flip, color jitteringを使用
p Adam optimizer + cosine scheduleで学習