Self-training with Noisy Student improves
ImageNet classification
2019/11/22
神戸瑞樹
Qizhe Xie1, Eduard Hovy2, Minh-Thang Luong1, Quoc V. Le1
1Google Research, Brain Team, 2Carnegie Mellon University
{qizhex, thangluong, qvl}@google.com, hovy@cmu.edu
https://arxiv.org/abs/1911.04252
概要
• ImageNetで学習させたモデルで大量のラベル無
し画像にラベルを付与
• 上記の疑似ラベルを元にノイズを加えて再度学習
• これらを繰り返す
• ImageNetのSOTAを1.0%更新
• ロバスト性の向上
2
Introduction
• SOTAのvision modelは大量のラベル付き画像を
必要としている
• 35億のインスタの弱ラベル付き画像
• ラベルなし画像が使われていない
• ラベル無し画像を用いて学習を行う
3
Self-training
• ラベルあり学習でモデルを学習し、そのモデル
を用いてラベル無しデータにラベルを付与し、
それを学習する
• ラベルを付与するモデルを教師モデル
• 疑似ラベルを学習するモデルを生徒モデル
4
Self-training with noisy student
1. 教師モデルをラベル付きの画像で学習
2. 教師モデルを使ってラベルなし画像の疑似ラベ
ルを生成
3. 生徒モデルをラベル付き画像と擬似ラベル付き
画像を用いて学習
4. 3で学習した生徒モデルを教師モデルとして2,3を
数回繰り返す
• 疑似ラベルの生成時にはノイズを加えず、生徒モ
デルの学習時にはノイズを加えると良い
• dropout, augmentation, stochastic depth
5
ノイズの効果
• data augmentation
• いじった画像でも同じ出力をしなければいけないので、
モデルの自由度が減る
• dropout, stochastic depth
• 教師モデルはアンサンブルのように動き、生徒モデルは
単一モデルのように動く
• 生徒モデルはより強力なアンサンブルモデルを模倣する
ことを余儀なくされる
6
Data balancing
• imagenetでは各クラスのデータ数が一緒なの
で、疑似ラベルでもバランスを取る必要がある
• 十分な画像がないクラスでは画像を複製する
• 画像が多すぎるクラスでは、信頼度が高い順に
取ってくる
7
疑似ラベル
• 従来の半教師ありと違ってドメイン外の画像も使用
• confidenceが低いやつはドメイン外の可能性が高い
8
• Soft(連続分布)でもhard(ワンホッ
ト)でも良い
• 教師モデルの精度が低いとsoftの方が
良い
• 今回は特に指定がない限りsoftを
使用
アーキテクチャ
• 教師モデルと生徒モデルのアーキテクチャは同
じでも違っても良い
• 生徒モデルは十分にでかい必要がある
• ラベルと疑似ラベルを十分に表現できるように
• アーキテクチャはEfficientNetを使用
• resnetよりでかい
• 生徒がよりよいモデルになるように生徒モデルを教
師モデルよりでかくする
• 教師-生徒のフレームワークではモデル圧縮が主目
的となっており、関連研究との大きな違い
9
EfficientNet
• NASによって生成したモデルのスケールアップ
• モデルの「深さ」「広さ」「解像度」の3つをバラ
ンスよく調整
10参考:https://qiita.com/omiita/items/83643f78baabfa210ab1
α,β,γはグリッドサーチ
Φは直感で決めるらしい
MBConv
• Mobile inverted bottleneckにSEモジュールを追加
11
Original residual block(広い→狭い→広い)
3*3convの計算量が多いのでチャネル減らす
MBConv
SEモジュール追加
Inverted residual block(狭い→広い→狭い)
3*3 depthwise conv を1*1convで挟む
小さな1*1convを2つ使い1つの大きな1*1conv
の近似
参考:https://qiita.com/yu4u/items/dc26d220e85279e76157
EfficientNet
幅 深さ 解像度
EfficientNet-B0 1.0 1.0 224
EfficientNet-B1 1.0 1.1 240
EfficientNet-B2 1.1 1.2 260
EfficientNet-B3 1.2 1.4 300
EfficientNet-B4 1.4 1.8 380
EfficientNet-B5 1.6 2.2 456
EfficientNet-B6 1.8 2.6 528
EfficientNet-B7 2.0 3.1 600
EfficientNet-L0 2.8 3.7 380
EfficientNet-L1 3.9 3.7 380
EfficientNet-L2 4.3 5.3 475
12
計算上比率を丸めていると思われる
参考:https://hampen2929.hatenablog.com/entry/2019/07/06/024347
この論文で追加
アーキテクチャ
• EfficientNet-B7をスケールアップしてL0,L1,L2
を作成
• EfficientNet-L0
• EfficientNet-B7を広く深くしたが、解像度は下げた
• 似た訓練時間だけど、パラメータ数が多く表現力が
高い
• EfficinetNet-L1
• EfficinetNet-L0を広く
• EfficientNet-L2
• EfficientNet-L0のすべての次元を上げた
• EfficientNet-B7の5倍の訓練時間
13
Unlabeld data set
• JFT datasetを使用
• 3億枚
• ラベルが付いているが、無視してラベル無しとして扱う
• imagenetのvalidation setに入っているやつは抜かす
• imagenetで学習したEfficientNet-B0でラベルの予測
• 0.3以上の出力を得られた画像のみ残す
• 出力の高い順に130Kの画像
• 130Kないクラスはランダムな画像を複製
• 全部で1.3億枚の画像を使用
• ユニークな画像は8100万枚
14
Training details
• バッチサイズ
• 2048をデフォルト、メモリにのらなかったら下げる
• 512,1024,2048のいずれでも同じ精度
• 学習率、エポック数
• 初期学習率はバッチサイズ2048で0.128
• モデルがEfficientNet-B4より大きければ(L0,L1,L2を含む)
350epochで2.4エポックごとに学習率*0.97
• 小さければ700エポックで4.8エポックごとに学習率*0.97
• ラベルなしのバッチサイズ
• 大きければラベルありの3倍
• 小さければラベルありと同じ
• ロスはラベルありとなしの平均クロスエントロピー
• trainとtestの解像度の不一致の解消
• 小さい解像度で学習したあと大きい解像度でファインチュー
ニング
• EfficientNet-L2では3.5日で学習
• cloud TPU v3 Pod, 2048cores 15
ノイズ
• stochastic depth
• 最終層の生存確率は0.8にして他は線形減衰規則に従う
• dropout
• 0.5で最後の分類レイヤーに適用
• RandAugment
• augmentation policyの自動探索
• auto augmentの発展型
• 以前の探索手法では探索空間が膨大だったのでそれを
減らした
• 各augmentの適用確率は1/kで一定にするなど
• subsetを作らずにいけるらしい 16
PLはハイパーパラメータ
Lは層数
Iterative training
• 生徒モデルを新しい教師として使う
• 生徒モデルをどんどん大きくしていった
17
教師 生徒
1 EfficientNet-B7 EfficientNet-B7
2 EfficientNet-B7 EfficientNet-L0
3 EfficientNet-L0 EfficientNet-L1
4 EfficientNet-L1 EfficientNet-L2
Imagenet Result
• 87.4%の精度
• 以前報告されたEfficientNetの精度は85.0%
• モデルのスケールアップ(+0.5%)
• noisy student(+1.9%)
• 以前のSOTAは86.4%
• 35億枚のインスタのタグ付けされた画像使用
• 3億のラベルなし画像の方が集めやすい
• パラメータ数が約半分
18
ImageNet Result
19
Model size study
• EfficientNet B0-B7でも実験
• 計算コストがかかるので繰り返しはしない
• 教師と生徒を同じアーキテクチャに
• 各モデルにRandAugmentを適用したものをbaseline
• 全てのモデルで0.8%ほど上昇
• 繰り返さなくても上がる
20
ロバスト性
• ImageNet-A,C,Pで測る
• C,Pはリリースされている224*224と299*299で
評価し、リサイズしたものでトレーニング
21
ImageNet-A(adversarial)
• 特に画像をいじってないけど滅茶苦茶に間違え
てる画像群
22
提案論文
https://arxiv.org/abs/1907.07174
ImageNet-C(corruption)
• 一般的な破壊を加える(5段階)
• CE:アレックスネットのエラー率に対する比率
23
提案論文
https://arxiv.org/abs/1903.12261
ImageNet-P(perturbation)
• 一般的な摂動を何度も加える
• FP:摂動を加えた時に予測が変化する確率
• FR:FPのアレックスネットに対する比率
24
提案論文
https://arxiv.org/abs/1903.12261
Qualitative Analysis
• Noisy studentの導入によって良くなった例
• 赤字が間違えてる方
25
Adversarial Robustness
• FGSM attack
• 何もしてなくてもε=16で10%向上
26
• PGD attack
• 解像度が違うから単純に比較で
きない
• ε=16でEfficientNet-L2は提案論
文より1.1%劣る性能
• Noisy studentで1.6%改善
PGD attack参考
https://towardsdatascience.com/know-
your-enemy-7f7c5038bdf3
Ablation study
• ノイズの有無での差を確認
• ノイズを入れることで精度上昇
• ノイズ無しでベースラインよりあがっているの
はSGDのせいだと仮定している
• 試行によるぶれ
27
Unlabeld data size
• ラベルなしデータのサイズを減らしていく
• EfficientNet-B4を使用
• 1/16で810万枚でも同じくらいの精度
• ラベルなしデータから恩恵を受けられるかどう
かはモデルの表現力に依存
28
Teacher Model’s Capacity
• より大きな教師モデルを使うことによる影響
• モデルサイズに制約がある場合
• EfficientNet-L2を教師モデル
• 生徒モデルはEfficientNet B0-B7
• 大きい教師モデルで精度上昇
29
まとめ
• Self-trainingはラベルなし画像を扱う上でシンプ
ルかつ強力なアルゴリズム
• 精度とロバスト性を上昇
• これまでの研究では精度を上げるために何十億の画像
を使った弱教師あり学習が必要
• 意図的にデータを増やすことなくロバスト性が上昇
30

More Related Content

PDF
Introduction to YOLO detection model
PDF
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
PDF
点群深層学習 Meta-study
PPTX
Noisy Labels と戦う深層学習
PDF
Mean Teacher
PDF
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
PDF
【DL輪読会】Patches Are All You Need? (ConvMixer)
PDF
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Introduction to YOLO detection model
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
点群深層学習 Meta-study
Noisy Labels と戦う深層学習
Mean Teacher
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
【DL輪読会】Patches Are All You Need? (ConvMixer)
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions

What's hot (20)

PDF
敵対的生成ネットワーク(GAN)
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
PDF
動画認識サーベイv1(メタサーベイ )
PDF
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
PPTX
物体検出の歴史(R-CNNからSSD・YOLOまで)
PDF
ICLR2020の異常検知論文の紹介 (2019/11/23)
PDF
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
PPTX
Depth Estimation論文紹介
PDF
Deep Learningによる超解像の進歩
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PDF
Kaggle RSNA Pneumonia Detection Challenge 解法紹介
PDF
Rethinking and Beyond ImageNet
PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
PDF
SSD: Single Shot MultiBox Detector (ECCV2016)
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PDF
Point net
PDF
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
PPTX
畳み込みニューラルネットワークの研究動向
敵対的生成ネットワーク(GAN)
動画認識における代表的なモデル・データセット(メタサーベイ)
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
動画認識サーベイv1(メタサーベイ )
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
物体検出の歴史(R-CNNからSSD・YOLOまで)
ICLR2020の異常検知論文の紹介 (2019/11/23)
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
Depth Estimation論文紹介
Deep Learningによる超解像の進歩
【DL輪読会】ViT + Self Supervised Learningまとめ
Kaggle RSNA Pneumonia Detection Challenge 解法紹介
Rethinking and Beyond ImageNet
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
SSD: Single Shot MultiBox Detector (ECCV2016)
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Point net
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
畳み込みニューラルネットワークの研究動向
Ad

Similar to Self training with noisy student (17)

PDF
[DL輪読会]Unsupervised Learning by Predicting Noise
PDF
[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
PDF
220707_ishizone_class_imbalance_SSL.pdf
PDF
[DL輪読会]Regularization with stochastic transformations and perturbations for d...
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
PDF
自己教師学習(Self-Supervised Learning)
PDF
Deep Neural Network の教師なし学習 (MIJS 分科会資料)
PPTX
Not all unlabeled data are equal
PDF
E-SOINN
PPTX
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
PDF
SSA-SOINN
PDF
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PDF
ノイズあり教師のパーセプトロン学習の統計力学的解析
PDF
Active Learning from Imperfect Labelers @ NIPS読み会・関西
PDF
Contrastive learning 20200607
[DL輪読会]Unsupervised Learning by Predicting Noise
[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
220707_ishizone_class_imbalance_SSL.pdf
[DL輪読会]Regularization with stochastic transformations and perturbations for d...
【メタサーベイ】数式ドリブン教師あり学習
[DL輪読会]10分で10本の論⽂をざっくりと理解する (ICML2020)
自己教師学習(Self-Supervised Learning)
Deep Neural Network の教師なし学習 (MIJS 分科会資料)
Not all unlabeled data are equal
E-SOINN
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
SSA-SOINN
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Semi supervised, weakly-supervised, unsupervised, and active learning
ノイズあり教師のパーセプトロン学習の統計力学的解析
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Contrastive learning 20200607
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【DLゼミ】Generative Image Dynamics, CVPR2024
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
Generating Automatic Feedback on UI Mockups with Large Language Models
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone

Self training with noisy student