SlideShare a Scribd company logo
2
Most read
4
Most read
6
Most read
Residual	Attention	Network	for	Image	Classification
Fei	Wang, Mengqing	Jiang, Chen	Qian, Shuo	Yang, Cheng	Li, Honggang	
Zhang, Xiaogang	Wang, Xiaoou	Tang
2017-09-04
輪読@松尾研究室 M1	⽥村浩⼀郎
Agenda
0.	Information
1. Introduction
2. Related	work	&	knowledges
3. Proposed	Model
4. Experiment	&	Result
5. Conclusion
6. *Squeeze-and-Excitation	Networks
0.	Information
• Author
- Fei	Wang, Mengqing	Jiang, Chen	Qian, Shuo	Yang, Cheng	Li, Honggang	
Zhang, Xiaogang	Wang, Xiaoou	Tang
• Submission	date
- Submitted	on	23	Apr	2017
• Society	
- accepted	to	CVPR2017
- https://arxiv.org/abs/1704.06904
• About
- Computer	vision	において,ResNet だけでなくAttentionも取り⼊れたも
の
- まだpaperは出ていないが,ILSVRC2017で優勝したSqueeze-and-
Excitation	networksの前⾝?のモデル
1.	Introduction
- 背景
• Attentionモデルは時系列のモデルに対してはよく使われているが,画像
認識などのfeedforward	networkに対しては使われてこなかった
• 近年の画像認識の技術向上は,ResNetにより,層を深くすることが可能
になったことが⼤きい
ResNetを利⽤した `深い`	CNNに対して,attention機構を適⽤し,精度向上を図る
1.	Introduction
- モデル構造と成果
1. Stacked	network	structure
• 複数のAttention	Moduleを積み⽴てたモデル構造.異なるAttention	Moduleで異なる種類
のAttentionを導⼊できる
2. Attention	Residual	Learning
• 単純にAttention	Moduleを導⼊するだけでは精度が下がる.ResNetを⽤いて深
い(hundreds	of	layers)のネットワークを⽤いる
3. Bottom-up	top-down	feedforward	attention
• Bottom-up(背景の違いなどから)attention(注⽬)するアプローチ
• Top-down(事前知識などから)attention(注⽬)するアプローチ
1. 安定して層を増やし精度向上(state-of-the-art@2017-04-23)
2. End-to-Endの深いネットワークに簡単に適⽤でき,
効率的な計算を⾏うことができる
2.	Related	work	&	knowledge
- Attention	model
• Attention機構が適⽤されるのは,多くの場合RNN
Effective	Approaches	to	Attention-based	Neural	Machine	Translationの例
1. RNNにより隠れ層ベクトルを計算
ℎ" = 𝑅𝑁𝑁(ℎ"'(, 𝑥)
2. ⼊⼒系列のどこに注⽬するかの重み𝑎"(𝑠)をscore関数により計算
𝑎" 𝑠 =	
exp 𝑠𝑐𝑜𝑟𝑒(ℎ67, ℎ")
∑ exp 𝑠𝑐𝑜𝑟𝑒(ℎ67, ℎ")
3. 重み𝑎" 𝑠 を⽤いて重み付き平均ベクトル𝑐"を計算
𝑐" =	: 𝑎"(𝑠) ℎ67
4. 3.の平均ベクトルと1.の隠れ層ベクトルから新しい出⼒ベクトルを計算
ℎ;" = tanh	( 𝑊Aℎ" + 𝑊C 𝑐" + 𝑏)
5. 各単語の出⼒確率を計算
𝑦" = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥((𝑊IJ"ℎ;" +	 𝑏IJ")
• Computer	visionにおいては,以下のような研究でsoft	attention(みたいなも
の)が使われている
• Spatial	Transformer	Network[17]		->(⾯⽩いdemo:
https://drive.google.com/file/d/0B1nQa_sA3W2iN3RQLXVFRkNXN0k/view)
• Attention	to	scale:	Scale-aware	semantic	image	segmentation[3]
[引⽤:Effective	Approaches	to	Attention-based	Neural	Machine	Translation]
2.	Related	work	&	knowledge
- ResNet
• CNNにおいて層を深さは精度おいて⼤きく寄与する
• 層が深すぎると勾配消失などの問題があった=>ResNet
• ResNet
• 出⼒を𝐻 𝑥 とすると,残差𝐹 𝑥 = 𝐻 𝑥 	− 𝑥	を学習(最⼩化)する
• 層が深くなると⼊⼒𝑥と出⼒𝐻 𝑥 	はほとんど同じ値になる.
直接𝐻 𝑥 の値を𝑥に近づけることよりも,残差𝐹 𝑥 を0に近づける⽅が簡単である
3.	Proposal	model
- Residual	Attention	Network
1. Attention residual learning
2. Soft mask branch 3. Special attention and channel attention
3.	Proposal	model
3.1.	Attention	Residual	Learning
• 単純にAttention機構をCNNの出⼒に掛け合わせるだけでは,以下の問題か
ら精度が下がる
1. 層が深くなるにつれて勾配が消失する
2. CNNにおける重要な特徴量を弱めてしまう可能性がある
• Attention	Residual	Learning
• Soft	mask	branchの𝑀 𝑥 ∈ [0, 1]が以下の役割を果たしている
1. 特徴量選択
2. ノイズの抑制
Attention	moduleの出⼒ Soft	Attention	Mask Convolutionの出⼒
**		i:	spatial	position,		c:	channel
Residual
3.	Proposal	model
3.1.	Attention	Residual	Learning
• Attention	Residual	Learningは良い特徴量を保持する⼀⽅で,mask	branchが
特徴量を抽出する能⼒を弱めてしまう
• Stacked	Attention	Modulesがそのトレードオフを補い,特徴量mapを洗練して
いく
• Attention	Moduleが異なる役割のattention	機構を持ち,層が深くすることを可
能にしている
複数のAttention	Module
3.	Proposal	model
3.1.	Attention	Residual	Learning
異なるAttention	Moduleで異なるattention	maskを持つ.
層が浅いattention	moduleでは背景の空の⻘⾊を消し,層が深いattention	
moduleでは気球を強調している
3.	Proposal	model
3.2.	Soft	Mask	Branch
• Soft	Mask	Branch
• 以下の2つの機能を畳み込み構造に
1. Fast	feed-forward	sweep	->	画像全体の情報を捉える
2. Top-down	feedback	step		->	元の特徴量mapと画像全体の情報を組み合わせる
3.	Proposal	model
3.3.	Spatial	Attention	and	Channel	Attention
• 活性化関数を変えることによって,attentionの制約を加えることができ
る
1. Mixed	attention	=>	シグモイド
2. Channel	attention	=>	場所ごとに正規化
3. Spatial	attention	=>	channelごとに正規化
4.	Experiment	&	Result
4.1.	CIFAR	and	Analysis
1. Attention	Residual	Learningの有効性を検証
• Attention	Residual	Learningを⾏わないナイーブなattention機構を⽤いたモデル(NAL:	naive	
attention	learning)をベースラインにする
• Attention	Moduleのstageごとに出⼒の平均を取ったもの.NALではstage2で勾配が消えて
いることがわかる
4.	Experiment	&	Result
4.1.	CIFAR	and	Analysis
2. 他のmask	branch構造との⽐較
• ダウンサンプリングとアップサンプリングを⾏わない普通の畳み込みと精度を⽐較する
ことで,mask	branchの構造の優位性を検証する
4.	Experiment	&	Result
4.1.	CIFAR	and	Analysis
3. ラベルのノイズに対する耐性の検証
• ダウンサンプリングとアップサンプリングを⾏わない普通の畳み込みと精度を⽐較する
ことで,mask	branchの構造の優位性を検証する
• Training	convolutional	networks	with	noisy	labels[31]に従って,以下のように確率を定義
r	=	正しいlabelである確率,𝑞UV = 本当のlabelがjで実際のノイズつきlabelがiである確率
4.	Experiment	&	Result
4.1.	CIFAR	and	Analysis
4. 他のstate-of-the-artのモデルとの精度⽐較
4.	Experiment	&	Result
4.2.	ImageNet	Classification
1. 精度が良くなっているだけでなく,モデルの効率性が優れる
1. より少ないパラメタで学習可能
2. FLOPs(Floating-point	Operations	Per	Second)が優れている
2. ResNetユニットについて⽐較すると,
1. 同程度の精度ならAttentionNeXt-56の⽅が効率的
2. 同程度の効率性ならAttentionNeXt-56の⽅が⾼精度
3. State-of-the-artのアルゴリズムと⽐べても⾼性能
5.	Conclusion
• ResNetにattention機構を追加
• 異なるAttention	Moduleで異なるattention機構を持つ
• Attention機構にbottom-up	top-down	feedforward	convolutional	structure
を⽤いる
• より安定して層を深くし,精度を向上
• より洗練された特徴量の選択とノイズへの耐性
• 既存のモデルに対して,要求されるモデルの複雑さ(パラメタ数や計算
量)が少なくて済む
6.	Squeeze-and-Excitation	Networks
• ILSVRC2017で優勝したモデル(まだpaperでてない)
• Residual	Attention	Network	for	Image	Classificationと⾮常に似ている
• 違いはchannelごとにattentionを⾏なっていること
[引⽤:https://github.com/hujie-frank/SENet]
~資料参考⽂献~
**論⽂内引⽤⽂献を除く
• Squeeze-and-Excitation	networks	(ILSVRC	2017	winner)	at	CVPR2017
https://photos.google.com/share/AF1QipNRXiNDP9tw-
B_kyKk4hnXL_N283IaWNxSYH7jtAN1N0m62Uydh3MnpWFPh2GQYUw?key=STNBSU5XRkpKLXBSbm
E2Um9GbGRUSm9aME1naFF3
• Convolutional	Neural	Networks	のトレンド
https://www.slideshare.net/sheemap/convolutional-neural-networks-wbafl2
• Res	netと派⽣研究の紹介
https://www.slideshare.net/masatakanishimori/res-net
• Residual	Network(ResNet)の理解とチューニングのベストプラクティス
https://deepage.net/deep_learning/2016/11/30/resnet.html
• Effective	Approaches	to	Attention-based	Neural	Machine	Translation,	Minh-
Thang	Luong,	Hieu Pham,	Christopher	D.	Manning
https://arxiv.org/abs/1508.04025

More Related Content

PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
ドメイン適応の原理と応用
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
近年のHierarchical Vision Transformer
PDF
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
ドメイン適応の原理と応用
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
【メタサーベイ】数式ドリブン教師あり学習
近年のHierarchical Vision Transformer
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
【DL輪読会】ViT + Self Supervised Learningまとめ

What's hot (20)

PPTX
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
PDF
時系列予測にTransformerを使うのは有効か?
PPTX
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PDF
動画認識サーベイv1(メタサーベイ )
PPTX
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PDF
Vision and Language(メタサーベイ )
PDF
[DL輪読会]Attention Is All You Need
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PDF
Transformer 動向調査 in 画像認識(修正版)
PDF
[DL輪読会]ICLR2020の分布外検知速報
PDF
【メタサーベイ】Video Transformer
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PDF
Action Recognitionの歴史と最新動向
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PPTX
[DL輪読会]Objects as Points
PPTX
SfM Learner系単眼深度推定手法について
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
時系列予測にTransformerを使うのは有効か?
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
動画認識サーベイv1(メタサーベイ )
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Vision and Language(メタサーベイ )
[DL輪読会]Attention Is All You Need
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Transformer 動向調査 in 画像認識(修正版)
[DL輪読会]ICLR2020の分布外検知速報
【メタサーベイ】Video Transformer
【メタサーベイ】Vision and Language のトップ研究室/研究者
Action Recognitionの歴史と最新動向
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]Objects as Points
SfM Learner系単眼深度推定手法について
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Ad

Viewers also liked (7)

PDF
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
PDF
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
PDF
Text Summarization Talk @ Saama Technologies
PDF
最先端NLP勉強会2017_ACL17
PDF
LSTM (Long short-term memory) 概要
PDF
A Neural Attention Model for Sentence Summarization [Rush+2015]
PDF
FIT2012招待講演「異常検知技術のビジネス応用最前線」
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Text Summarization Talk @ Saama Technologies
最先端NLP勉強会2017_ACL17
LSTM (Long short-term memory) 概要
A Neural Attention Model for Sentence Summarization [Rush+2015]
FIT2012招待講演「異常検知技術のビジネス応用最前線」
Ad

Similar to [DL輪読会] Residual Attention Network for Image Classification (16)

PDF
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PDF
Deep Residual Learning (ILSVRC2015 winner)
PDF
cvpaper.challenge チームラボ講演
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
[DL輪読会]Training RNNs as Fast as CNNs
PPTX
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回 「ネットワーク分析の方法+WSシリーズまとめ」
PDF
[論文紹介] Convolutional Neural Network(CNN)による超解像
PPTX
【DL輪読会】Reflash Dropout in Image Super-Resolution
PDF
AIがAIを生み出す?
PPTX
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
PPTX
画像認識 6.3-6.6 畳込みニューラル ネットワーク
PDF
論文紹介:Facial Action Unit Detection using Active Learning and an Efficient Non-...
PDF
第3回enPiTシンポジウムBizApp分野代表発表
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
[DL輪読会]Deep Face Recognition: A Survey
Deep Residual Learning (ILSVRC2015 winner)
cvpaper.challenge チームラボ講演
畳み込みニューラルネットワークの高精度化と高速化
[DL輪読会]Training RNNs as Fast as CNNs
SciREX「ナショナルイノベーションシステムに係る定量データとその分析手法」WSシリーズ第6回 「ネットワーク分析の方法+WSシリーズまとめ」
[論文紹介] Convolutional Neural Network(CNN)による超解像
【DL輪読会】Reflash Dropout in Image Super-Resolution
AIがAIを生み出す?
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
画像認識 6.3-6.6 畳込みニューラル ネットワーク
論文紹介:Facial Action Unit Detection using Active Learning and an Efficient Non-...
第3回enPiTシンポジウムBizApp分野代表発表

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会] Residual Attention Network for Image Classification