SlideShare a Scribd company logo
Stand-Alone Self-Attention in Vision
2019/10/03
神戸瑞樹
Prajit Ramachandran∗ Niki Parmar∗ Ashish Vaswani∗
Irwan Bello Anselm Levskaya† Jonathon Shlens
Google Research, Brain Team
{prajit, nikip, avaswani}@google.com
https://arxiv.org/pdf/1906.05909.pdf
∗Denotes equal contribution. Ordering determined by random shuffle.
†Work done as a member of the Google AI Residency Program
概要
• 畳み込み層をlocal self-attentionに変更したFull
Attention のvision modelを提案
• 同程度の精度を少ない計算量とパラメータで達成
2
Introduction
• 画像認識は畳み込みで成功を収めた
• 自然言語処理はAttentionで成功している
• 近年では、Attentionはvision modelにもアドオン
的に導入されている(Squeeze-Excitenなど)
• 畳み込みの補強ではなく、コア要素として使えないか
• Full Attention モデルを提案
3
Attention
• 自然言語処理の基盤
• RNNを潰した
4
参考・引用:https://qiita.com/halhorn/items/c91497522be27bde17ce
Self-Attention
• query, key, valueがすべて同じ場所(self)から
• CNNにも導入され、精度の上昇に寄与
• 畳み込みの補強
5
Stand-alone self-attention
• globalでやると計算コストが大きすぎる
• k*kで処理(local self-attention)
• 実際は次元をN個に分割し、N個のアテンショ
ンで並列処理して連結
6
x
q
k
v
y
1*1畳み込み
Stand-alone self-attention
• 前ページだけだと位置情報が入っていない
• k*kをシャッフルしても同じ結果に
• 絶対位置を基にしたSinusoidal embeddingsよ
りも相対位置の embeddingsの方がよい結果
7
Stand-alone self-attention
• Attentionのパラメータはkのサイズが大きく
なっても変わらない
• 畳み込みは増加
• 計算コストの増え方も畳み込みと比べると緩や
か
• 入力と出力が128次元で、k=3の畳み込みと
k=19のAttentionの計算コストが一緒
8
空間的畳み込みの置き換え
• k>1の畳み込みを空間的畳み込み(spatial
convolution)と定義
• 既存モデルの空間的畳み込みをattentionで置き
換える
• ダウンサンプリングが必要な時はストライド2
の2*2平均プーリングを使用
• 他の構造は全て保持
9
stem
• CNNの最初のレイヤーはstemと呼ばれることがある
• エッジなどの局所特徴の学習を行い後のレイヤーにグロー
バルオブジェクトを認識させる役割をもつ
• 入力画像が大きいため、ステムは通常、コアブロッ
クとは異なり、空間的ダウンサンプリングによる軽
量操作に焦点を当てている
• ステムレイヤーではコンテンツはRGBピクセルであ
り、これらは個別には情報がなく、空間的に強く相
関している
• self-attentionなどのコンテンツベースメカニズムでは、
エッジなどの役に立つ特徴の学習が困難
• 畳み込みの方がいい結果に
10
stemの置き換え
• 空間的に変化する線形返還を通じて、距離ベー
スの情報を1*1畳み込み(Wv)に注入する
11
ImageNet
• ResNetを使用
• k=7
• 8 attention heads
• 計算量とパラメータ
の減少
• 精度の上昇
12
COCO Object Detection
• RetinaNetを使用
• 画像分類のネットワーク
• Feature Pyramid Network(FPN)と2つのアウトプッ
ト用ネットワークdetection heads
• 計算量とパラメータを減らし同程度の精度
13
Ablation study(置き換える場所)
• 空間的畳み込みの置き換え場所を変化
• stemは畳み込み
• 畳み込みは早い段階で有効
• low-levelな特徴を掴みやすい
• attentionは後の段階で有効
• globalな情報を統合しやすい
14
Ablation study(kの値)
• kの値を変化
• k=11周辺の大きい数字を使うことで精度が上
がる
• 精度が高いkの値は特徴量のサイズやattention
headsの数などのハイパーパラメータに依存す
るかもしれない
15
Ablation study(位置情報)
• 与える位置情報を変化
• 与えたほうがよく、エンコード方法も大事
• 位置情報を与えれば、qTkを消しても0.5%しか
下がらない
16
discussion
• Fully attentional networkの提案
• 計算量とパラメータを減らして同等以上の精度
• attentionはネットワークの後ろでよく効く
• ネットワークを改善する方法がいくつかある
• 幾何を捉えられるattentionメカニズムの開発
• attention layerをコンポーネントとしてネットワークを探索
• 初期レイヤーでlow-levelの特徴を掴めるattentionの提案
• attentionベースは計算量が減るが実時間では遅い
• 最適化されたハードが存在しないため
• 畳み込みとattentionをうまく組み合わせたい
• CNNが使われている他のタスクでもattentionの適用が
期待される
• セグメンテーション、キーポイント検出、姿勢推定など
17

More Related Content

PDF
SSII2019企画: 点群深層学習の研究動向
PDF
R-CNNの原理とここ数年の流れ
PPTX
畳み込みLstm
PDF
実装レベルで学ぶVQVAE
PDF
Anomaly detection survey
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
画像認識の初歩、SIFT,SURF特徴量
SSII2019企画: 点群深層学習の研究動向
R-CNNの原理とここ数年の流れ
畳み込みLstm
実装レベルで学ぶVQVAE
Anomaly detection survey
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
画像認識の初歩、SIFT,SURF特徴量

What's hot (20)

PPTX
画像キャプションの自動生成
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PPTX
深層学習の数理
PPTX
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
PDF
数学で解き明かす深層学習の原理
PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
PPTX
モデル高速化百選
PDF
LSTM (Long short-term memory) 概要
PPTX
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
PPTX
近年のHierarchical Vision Transformer
PPTX
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PDF
先端技術とメディア表現1 #FTMA15
PDF
Transformer メタサーベイ
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PDF
Recurrent Neural Networks
PDF
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
PDF
SSD: Single Shot MultiBox Detector (ECCV2016)
画像キャプションの自動生成
[DL輪読会]Dense Captioning分野のまとめ
畳み込みニューラルネットワークの高精度化と高速化
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
深層学習の数理
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
数学で解き明かす深層学習の原理
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
モデル高速化百選
LSTM (Long short-term memory) 概要
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
近年のHierarchical Vision Transformer
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
先端技術とメディア表現1 #FTMA15
Transformer メタサーベイ
最近のDeep Learning (NLP) 界隈におけるAttention事情
Recurrent Neural Networks
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSD: Single Shot MultiBox Detector (ECCV2016)
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【DLゼミ】Generative Image Dynamics, CVPR2024
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
Generating Automatic Feedback on UI Mockups with Large Language Models
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
Ad

Stand alone self attention in vision models