6. 3. Attention Augmented Convolution
先行研究(SE Block 等) と比較して
事前に AA Block 抜きで pre-training する必要がない
non-local neural networks などは事前に付与せずに ImageNet 等を学習する必要あり
The use of multi-head attention allows the model to attend jointly to both spatial and feature
subspaces
multi-head attention を利用
→ 空間と特徴の部分空間を一緒に扱えるようになった?(意味怪しいです…)
5
9. 3. Attention Augmented Convolution
数式的内訳
変数の定義
H: height of input
W: width of input
F_in: channel of input
N_h: number of head in multihead-attention (MHA)
d_v: depth of values in MHA
d_k: depth of queries and keys in MHA
8
10. 3. Attention Augmented Convolution
画像が入力された時の操作
1. H, W について flatten
2. flatten したベクトル X から各 attention の head について以下の出力を得る
9
11. 3. Attention Augmented Convolution
画像が入力された時の操作
1. H, W について flatten
2. flatten したベクトル X から各 attention の head について以下の出力を得る
10
Query 特徴量に変換 Key 特徴量に変換
Value 特徴量に変換