【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用

3章：Transformerの画像での応用
ソニーグループ株式会社
箕浦大晃

2
コンテンツ
• Vision Transformerの理解
⁃ CNNとViTの違い
⁃ ViTの構造と処理手順
⁃ モデルの判断根拠の説明
⁃ コンピュータビジョンにおけるTransformerの応用例
⁃ ViTにおける課題と解決案
• CLIPから始まるVision & Language
⁃ CLIPの理解
⁃ CLIPによって得られた恩恵
⁃ CLIPによるVLタスクの発展

3
Vision Transformer - CNNの性能を凌駕する新たなモデル -
• ResNet (CNN) [K.He+,CVPR2016]
⁃ 2020年まで深層学習を牽引してきた代表的モデル
⁃ 残差機構により深いモデルを構築可能
• 入力をショートカットしブロックの出力と加算
• 勾配計算時にショートカットを通じて下層に勾配を伝播
7x7
Conv.
⊕
1x1
Conv.
3x3
Conv.
1x1
Conv.
Pool.
× 𝐿1
Pool.
… ⊕
1x1
Conv.
3x3
Conv.
1x1
Conv.
Pool.
× 𝐿4
GAP
FC
cat
…
class token
Norm.
Multi-Head
Attention
⊕
Norm.
MLP
⊕ ⊕
…
FC
× 𝐿
Transformer Encoder
PE cat
• Vision Transformer (ViT) [A.Dosovitskiy+,ICLR2021]
⁃ TransformerをVision分野に応用した画像分類手法
• 画像を固定パッチに分解してSelf-Attentionで対応関係を獲得
• EncoderのみのTransformerでシンプルな構造
⁃ 2020年以降のベースモデルとして使われる
• 言語と視覚を共通の枠組みで扱え，CVの基盤技術に大きく貢献

4
ViTとCNNの違い
• ViTは浅い層からパッチ同士の関係を大域的に捉えることが可能[J.Cordonnier+,ICLR2020]
⁃ CNNは局所結合で層を重ねることで段階的に大域を捉える構造
⁃ ViTが局所的な帰納バイアスを持たないため大規模なデータを用意できるならViTの方が高性能
3x3の領域 (receptive field)の特徴を捉える
パッチに分解しTransformerで画像全体の特徴を捉える
※ 1回畳み込んだ場合
CNN
ViT
ViT
…
横：事前学習DB．縦：ImageNetで評価
[A.Dosovitskiy+,ICLR2021]

5
ViTにおける特徴表現獲得
• ViTは物体の形状，CNNは物体のテクスチャを頼りに画像を認識[S.Tuli+,CogSci2021]
⁃ 人間は形状で物体を認識するためテクスチャを変換しても物体を認識可能
• ViTは人間の認識性能にある程度似ていると言える
⁃ CNNがハイパスフィルタ，ViTがローパスフィルタを持つ[N.Park+,ICLR2022]
• CNNが局所的な帰納バイアスの影響でテクスチャに引っ張られる
• ViT (SA)のローパスフィルタな役割はテクスチャの影響を受け辛い
Style Transfer
[LA.Gatys+,CVPR2016]
Shape label
Texture label
：cat
：elephant
CNN
or
ViT
cat → shape
elephant → texture
分類結果
マップ化
style変換した画像をモデルへ入れ分類結果で判定

6
全体の流れ
…
class token
Norm.
Multi-Head
Attention
⊕
Norm.
MLP
⊕ ⊕
…
FC
× 𝐿
Transformer Encoder
1. 画像を固定パッチに分解し，分類問題用に新しくclass tokenを追加
2. Position Embeddingを各トークンに付与
3. Transformer Encoderで各トークン間の関係を捉える
4. class tokenの出力を用いて全結合層でクラス分類
① ② ③ ④
PE cat

• 入力画像を分解したパッチ領域をEmbeddingした後に位置情報を付与してViTへ入力
7
①Patch Embeddingと②Position Embedding
Embedding
Flatten
𝐱𝑝
1
𝐱𝑝
2
𝐱𝑝
3
𝐱𝑝
𝑛
𝐄 ∈ ℝ(𝑃2⋅𝐶)×𝐷
[cls] token
𝐱𝑝
𝑁
∈ ℝ𝑃2⋅𝐶
+
+
+
+
Position Embedding
ViT
微分可能なパラメータで
明示的に位置は教えずに自動で学習される
始点(0ベクトルで表現)であり
画像特徴がViTで集約されて最終層でクラス分類
TransformerのEmbedding特徴量と同じ扱い
入力画像を𝑃 × 𝑃に小分け
…
…
𝐱𝑝
𝑛
𝐄
𝐱𝑝
3
𝐄
𝐱𝑝
2
𝐄
𝐱𝑝
1
𝐄
+
𝐄𝑝𝑜𝑠 ∈ ℝ(𝑁+1)×𝐷
𝐄𝑝𝑜𝑠
𝑁：パッチ数
：次元数
𝐷
：チャンネル数
：パッチ画像サイズ
𝐶
𝑃
① ②

8
Embedding
Flatten
𝐱𝑝
1
𝐱𝑝
2
𝐱𝑝
3
𝐱𝑝
𝑛
𝐄 ∈ ℝ(𝑃2⋅𝐶)×𝐷
[cls] token
𝐱𝑝
𝑁
∈ ℝ𝑃2⋅𝐶
+
+
+
+
Position Embedding
ViT
…
…
𝐱𝑝
𝑛
𝐄
𝐱𝑝
3
𝐄
𝐱𝑝
2
𝐄
𝐱𝑝
1
𝐄
+
𝐄𝑝𝑜𝑠
CNNの低次元層のフィルタのようなものが学習される
𝑁：パッチ数
：次元数
𝐷
𝐶
𝑃
① ②

① ②
9
Embedding
Flatten
𝐱𝑝
1
𝐱𝑝
2
𝐱𝑝
3
𝐱𝑝
𝑛
𝐄 ∈ ℝ(𝑃2⋅𝐶)×𝐷
[cls] token
𝐱𝑝
𝑁
∈ ℝ𝑃2⋅𝐶
+
+
+
+
Position Embedding
ViT
…
…
𝐱𝑝
𝑛
𝐄
𝐱𝑝
3
𝐄
𝐱𝑝
2
𝐄
𝐱𝑝
1
𝐄
+
𝐄𝑝𝑜𝑠
𝑁：パッチ数
：次元数
𝐷
𝐶
𝑃
ベースモデル基準
あるPEと他のPEとの類似度を表現
(1,1)付近の他の位置との類似度が高い
(1,1)から遠方の他の位置との類似度が低い
付近のPE同士は似た値になるように学習されている

10
③ Blockの全体処理
self-attention feed forward
特徴ベクトル
トークン数x次元数
𝑊
𝑓𝑒𝑒𝑑1
FC後の特徴ベクトル
𝑊
𝑓𝑒𝑒𝑑2
𝐷 4𝐷 𝐷
query
key
value
𝑊
𝑞
𝑊𝑘
𝑊
𝑣
トークン数xトークン数
𝜶とValue間の行列演算 (重みを乗算)
各行には各トークンの他のトークン
との重要度が格納されている
queryとkey間の行列演算
𝑊𝑜𝑢𝑡
𝐷
転置
行方向に
softmax
𝐷
𝐷
𝜶
ベクトルをチャンネル方向
に個別に変換
正
規
化
ベクトルを空間方向に
混ぜて変換
正
規
化
cls token cls token
点線部を𝐿回繰り返す
cls token
class tokenのみ用いて
クラス分類
ｚ
⊕ ⊕
𝐷
𝐷
𝑁

11
③ Blockの全体処理
self-attention feed forward
特徴ベクトル
𝑊
𝑓𝑒𝑒𝑑1
FC後の特徴ベクトル
𝑊
𝑓𝑒𝑒𝑑2
𝐷 4𝐷 𝐷
query
key
value
𝑊
𝑞
𝑊𝑘
𝑊
𝑣
トークン数xトークン数
𝜶とValue間の行列演算 (重みを乗算)
各行には各トークンの他のトークン
との重要度が格納されている
queryとkey間の行列演算
𝑊𝑜𝑢𝑡
𝐷
転置
行方向に
softmax
𝐷
𝐷
𝜶
ベクトルをチャンネル方向
に個別に変換
正
規
化
ベクトルを空間方向に
混ぜて変換
正
規
化
cls token cls token
点線部を𝐿回繰り返す
cls token
class tokenのみ用いて
クラス分類
ｚ
⊕ ⊕
𝐷
𝐷
𝑁
attention weightを用いて
注視領域(認識に対する説明性)を可視化

• AIの推論結果に対して説明ができない -> ブラックボックス問題
12
AIにおける判断根拠の可視化 (Attention map)
鳥：0.89
モデル
何故鳥と答えた？
推論結果
…
犬：0.01
猫：0.02

• AIの推論結果に対して説明ができない -> ブラックボックス問題
⁃ CNNでは畳み込み層の勾配からマップを作成するGrad-CAM[RR.Selvaraju+,ICCV2017]等で判断根拠の可視化を行う
⁃ ViTではattention weightを用いて判断根拠の可視化を行う
モデル
13
AIにおける判断根拠の可視化 (Attention map)
Back Prop.
…
⊕
ReLU
鳥：0.89
推論結果
…
犬：0.01
猫：0.02
鳥の特徴を捉えている

14
ViTにおけるAttention mapの出力
• Attention Rolloutにより分類結果に対する説明を間接的に捉えることが可能
⁃ Attention Rollout：モデルが特定のクラス識別した理由をattention weightから説明
• クラストークンと各パッチトークン間のattention weightを取得
• attention weightを層毎に乗算，ヘッド方向に平均してマップ化
• クラストークンと各パッチトークン間で関連性が高いパッチ特徴を分析可能
Attention Rolloutで可視化した例[A.Dosovitskiy+,ICLR2021]
Attention Rollout [S. Abnar+,ACL2020]

15
Transformer Explainability[H.Chefer+,CVPR2021]
• Grad-CAMのように勾配ベースでAttention mapを可視化する方法
⁃ 着目してほしい認識物体に対する可視化が可能
ViT-16 Tiny ViT-16 Small ViT-16 Tiny ViT-16 Small

16
コンピュータビジョンにおけるTransformerの応用例
画像生成 [Y. Jiang+, NeurIPS2021]
物体検出 [N. Carion+, ECCV2020]
動画像認識 [A. Arnab+, ICCV2021]
姿勢推定 [S.Yang+, ICCV2021]
セマンティックセグメンテーション[E. Xie+, NeurIPS2021]

17
DEtection TRansformer - DETR-[N. Carion+, ECCV2020]
• 従来のNMSによる後処理やAnchorの生成を用いずTransformerで直接物体を検出
Conv.
Conv.
class
box class
box class
box class
box class
box class
box
NMS
CNN
set of image features
Transformer
Encoder-Decoder
set of box predictions
bipartite matching loss
no object (∅) no object (∅)
- 従来研究(SSD) -
- DETR -
物体候補領域をたくさん推論してNMS*で絞り込む
- 欠点 -
• NMSの閾値，BoundingBoxのdefault box等を人手でチューニング
• End-to-Endが実現されていない
NMS無しで画像内の物体を一括で推論可能
- 課題と提案 -
• 画像内の全推論結果と全教師ラベルの対応付けが不明
• 物体の存在する位置やクラスの順序は関係ない
→ ハンガリアン法で最適な対応付けを行う
Conv.
Conv. Conv.
Conv. Conv.
Conv. Conv.
Conv. Conv.
Conv.
NMS：Non-Maximum Suppression
Single Shot multibox Detector

18
SegFormer[E.Xie+, NeurIPS2021]
• Transformerをセグメンテーションタスクへ応用
⁃ Mix Transformer
• マルチレベルな特徴を獲得可能な階層型Transformer
• 計算コストを削減する構造
⁃ 軽量かつシンプルなMLPデコーダを採用
• Transformerは局所的かつ大域的な特徴を浅い層から獲得
• MLPで局所的な特徴を補完
Red Box：Stage-4のself-attentionのreceptive fieldの大きさ
Blue Box：MLP Layerのreceptive fieldの大きさ
Cityscapesにおけるreceptive fieldの効果を分析
→ CNNベースは局所的な特徴のみ捉えるが，Transformerベースは局所的・広域的な特徴を捉える
→ MLPのreceptive fieldは局所的領域の密度が高い = 小さい物体の正確なセグメンテーションが期待

19
ViT (Transformer)における課題
リッチな計算資源が必要
膨大なモデルパラメータを保有
学習に膨大なデータが必要
データ量が少ないとCNNより認識性能が劣る
…
課題
膨大な正解ラベルが必要
事前学習が「教師あり学習」で正確なアノテーションが必要

20
知識蒸留とデータ拡張 (Data-efficient image Transformers : DeiT)
• 学習済みのCNNを教師とした知識蒸留で小さなデータセット(ImageNet)で高性能[H.Touvron+,ICML2021]
⁃ 知識蒸留用にdistillation tokenを用意し教師モデルの出力分布に近似するように学習
• 疑似的にデータをかさ増しするデータ拡張で高性能化を実現
⁃ DeiTで設定されたデータ拡張が後続研究でデファクトスタンダートになった
⁃ 物体形状を捉えるように設定したデータ拡張がさらに高性能になることが判明している[H.Touvron+,ECCV2022]
Teacher：CNN
ViT
Student：ViT
MLP
Dist.token
MLP
Class
token
入力画像
教師モデルの出力
0.80：猫
0.16：犬
0.04：魚
教師ラベル
1：猫
0：犬
0：魚
生徒モデルの出力
Target loss
Soft/Hard
Target loss

21
特定範囲内でSelf-Attention - Swin Transformer -
• 多様な物体スケールに対応かつ特定範囲内のSelf-Attentionで計算量を削減[Z.Liu+,CVPR2021]
⁃ ViTのパッチサイズ(16x16)より細かいパッチサイズ(4x4)で分割
⁃ パッチを広く分割した特定範囲内(window)のみでSAを計算
⁃ windowを跨いだ特徴を捉えるために層毎にwindowをシフト
⁃ Stage毎に特徴マップサイズを小さくする階層型構造も合わさることで
CV向けTransformerモデルとしての地位を獲得
Layer 𝒍 Layer 𝒍 + 𝟏
window
パッチ
Shifted window

• 正解ラベルを付与していない大量のデータを疑似的な問題として学習
⁃ 正解ラベルを必要としないためアノテーションにかかる人的コストを削減
⁃ 下流タスクに有益となる特徴を中間表現の学習で獲得し，学習したモデルを各タスクへ転移学習
22
自己教師あり学習 - Self-Supervised Learning -
cat
分類タスク
事前学習済み
モデル
HEAD
検出タスク
事前学習済み
モデル
HEAD
SSLで
事前学習するモデル
大量の正解ラベル無しデータ
①大量の正解ラベル無しデータでモデルを事前学習 ②SSLで事前学習したモデルを対象タスクへ転移学習

23
自己教師あり学習とViTの組み合わせ
Masked Image Modeling：代表的方法 -MAE-
マスクしたトークンから元画像を復元するように学習
Contrastive Learning：代表的方法 -DINO-
画像間の関係に基づいて画像から抽出した特徴量を埋め込む
ImgeNet-1kの評価用データに対する復元結果
入力画像復元結果原画像
encoder
decoder
…
…
Teacher
Augment
• ViTにおける自己教師あり学習の代表的方法
⁃ Masked Image Modeling ：画像を固定パッチに分解後にランダムにマスクしたパッチ領域を復元
• MAE[K.He+,CVPR2022]，LocalMIM[H.Wand+,CVPR2023], BEiT[H.Bao+,ICLR2022](トークン毎の分類問題として扱う特殊例)
⁃ Contrastive Learning ：画像同士を比較し類似データを近づかせ非類似データを遠ざけて学習
• DINO[M.Caron+,ICCV2021]，DINO v2[M.Oquab+,TMLR2024]，MoCo v3[X.Chen+,ICCV2021]
⁃ 大規模データセットで豊富な知識を得たモデルが下流タスクで高性能なことが判明[M.Oquab+,TMLR2024][M.Singh+,ICCV2023]
Student
誤差逆伝播
Centering
Softmax
指数移動平均
stop-grad
損失計算
(交差エントロピー)

24
スケーリング則[J.Kaplan+,JMLR2022]
• 大規模モデルの性能は3つの大小に依存
⁃ 学習ステップ数，データセットサイズ，パラメータ数
• データ数とモデルを大規模にすればするほど高性能
⁃ 最適な学習方法に設定して膨大に学習する必要がある
⁃ 学習に膨大なコストがかかるため経験則に基づくチューニングが必須

25
コンテンツ
• Vision Transformerの理解
⁃ CNNとViTの違い
⁃ ViTの構造と処理手順
⁃ モデルの判断根拠の説明
⁃ コンピュータビジョンにおけるTransformerの応用例
⁃ ViTにおける課題と解決案
• CLIPから始まるVision & Language
⁃ CLIPの理解
⁃ CLIPによって得られた恩恵
⁃ CLIPによるVLタスクの発展

26
Vision & Language
• 画像と自然言語処理を融合した研究分野
⁃ 他にもキャプション生成，ナビゲーション，動画像要約等の幅広いタスクで研究されている
⁃ モデルの多くは特定タスクに対してCNN(画像) + RNN (言語)を使用
Language
Model
Vision
Model
Image to Text
中央にある
黒色の物体を教えて
テレビ
視覚的質問応答：画像に関する質問から正しい答えを導き出す
Text to Image
条件付き画像生成：テキストから画像を生成
全体的に灰色の背景で
中央に虎猫がいる
Generator
Transformer，大規模DB構築に伴い画像と言語を共通の特徴空間で近似することが効果的なことが判明

27
Contrastive Language-Image Pre-training - CLIP -
• 大規模なweb画像とテキストのペアデータ(400M)によるVision & Languageの基盤モデル
[A.Radford+,ICML2021]
⁃ 画像と言語のペアをポジティブペアとして対照学習
⁃ 画像と言語を共通の特徴空間上で近くなるように学習させる
Image
Encoder
Text
Encoder
cock with red
mane
Black fox
tabby on grass
𝑰𝟏
𝑰𝟐
𝑰𝑵
…
𝑰𝟏 ∙ 𝑻𝟏 𝑰𝟏 ∙ 𝑻𝟐 𝑰𝟏 ∙ 𝑻𝑵
𝑰𝟐 ∙ 𝑻𝟏 𝑰𝟐 ∙ 𝑻𝟐 𝑰𝟐 ∙ 𝑻𝑵
𝑰𝑵 ∙ 𝑻𝟏 𝑰𝑵 ∙ 𝑻𝟐 𝑰𝑵 ∙ 𝑻𝑵
…
…
…
…
…
…
𝑻𝟏 𝑻𝟐 … 𝑻𝑵
ペアは近づ
かせる
非ペアは遠
ざかる
• CLIPのバッチサイズは32,768
• CLは負例を多くして学習を効率
よく行うためにバッチサイズが
大きい
どちらも
Transformer
CNNも可
各ドメインのベクトル

28
CLIPのモチベーション
従来研究 CLIP
bird: ID n
…
dog: ID 3
cat: ID 2
plane: ID 1
fox: ID n
…
plane: ID 3
dog: ID 2
bird: ID 1
データ
セットA
モデル
データ
セットB
モデル
ラベル
特定DBで学習したモデルを
他DBで分類しようとする
• 事前学習のデータセットと出力のラベルが1対1で，データセットが変わると分類モデルが不成立
• ラベルIDを学習するためクラスの意味を理解できない
• 新たなラベルを認識可能にするために追加の学習が必要
画像
画像
red bird
…
sleeping dog
sitting cat
plane in the sky
データ
セット
Vモデル
文章
画像
Lモデル
特徴空間
• 画像と文章を各ドメインモデルの中間表現に変換し，それぞれを紐づけるように学習
• 様々な画像と文章を概念的に理解できる
• 推論時に特徴ベクトル同士の内積から最大値をとることで未知ラベルに対する認識が可能

29
CLIPでのzero-shotクラス分類方法
• CLIPは未知画像に対して学習なしで予測するzero-shotクラス分類が可能
⁃ データセット内のクラス名とプロンプトテンプレートを用意
⁃ 画像と言語のそれぞれのエンコーダから出る特徴量の類似度からクラス識別
⁃ 一般的な画像識別問題であれば様々なデータセットで性能が良い
Text
Encoder
bird
…
𝑰𝟏 0.02 0.74 0.01
…
𝑻𝟏 𝑻𝟐 … 𝑻𝑵
dog
cat
plane
A photo of
a {object}.
Image
Encoder
A photo of
a cat.
プロンプト
テンプレート
クラス名
27種類のデータセットでCLIP(zero-shot)と
ResNet-50(教師あり)を比較
16種類のデータセットで
CLIPの方が性能良い
衛星画像分類，リンパ節腫瘍等の
専門的・複雑なタスクで性能が低い

• CLIPの成功により様々なCV分野でVLモデルが提案されている
30
CLIPによるVLモデルの発展
CLIP
Parameter Efficient Tuning
膨大なパラメタを持つモデルの一部のみ更新
事前学習済みモデルの破滅的忘却を防ぐ
Text-to-Image(Video)
テキストから画像や動画を生成
ユーザが欲しい画像を自由に生成可能になった
Object Detection
テキストとマッチする物体を検出
任意のオブジェクトを検出可能になった
Segmentation
テキストとマッチする物体領域を検出
任意の領域をセグメンテーション可能になった
Multi-Modal Model
大量かつ広範なデータで学習して
様々な下流タスクに転移できるモデル
所謂，Foundation Modelと呼ばれる
• Prompt Tuning
• Adapter (LoRA)
• ViLD
• GLIP
• Grounding-DINO
• DenseCLIP
• Segment Anything*
*テキストによるセマセグは未リリース
• DALL・E2
• Stable Diffusion
• Sora
• CoCa
• Unified-IO
• Flamingo
• 入力画像をCNNで画像特徴量に変換
• 特徴量をRNNに渡し文章生成
CNN+RNN
2021年CLIP登場
Transformer
(2017)
BERT
(2019)
ViT
(2021)
アプリケーション寄り
基礎技術寄り

• 少量なパラメタで特定タスクを解くためにモデルの一部のみを更新
エンコーダ
31
Parameter Efficient Tuning
Prompt Tuning
white
cat
is
walking
• 人手でプロンプトを書くがタスク毎の最適なプロンプトを用意できない
• プロンプト自体を学習して高性能に最適化させる
プロンプト
エンコーダ
• 画像の場合はクラストークンと同様のトークンを追加
• 最終層のヘッドを更新
• 追加したプロンプトトークンは損失計算しない
トークン
プロンプト
クラストークン
パッチ
ヘッド
…
Adapter
• Transformerブロックの中に学習可能なMLPブロックを追加
𝑊𝑑𝑜𝑤𝑛
𝑊
𝑢𝑝
non
linear
⊕
• 学習可能な低ランクな行列を用意し，線形層やSA部分に加算 (LoRA)
• お気持ちはfine-tuningの更新をしているだけ
𝑊𝑑𝑜𝑤𝑛
𝑊
𝑢𝑝
Pretrained
Weight
𝑾 ∈ ℝ𝒅×𝒅
x
h
+
d
𝑊′
= 𝑊 + Δ𝑊
FT後のパラメタ元パラメタ FT後と元パラメタの差分
LoRAはFT後と元パラメタの差分をシンプルかつ効率的に学習
トークン

• 事前定義された物体クラスに制限せず任意テキストで指定した物体を検出
32
Open-set Object Detection
Vision
Model
事前定義されたNクラスを検出できるモデル
Language
Model
couch, poster on the wall,
red chair on the left
Prompt
Closed-set Object Detection
Open-set Object Detection
言語特徴量をVisionモデルに入れたり，出力側で画像特徴量と言語特徴量間でアライメントを行う
couch
chair
TV
couch
red chair
on the left
Poster on
the wall
未知クラスでも検出できるモデル
Vision
Model
Nクラス用意したDB

33
Text-to-Image / Video
• 任意テキストにマッチする画像や動画像を生成
⁃ 元画像に少しずつノイズを加え，ノイズを除去しながら画像を復元するDiffusion Modelが脚光を浴びている
Sora (OpenAI, 2024)
テキスト -> 動画
Stable Diffusion 3 (Stability AI, 2024)
テキスト -> 画像
サイバーパンクを舞台としたロボットのストーリー
[引用] https://www.youtube.com/watch?v=HK6y8DAPN_0&ab_channel=OpenAI

34
ViT周辺簡易マップ
2023年以降の傾向
ViT
ViTの理解
ViTを模した構造
ViTの学習
ViTの応用
ViT構造
CNNとのハイブリット
MLP
CNN
Other
階層構造
直列構造
教師あり学習
自己教師あり学習
物体検出
Contrastive Learning
Masked Image Modeling
マルチモーダルへの応用
既存Visionタスク動画像認識
QKV内でダウンサンプリング
→ Self-Attentionにかかる計算量の削減
特定範囲内でSA
画像生成
ViTに適したデータ拡張によるアプローチ
大規模DBの用意
→少ないデータではViTの性能を発揮できない
基盤モデル
幅広いタスクへの応用
→ラベルありデータを集めるのが大変
→ViTの成功は空間と次元方向を混ぜる構造にある
→ 深層化やパッチ分割方法の変更等で高性能化
マスクしたパッチ領域の予測
データ同士の比較
マルチスケール対応
空間と時間方向を同時に計算
空間方向に計算後に時間方向に計算
GANによるアプローチ
拡散モデルによるアプローチ
Transformer
大規模DBの利用
V&Lモデルの台頭
下流タスクの
バックボーンとして利用
SSII2024技術マップより改変 : https://confit.atlas.jp/guide/event/ssii2024/static/special_project_tech_map

SONYはソニーグループ株式会社の登録商標または商標です。
各ソニー製品の商品名・サービス名はソニーグループ株式会社またはグループ各社の登録商標または商標です。その他の製品および会社名は、各社の商号、登録商標または商標です。

【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用

More Related Content

What's hot (20)

Similar to 【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用 (20)

More from Sony - Neural Network Libraries (10)

【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用