SlideShare a Scribd company logo
3章:Transformerの画像での応用
ソニーグループ株式会社
箕浦 大晃
2
コンテンツ
• Vision Transformerの理解
⁃ CNNとViTの違い
⁃ ViTの構造と処理手順
⁃ モデルの判断根拠の説明
⁃ コンピュータビジョンにおけるTransformerの応用例
⁃ ViTにおける課題と解決案
• CLIPから始まるVision & Language
⁃ CLIPの理解
⁃ CLIPによって得られた恩恵
⁃ CLIPによるVLタスクの発展
3
Vision Transformer - CNNの性能を凌駕する新たなモデル -
• ResNet (CNN) [K.He+,CVPR2016]
⁃ 2020年まで深層学習を牽引してきた代表的モデル
⁃ 残差機構により深いモデルを構築可能
• 入力をショートカットしブロックの出力と加算
• 勾配計算時にショートカットを通じて下層に勾配を伝播
7x7
Conv.
⊕
1x1
Conv.
3x3
Conv.
1x1
Conv.
Pool.
× 𝐿1
Pool.
… ⊕
1x1
Conv.
3x3
Conv.
1x1
Conv.
Pool.
× 𝐿4
GAP
FC
cat
…
class token
Norm.
Multi-Head
Attention
⊕
Norm.
MLP
⊕ ⊕
…
FC
× 𝐿
Transformer Encoder
PE cat
• Vision Transformer (ViT) [A.Dosovitskiy+,ICLR2021]
⁃ TransformerをVision分野に応用した画像分類手法
• 画像を固定パッチに分解してSelf-Attentionで対応関係を獲得
• EncoderのみのTransformerでシンプルな構造
⁃ 2020年以降のベースモデルとして使われる
• 言語と視覚を共通の枠組みで扱え,CVの基盤技術に大きく貢献
4
ViTとCNNの違い
• ViTは浅い層からパッチ同士の関係を大域的に捉えることが可能[J.Cordonnier+,ICLR2020]
⁃ CNNは局所結合で層を重ねることで段階的に大域を捉える構造
⁃ ViTが局所的な帰納バイアスを持たないため大規模なデータを用意できるならViTの方が高性能
3x3の領域 (receptive field)の特徴を捉える
パッチに分解しTransformerで画像全体の特徴を捉える
※ 1回畳み込んだ場合
CNN
ViT
ViT
…
横:事前学習DB.縦:ImageNetで評価
[A.Dosovitskiy+,ICLR2021]
5
ViTにおける特徴表現獲得
• ViTは物体の形状,CNNは物体のテクスチャを頼りに画像を認識[S.Tuli+,CogSci2021]
⁃ 人間は形状で物体を認識するためテクスチャを変換しても物体を認識可能
• ViTは人間の認識性能にある程度似ていると言える
⁃ CNNがハイパスフィルタ,ViTがローパスフィルタを持つ[N.Park+,ICLR2022]
• CNNが局所的な帰納バイアスの影響でテクスチャに引っ張られる
• ViT (SA)のローパスフィルタな役割はテクスチャの影響を受け辛い
Style Transfer
[LA.Gatys+,CVPR2016]
Shape label
Texture label
:cat
:elephant
CNN
or
ViT
cat → shape
elephant → texture
分類結果
マップ化
style変換した画像をモデルへ入れ分類結果で判定
6
全体の流れ
…
class token
Norm.
Multi-Head
Attention
⊕
Norm.
MLP
⊕ ⊕
…
FC
× 𝐿
Transformer Encoder
1. 画像を固定パッチに分解し,分類問題用に新しくclass tokenを追加
2. Position Embeddingを各トークンに付与
3. Transformer Encoderで各トークン間の関係を捉える
4. class tokenの出力を用いて全結合層でクラス分類
① ② ③ ④
PE cat
• 入力画像を分解したパッチ領域をEmbeddingした後に位置情報を付与してViTへ入力
7
①Patch Embeddingと②Position Embedding
Embedding
Flatten
𝐱𝑝
1
𝐱𝑝
2
𝐱𝑝
3
𝐱𝑝
𝑛
𝐄 ∈ ℝ(𝑃2⋅𝐶)×𝐷
[cls] token
𝐱𝑝
𝑁
∈ ℝ𝑃2⋅𝐶
+
+
+
+
Position Embedding
ViT
微分可能なパラメータで
明示的に位置は教えずに自動で学習される
始点(0ベクトルで表現)であり
画像特徴がViTで集約されて最終層でクラス分類
TransformerのEmbedding特徴量と同じ扱い
入力画像を𝑃 × 𝑃に小分け
…
…
𝐱𝑝
𝑛
𝐄
𝐱𝑝
3
𝐄
𝐱𝑝
2
𝐄
𝐱𝑝
1
𝐄
+
𝐄𝑝𝑜𝑠 ∈ ℝ(𝑁+1)×𝐷
𝐄𝑝𝑜𝑠
𝑁:パッチ数
:次元数
𝐷
:チャンネル数
:パッチ画像サイズ
𝐶
𝑃
① ②
TransformerのEmbedding特徴量と同じ扱い
8
①Patch Embeddingと②Position Embedding
Embedding
Flatten
𝐱𝑝
1
𝐱𝑝
2
𝐱𝑝
3
𝐱𝑝
𝑛
𝐄 ∈ ℝ(𝑃2⋅𝐶)×𝐷
[cls] token
𝐱𝑝
𝑁
∈ ℝ𝑃2⋅𝐶
+
+
+
+
Position Embedding
ViT
微分可能なパラメータで
明示的に位置は教えずに自動で学習される
始点(0ベクトルで表現)であり
画像特徴がViTで集約されて最終層でクラス分類
入力画像を𝑃 × 𝑃に小分け
…
…
𝐱𝑝
𝑛
𝐄
𝐱𝑝
3
𝐄
𝐱𝑝
2
𝐄
𝐱𝑝
1
𝐄
+
𝐄𝑝𝑜𝑠 ∈ ℝ(𝑁+1)×𝐷
𝐄𝑝𝑜𝑠
• 入力画像を分解したパッチ領域をEmbeddingした後に位置情報を付与してViTへ入力
CNNの低次元層のフィルタのようなものが学習される
𝑁:パッチ数
:次元数
𝐷
:チャンネル数
:パッチ画像サイズ
𝐶
𝑃
① ②
① ②
9
①Patch Embeddingと②Position Embedding
Embedding
Flatten
𝐱𝑝
1
𝐱𝑝
2
𝐱𝑝
3
𝐱𝑝
𝑛
𝐄 ∈ ℝ(𝑃2⋅𝐶)×𝐷
[cls] token
𝐱𝑝
𝑁
∈ ℝ𝑃2⋅𝐶
+
+
+
+
Position Embedding
ViT
微分可能なパラメータで
明示的に位置は教えずに自動で学習される
始点(0ベクトルで表現)であり
画像特徴がViTで集約されて最終層でクラス分類
入力画像を𝑃 × 𝑃に小分け
…
…
𝐱𝑝
𝑛
𝐄
𝐱𝑝
3
𝐄
𝐱𝑝
2
𝐄
𝐱𝑝
1
𝐄
+
𝐄𝑝𝑜𝑠 ∈ ℝ(𝑁+1)×𝐷
𝐄𝑝𝑜𝑠
• 入力画像を分解したパッチ領域をEmbeddingした後に位置情報を付与してViTへ入力
𝑁:パッチ数
:次元数
𝐷
:チャンネル数
:パッチ画像サイズ
𝐶
𝑃
ベースモデル基準
あるPEと他のPEとの類似度を表現
(1,1)付近の他の位置との類似度が高い
(1,1)から遠方の他の位置との類似度が低い
付近のPE同士は似た値になるように学習されている
TransformerのEmbedding特徴量と同じ扱い
10
③ Blockの全体処理
self-attention feed forward
特徴ベクトル
トークン数x次元数
𝑊
𝑓𝑒𝑒𝑑1
FC後の特徴ベクトル
𝑊
𝑓𝑒𝑒𝑑2
𝐷 4𝐷 𝐷
query
key
value
トークン数x次元数
𝑊
𝑞
𝑊𝑘
𝑊
𝑣
トークン数xトークン数
𝜶とValue間の行列演算 (重みを乗算)
各行には各トークンの他のトークン
との重要度が格納されている
queryとkey間の行列演算
𝑊𝑜𝑢𝑡
𝐷
転置
行方向に
softmax
𝐷
トークン数x次元数
𝐷
𝜶
ベクトルをチャンネル方向
に個別に変換
正
規
化
ベクトルを空間方向に
混ぜて変換
正
規
化
cls token cls token
点線部を𝐿回繰り返す
cls token
class tokenのみ用いて
クラス分類
z
⊕ ⊕
𝐷
𝐷
𝑁
11
③ Blockの全体処理
self-attention feed forward
特徴ベクトル
トークン数x次元数
𝑊
𝑓𝑒𝑒𝑑1
FC後の特徴ベクトル
𝑊
𝑓𝑒𝑒𝑑2
𝐷 4𝐷 𝐷
query
key
value
トークン数x次元数
𝑊
𝑞
𝑊𝑘
𝑊
𝑣
トークン数xトークン数
𝜶とValue間の行列演算 (重みを乗算)
各行には各トークンの他のトークン
との重要度が格納されている
queryとkey間の行列演算
𝑊𝑜𝑢𝑡
𝐷
転置
行方向に
softmax
𝐷
トークン数x次元数
𝐷
𝜶
ベクトルをチャンネル方向
に個別に変換
正
規
化
ベクトルを空間方向に
混ぜて変換
正
規
化
cls token cls token
点線部を𝐿回繰り返す
cls token
class tokenのみ用いて
クラス分類
z
⊕ ⊕
𝐷
𝐷
𝑁
attention weightを用いて
注視領域(認識に対する説明性)を可視化
• AIの推論結果に対して説明ができない -> ブラックボックス問題
12
AIにおける判断根拠の可視化 (Attention map)
鳥:0.89
モデル
何故鳥と答えた?
推論結果
…
犬:0.01
猫:0.02
• AIの推論結果に対して説明ができない -> ブラックボックス問題
⁃ CNNでは畳み込み層の勾配からマップを作成するGrad-CAM[RR.Selvaraju+,ICCV2017]等で判断根拠の可視化を行う
⁃ ViTではattention weightを用いて判断根拠の可視化を行う
モデル
13
AIにおける判断根拠の可視化 (Attention map)
Back Prop.
…
⊕
ReLU
鳥:0.89
推論結果
…
犬:0.01
猫:0.02
鳥の特徴を捉えている
14
ViTにおけるAttention mapの出力
• Attention Rolloutにより分類結果に対する説明を間接的に捉えることが可能
⁃ Attention Rollout:モデルが特定のクラス識別した理由をattention weightから説明
• クラストークンと各パッチトークン間のattention weightを取得
• attention weightを層毎に乗算,ヘッド方向に平均してマップ化
• クラストークンと各パッチトークン間で関連性が高いパッチ特徴を分析可能
Attention Rolloutで可視化した例[A.Dosovitskiy+,ICLR2021]
Attention Rollout [S. Abnar+,ACL2020]
15
Transformer Explainability[H.Chefer+,CVPR2021]
• Grad-CAMのように勾配ベースでAttention mapを可視化する方法
⁃ 着目してほしい認識物体に対する可視化が可能
ViT-16 Tiny ViT-16 Small ViT-16 Tiny ViT-16 Small
16
コンピュータビジョンにおけるTransformerの応用例
画像生成 [Y. Jiang+, NeurIPS2021]
物体検出 [N. Carion+, ECCV2020]
動画像認識 [A. Arnab+, ICCV2021]
姿勢推定 [S.Yang+, ICCV2021]
セマンティックセグメンテーション[E. Xie+, NeurIPS2021]
17
DEtection TRansformer - DETR-[N. Carion+, ECCV2020]
• 従来のNMSによる後処理やAnchorの生成を用いずTransformerで直接物体を検出
Conv.
Conv.
class
box class
box class
box class
box class
box class
box
NMS
CNN
set of image features
Transformer
Encoder-Decoder
set of box predictions
bipartite matching loss
no object (∅) no object (∅)
- 従来研究(SSD) -
- DETR -
物体候補領域をたくさん推論してNMS*で絞り込む
- 欠点 -
• NMSの閾値,BoundingBoxのdefault box等を人手でチューニング
• End-to-Endが実現されていない
NMS無しで画像内の物体を一括で推論可能
- 課題と提案 -
• 画像内の全推論結果と全教師ラベルの対応付けが不明
• 物体の存在する位置やクラスの順序は関係ない
→ ハンガリアン法で最適な対応付けを行う
Conv.
Conv. Conv.
Conv. Conv.
Conv. Conv.
Conv. Conv.
Conv.
NMS:Non-Maximum Suppression
Single Shot multibox Detector
18
SegFormer[E.Xie+, NeurIPS2021]
• Transformerをセグメンテーションタスクへ応用
⁃ Mix Transformer
• マルチレベルな特徴を獲得可能な階層型Transformer
• 計算コストを削減する構造
⁃ 軽量かつシンプルなMLPデコーダを採用
• Transformerは局所的かつ大域的な特徴を浅い層から獲得
• MLPで局所的な特徴を補完
Red Box:Stage-4のself-attentionのreceptive fieldの大きさ
Blue Box:MLP Layerのreceptive fieldの大きさ
Cityscapesにおけるreceptive fieldの効果を分析
→ CNNベースは局所的な特徴のみ捉えるが,Transformerベースは局所的・広域的な特徴を捉える
→ MLPのreceptive fieldは局所的領域の密度が高い = 小さい物体の正確なセグメンテーションが期待
19
ViT (Transformer)における課題
リッチな計算資源が必要
膨大なモデルパラメータを保有
学習に膨大なデータが必要
データ量が少ないとCNNより認識性能が劣る
…
課題
膨大な正解ラベルが必要
事前学習が「教師あり学習」で正確なアノテーションが必要
20
知識蒸留とデータ拡張 (Data-efficient image Transformers : DeiT)
• 学習済みのCNNを教師とした知識蒸留で小さなデータセット(ImageNet)で高性能[H.Touvron+,ICML2021]
⁃ 知識蒸留用にdistillation tokenを用意し教師モデルの出力分布に近似するように学習
• 疑似的にデータをかさ増しするデータ拡張で高性能化を実現
⁃ DeiTで設定されたデータ拡張が後続研究でデファクトスタンダートになった
⁃ 物体形状を捉えるように設定したデータ拡張がさらに高性能になることが判明している[H.Touvron+,ECCV2022]
Teacher:CNN
ViT
Student:ViT
MLP
Dist.token
MLP
Class
token
入力画像
教師モデルの出力
0.80:猫
0.16:犬
0.04:魚
教師ラベル
1:猫
0:犬
0:魚
生徒モデルの出力
Target loss
Soft/Hard
Target loss
21
特定範囲内でSelf-Attention - Swin Transformer -
• 多様な物体スケールに対応かつ特定範囲内のSelf-Attentionで計算量を削減[Z.Liu+,CVPR2021]
⁃ ViTのパッチサイズ(16x16)より細かいパッチサイズ(4x4)で分割
⁃ パッチを広く分割した特定範囲内(window)のみでSAを計算
⁃ windowを跨いだ特徴を捉えるために層毎にwindowをシフト
⁃ Stage毎に特徴マップサイズを小さくする階層型構造も合わさることで
CV向けTransformerモデルとしての地位を獲得
Layer 𝒍 Layer 𝒍 + 𝟏
window
パッチ
Shifted window
• 正解ラベルを付与していない大量のデータを疑似的な問題として学習
⁃ 正解ラベルを必要としないためアノテーションにかかる人的コストを削減
⁃ 下流タスクに有益となる特徴を中間表現の学習で獲得し,学習したモデルを各タスクへ転移学習
22
自己教師あり学習 - Self-Supervised Learning -
cat
分類タスク
事前学習済み
モデル
HEAD
検出タスク
事前学習済み
モデル
HEAD
SSLで
事前学習するモデル
大量の正解ラベル無しデータ
①大量の正解ラベル無しデータでモデルを事前学習 ②SSLで事前学習したモデルを対象タスクへ転移学習
23
自己教師あり学習とViTの組み合わせ
Masked Image Modeling:代表的方法 -MAE-
マスクしたトークンから元画像を復元するように学習
Contrastive Learning:代表的方法 -DINO-
画像間の関係に基づいて画像から抽出した特徴量を埋め込む
ImgeNet-1kの評価用データに対する復元結果
入力画像 復元結果 原画像
encoder
decoder
…
…
Teacher
Augment
• ViTにおける自己教師あり学習の代表的方法
⁃ Masked Image Modeling :画像を固定パッチに分解後にランダムにマスクしたパッチ領域を復元
• MAE[K.He+,CVPR2022],LocalMIM[H.Wand+,CVPR2023], BEiT[H.Bao+,ICLR2022](トークン毎の分類問題として扱う特殊例)
⁃ Contrastive Learning :画像同士を比較し類似データを近づかせ非類似データを遠ざけて学習
• DINO[M.Caron+,ICCV2021],DINO v2[M.Oquab+,TMLR2024],MoCo v3[X.Chen+,ICCV2021]
⁃ 大規模データセットで豊富な知識を得たモデルが下流タスクで高性能なことが判明[M.Oquab+,TMLR2024][M.Singh+,ICCV2023]
Student
誤差逆伝播
Centering
Softmax
指数移動平均
stop-grad
損失計算
(交差エントロピー)
24
スケーリング則[J.Kaplan+,JMLR2022]
• 大規模モデルの性能は3つの大小に依存
⁃ 学習ステップ数,データセットサイズ,パラメータ数
• データ数とモデルを大規模にすればするほど高性能
⁃ 最適な学習方法に設定して膨大に学習する必要がある
⁃ 学習に膨大なコストがかかるため経験則に基づくチューニングが必須
25
コンテンツ
• Vision Transformerの理解
⁃ CNNとViTの違い
⁃ ViTの構造と処理手順
⁃ モデルの判断根拠の説明
⁃ コンピュータビジョンにおけるTransformerの応用例
⁃ ViTにおける課題と解決案
• CLIPから始まるVision & Language
⁃ CLIPの理解
⁃ CLIPによって得られた恩恵
⁃ CLIPによるVLタスクの発展
26
Vision & Language
• 画像と自然言語処理を融合した研究分野
⁃ 他にもキャプション生成,ナビゲーション,動画像要約等の幅広いタスクで研究されている
⁃ モデルの多くは特定タスクに対してCNN(画像) + RNN (言語)を使用
Language
Model
Vision
Model
Image to Text
中央にある
黒色の物体を教えて
テレビ
視覚的質問応答:画像に関する質問から正しい答えを導き出す
Text to Image
条件付き画像生成:テキストから画像を生成
全体的に灰色の背景で
中央に虎猫がいる
Generator
Transformer,大規模DB構築に伴い画像と言語を共通の特徴空間で近似することが効果的なことが判明
27
Contrastive Language-Image Pre-training - CLIP -
• 大規模なweb画像とテキストのペアデータ(400M)によるVision & Languageの基盤モデル
[A.Radford+,ICML2021]
⁃ 画像と言語のペアをポジティブペアとして対照学習
⁃ 画像と言語を共通の特徴空間上で近くなるように学習させる
Image
Encoder
Text
Encoder
cock with red
mane
Black fox
tabby on grass
𝑰𝟏
𝑰𝟐
𝑰𝑵
…
𝑰𝟏 ∙ 𝑻𝟏 𝑰𝟏 ∙ 𝑻𝟐 𝑰𝟏 ∙ 𝑻𝑵
𝑰𝟐 ∙ 𝑻𝟏 𝑰𝟐 ∙ 𝑻𝟐 𝑰𝟐 ∙ 𝑻𝑵
𝑰𝑵 ∙ 𝑻𝟏 𝑰𝑵 ∙ 𝑻𝟐 𝑰𝑵 ∙ 𝑻𝑵
…
…
…
…
…
…
𝑻𝟏 𝑻𝟐 … 𝑻𝑵
ペアは近づ
かせる
非ペアは遠
ざかる
• CLIPのバッチサイズは32,768
• CLは負例を多くして学習を効率
よく行うためにバッチサイズが
大きい
どちらも
Transformer
CNNも可
各ドメインのベクトル
28
CLIPのモチベーション
従来研究 CLIP
bird: ID n
…
dog: ID 3
cat: ID 2
plane: ID 1
fox: ID n
…
plane: ID 3
dog: ID 2
bird: ID 1
データ
セットA
モデル
データ
セットB
モデル
ラベル
特定DBで学習したモデルを
他DBで分類しようとする
• 事前学習のデータセットと出力のラベルが1対1で,データセットが変わると分類モデルが不成立
• ラベルIDを学習するためクラスの意味を理解できない
• 新たなラベルを認識可能にするために追加の学習が必要
画像
画像
red bird
…
sleeping dog
sitting cat
plane in the sky
データ
セット
Vモデル
文章
画像
Lモデル
特徴空間
• 画像と文章を各ドメインモデルの中間表現に変換し,それぞれを紐づけるように学習
• 様々な画像と文章を概念的に理解できる
• 推論時に特徴ベクトル同士の内積から最大値をとることで未知ラベルに対する認識が可能
29
CLIPでのzero-shotクラス分類方法
• CLIPは未知画像に対して学習なしで予測するzero-shotクラス分類が可能
⁃ データセット内のクラス名とプロンプトテンプレートを用意
⁃ 画像と言語のそれぞれのエンコーダから出る特徴量の類似度からクラス識別
⁃ 一般的な画像識別問題であれば様々なデータセットで性能が良い
Text
Encoder
bird
…
𝑰𝟏 0.02 0.74 0.01
…
𝑻𝟏 𝑻𝟐 … 𝑻𝑵
dog
cat
plane
A photo of
a {object}.
Image
Encoder
A photo of
a cat.
プロンプト
テンプレート
クラス名
27種類のデータセットでCLIP(zero-shot)と
ResNet-50(教師あり)を比較
16種類のデータセットで
CLIPの方が性能良い
衛星画像分類,リンパ節腫瘍等の
専門的・複雑なタスクで性能が低い
• CLIPの成功により様々なCV分野でVLモデルが提案されている
30
CLIPによるVLモデルの発展
CLIP
Parameter Efficient Tuning
膨大なパラメタを持つモデルの一部のみ更新
事前学習済みモデルの破滅的忘却を防ぐ
Text-to-Image(Video)
テキストから画像や動画を生成
ユーザが欲しい画像を自由に生成可能になった
Object Detection
テキストとマッチする物体を検出
任意のオブジェクトを検出可能になった
Segmentation
テキストとマッチする物体領域を検出
任意の領域をセグメンテーション可能になった
Multi-Modal Model
大量かつ広範なデータで学習して
様々な下流タスクに転移できるモデル
所謂,Foundation Modelと呼ばれる
• Prompt Tuning
• Adapter (LoRA)
• ViLD
• GLIP
• Grounding-DINO
• DenseCLIP
• Segment Anything*
*テキストによるセマセグは未リリース
• DALL・E2
• Stable Diffusion
• Sora
• CoCa
• Unified-IO
• Flamingo
• 入力画像をCNNで画像特徴量に変換
• 特徴量をRNNに渡し文章生成
CNN+RNN
2021年CLIP登場
Transformer
(2017)
BERT
(2019)
ViT
(2021)
アプリケーション寄り
基礎技術寄り
• 少量なパラメタで特定タスクを解くためにモデルの一部のみを更新
エンコーダ
31
Parameter Efficient Tuning
Prompt Tuning
white
cat
is
walking
• 人手でプロンプトを書くがタスク毎の最適なプロンプトを用意できない
• プロンプト自体を学習して高性能に最適化させる
プロンプト
エンコーダ
• 画像の場合はクラストークンと同様のトークンを追加
• 最終層のヘッドを更新
• 追加したプロンプトトークンは損失計算しない
トークン
プロンプト
クラストークン
パッチ
ヘッド
…
Adapter
• Transformerブロックの中に学習可能なMLPブロックを追加
𝑊𝑑𝑜𝑤𝑛
𝑊
𝑢𝑝
non
linear
⊕
• 学習可能な低ランクな行列を用意し,線形層やSA部分に加算 (LoRA)
• お気持ちはfine-tuningの更新をしているだけ
𝑊𝑑𝑜𝑤𝑛
𝑊
𝑢𝑝
Pretrained
Weight
𝑾 ∈ ℝ𝒅×𝒅
x
h
+
d
𝑊′
= 𝑊 + Δ𝑊
FT後のパラメタ 元パラメタ FT後と元パラメタの差分
LoRAはFT後と元パラメタの差分をシンプルかつ効率的に学習
トークン
• 事前定義された物体クラスに制限せず任意テキストで指定した物体を検出
32
Open-set Object Detection
Vision
Model
事前定義されたNクラスを検出できるモデル
Language
Model
couch, poster on the wall,
red chair on the left
Prompt
Closed-set Object Detection
Open-set Object Detection
言語特徴量をVisionモデルに入れたり,出力側で画像特徴量と言語特徴量間でアライメントを行う
couch
chair
TV
couch
red chair
on the left
Poster on
the wall
未知クラスでも検出できるモデル
Vision
Model
Nクラス用意したDB
33
Text-to-Image / Video
• 任意テキストにマッチする画像や動画像を生成
⁃ 元画像に少しずつノイズを加え,ノイズを除去しながら画像を復元するDiffusion Modelが脚光を浴びている
Sora (OpenAI, 2024)
テキスト -> 動画
Stable Diffusion 3 (Stability AI, 2024)
テキスト -> 画像
サイバーパンクを舞台としたロボットのストーリー
[引用] https://www.youtube.com/watch?v=HK6y8DAPN_0&ab_channel=OpenAI
34
ViT周辺簡易マップ
2023年以降の傾向
ViT
ViTの理解
ViTを模した構造
ViTの学習
ViTの応用
ViT構造
CNNとのハイブリット
MLP
CNN
Other
階層構造
直列構造
教師あり学習
自己教師あり学習
物体検出
Contrastive Learning
Masked Image Modeling
マルチモーダルへの応用
既存Visionタスク 動画像認識
QKV内でダウンサンプリング
→ Self-Attentionにかかる計算量の削減
特定範囲内でSA
画像生成
ViTに適したデータ拡張によるアプローチ
大規模DBの用意
→少ないデータではViTの性能を発揮できない
基盤モデル
幅広いタスクへの応用
→ラベルありデータを集めるのが大変
→ViTの成功は空間と次元方向を混ぜる構造にある
→ 深層化やパッチ分割方法の変更等で高性能化
マスクしたパッチ領域の予測
データ同士の比較
マルチスケール対応
空間と時間方向を同時に計算
空間方向に計算後に時間方向に計算
GANによるアプローチ
拡散モデルによるアプローチ
Transformer
大規模DBの利用
V&Lモデルの台頭
下流タスクの
バックボーンとして利用
SSII2024技術マップより改変 : https://confit.atlas.jp/guide/event/ssii2024/static/special_project_tech_map
SONYはソニーグループ株式会社の登録商標または商標です。
各ソニー製品の商品名・サービス名はソニーグループ株式会社またはグループ各社の登録商標または商標です。その他の製品および会社名は、各社の商号、登録商標または商標です。

More Related Content

PDF
【DeepLearning研修】Transformerの基礎と応用 -- 第1回 Transformerの基本
PPTX
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
ODP
PRML勉強会 #4 @筑波大学 発表スライド
PDF
信号処理・画像処理における凸最適化
PDF
Overcoming Catastrophic Forgetting in Neural Networks読んだ
PPTX
Transformerを雰囲気で理解する
PPTX
[DL輪読会]Invariance Principle Meets Information Bottleneck for Out-of-Distribut...
PPTX
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【DeepLearning研修】Transformerの基礎と応用 -- 第1回 Transformerの基本
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
PRML勉強会 #4 @筑波大学 発表スライド
信号処理・画像処理における凸最適化
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Transformerを雰囲気で理解する
[DL輪読会]Invariance Principle Meets Information Bottleneck for Out-of-Distribut...
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx

What's hot (20)

PPTX
異常検知と変化検知の1~3章をまとめてみた
PDF
20190619 オートエンコーダーと異常検知入門
PDF
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
PDF
PR-317: MLP-Mixer: An all-MLP Architecture for Vision
PPTX
2014 3 13(テンソル分解の基礎)
PDF
音声感情認識の分野動向と実用化に向けたNTTの取り組み
PDF
メタスタディ (Vision and Language)
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PPTX
Curriculum Learning (関東CV勉強会)
PDF
Layer Normalization@NIPS+読み会・関西
PDF
自己教師学習(Self-Supervised Learning)
PPTX
ウェーブレットと多重解像度処理
PDF
Inverse Reward Design の紹介
PDF
(文献紹介)Depth Completionの最新動向
PDF
最適輸送の解き方
PDF
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)
PDF
計算論的学習理論入門 -PAC学習とかVC次元とか-
PPTX
[DL輪読会]Neural Ordinary Differential Equations
PPTX
[DL輪読会]Learning convolutional neural networks for graphs
PDF
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
異常検知と変化検知の1~3章をまとめてみた
20190619 オートエンコーダーと異常検知入門
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
PR-317: MLP-Mixer: An all-MLP Architecture for Vision
2014 3 13(テンソル分解の基礎)
音声感情認識の分野動向と実用化に向けたNTTの取り組み
メタスタディ (Vision and Language)
[DL輪読会]Pay Attention to MLPs (gMLP)
Curriculum Learning (関東CV勉強会)
Layer Normalization@NIPS+読み会・関西
自己教師学習(Self-Supervised Learning)
ウェーブレットと多重解像度処理
Inverse Reward Design の紹介
(文献紹介)Depth Completionの最新動向
最適輸送の解き方
動画認識・キャプショニングの潮流 (CVPR 2018 完全読破チャレンジ報告会)
計算論的学習理論入門 -PAC学習とかVC次元とか-
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Learning convolutional neural networks for graphs
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
Ad

Similar to 【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用 (20)

PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
PPTX
畳み込みニューラルネットワークの研究動向
PDF
論文紹介:Semantic segmentation using Vision Transformers: A survey
PDF
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
PDF
ICCV 2019 論文紹介 (26 papers)
PDF
R-CNNの原理とここ数年の流れ
PPT
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
点群深層学習 Meta-study
PDF
ADVENTUREの他のモジュール・関連プロジェクトの紹介
PDF
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
Image net classification with Deep Convolutional Neural Networks
PPTX
近年のHierarchical Vision Transformer
PPTX
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
PDF
CVPR 2011 ImageNet Challenge 文献紹介
PPTX
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
PDF
文献紹介:EfficientDet: Scalable and Efficient Object Detection
PPTX
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
PDF
2012-03-08 MSS研究会
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
畳み込みニューラルネットワークの研究動向
論文紹介:Semantic segmentation using Vision Transformers: A survey
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
ICCV 2019 論文紹介 (26 papers)
R-CNNの原理とここ数年の流れ
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
点群深層学習 Meta-study
ADVENTUREの他のモジュール・関連プロジェクトの紹介
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
【メタサーベイ】基盤モデル / Foundation Models
Image net classification with Deep Convolutional Neural Networks
近年のHierarchical Vision Transformer
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR 2011 ImageNet Challenge 文献紹介
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
文献紹介:EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
2012-03-08 MSS研究会
Ad

More from Sony - Neural Network Libraries (10)

PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
PDF
【AI論文解説】 RLHF不要なLLMの強化学習手法: Direct Preference Optimization(+α)
PDF
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
PDF
【DeepLearning研修】Transformerの基礎と応用 -- 第2回 Transformerの言語での応用
PDF
【AI論文解説】拡散モデルと自己回帰型モデルの融合 ~ 同時に使う手法と使い分ける手法
PDF
20240819_NM_LivePortrait_Nnabla_youtube_final.pdf
PDF
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
PPTX
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
PPTX
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
PDF
【AI論文解説】Consistency ModelとRectified Flow
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
【AI論文解説】 RLHF不要なLLMの強化学習手法: Direct Preference Optimization(+α)
【DeepLearning研修】Transfomerの基礎と応用 --第4回 マルチモーダルへの展開
【DeepLearning研修】Transformerの基礎と応用 -- 第2回 Transformerの言語での応用
【AI論文解説】拡散モデルと自己回帰型モデルの融合 ~ 同時に使う手法と使い分ける手法
20240819_NM_LivePortrait_Nnabla_youtube_final.pdf
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】Consistency ModelとRectified Flow

【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用

  • 2. 2 コンテンツ • Vision Transformerの理解 ⁃ CNNとViTの違い ⁃ ViTの構造と処理手順 ⁃ モデルの判断根拠の説明 ⁃ コンピュータビジョンにおけるTransformerの応用例 ⁃ ViTにおける課題と解決案 • CLIPから始まるVision & Language ⁃ CLIPの理解 ⁃ CLIPによって得られた恩恵 ⁃ CLIPによるVLタスクの発展
  • 3. 3 Vision Transformer - CNNの性能を凌駕する新たなモデル - • ResNet (CNN) [K.He+,CVPR2016] ⁃ 2020年まで深層学習を牽引してきた代表的モデル ⁃ 残差機構により深いモデルを構築可能 • 入力をショートカットしブロックの出力と加算 • 勾配計算時にショートカットを通じて下層に勾配を伝播 7x7 Conv. ⊕ 1x1 Conv. 3x3 Conv. 1x1 Conv. Pool. × 𝐿1 Pool. … ⊕ 1x1 Conv. 3x3 Conv. 1x1 Conv. Pool. × 𝐿4 GAP FC cat … class token Norm. Multi-Head Attention ⊕ Norm. MLP ⊕ ⊕ … FC × 𝐿 Transformer Encoder PE cat • Vision Transformer (ViT) [A.Dosovitskiy+,ICLR2021] ⁃ TransformerをVision分野に応用した画像分類手法 • 画像を固定パッチに分解してSelf-Attentionで対応関係を獲得 • EncoderのみのTransformerでシンプルな構造 ⁃ 2020年以降のベースモデルとして使われる • 言語と視覚を共通の枠組みで扱え,CVの基盤技術に大きく貢献
  • 4. 4 ViTとCNNの違い • ViTは浅い層からパッチ同士の関係を大域的に捉えることが可能[J.Cordonnier+,ICLR2020] ⁃ CNNは局所結合で層を重ねることで段階的に大域を捉える構造 ⁃ ViTが局所的な帰納バイアスを持たないため大規模なデータを用意できるならViTの方が高性能 3x3の領域 (receptive field)の特徴を捉える パッチに分解しTransformerで画像全体の特徴を捉える ※ 1回畳み込んだ場合 CNN ViT ViT … 横:事前学習DB.縦:ImageNetで評価 [A.Dosovitskiy+,ICLR2021]
  • 5. 5 ViTにおける特徴表現獲得 • ViTは物体の形状,CNNは物体のテクスチャを頼りに画像を認識[S.Tuli+,CogSci2021] ⁃ 人間は形状で物体を認識するためテクスチャを変換しても物体を認識可能 • ViTは人間の認識性能にある程度似ていると言える ⁃ CNNがハイパスフィルタ,ViTがローパスフィルタを持つ[N.Park+,ICLR2022] • CNNが局所的な帰納バイアスの影響でテクスチャに引っ張られる • ViT (SA)のローパスフィルタな役割はテクスチャの影響を受け辛い Style Transfer [LA.Gatys+,CVPR2016] Shape label Texture label :cat :elephant CNN or ViT cat → shape elephant → texture 分類結果 マップ化 style変換した画像をモデルへ入れ分類結果で判定
  • 6. 6 全体の流れ … class token Norm. Multi-Head Attention ⊕ Norm. MLP ⊕ ⊕ … FC × 𝐿 Transformer Encoder 1. 画像を固定パッチに分解し,分類問題用に新しくclass tokenを追加 2. Position Embeddingを各トークンに付与 3. Transformer Encoderで各トークン間の関係を捉える 4. class tokenの出力を用いて全結合層でクラス分類 ① ② ③ ④ PE cat
  • 7. • 入力画像を分解したパッチ領域をEmbeddingした後に位置情報を付与してViTへ入力 7 ①Patch Embeddingと②Position Embedding Embedding Flatten 𝐱𝑝 1 𝐱𝑝 2 𝐱𝑝 3 𝐱𝑝 𝑛 𝐄 ∈ ℝ(𝑃2⋅𝐶)×𝐷 [cls] token 𝐱𝑝 𝑁 ∈ ℝ𝑃2⋅𝐶 + + + + Position Embedding ViT 微分可能なパラメータで 明示的に位置は教えずに自動で学習される 始点(0ベクトルで表現)であり 画像特徴がViTで集約されて最終層でクラス分類 TransformerのEmbedding特徴量と同じ扱い 入力画像を𝑃 × 𝑃に小分け … … 𝐱𝑝 𝑛 𝐄 𝐱𝑝 3 𝐄 𝐱𝑝 2 𝐄 𝐱𝑝 1 𝐄 + 𝐄𝑝𝑜𝑠 ∈ ℝ(𝑁+1)×𝐷 𝐄𝑝𝑜𝑠 𝑁:パッチ数 :次元数 𝐷 :チャンネル数 :パッチ画像サイズ 𝐶 𝑃 ① ②
  • 8. TransformerのEmbedding特徴量と同じ扱い 8 ①Patch Embeddingと②Position Embedding Embedding Flatten 𝐱𝑝 1 𝐱𝑝 2 𝐱𝑝 3 𝐱𝑝 𝑛 𝐄 ∈ ℝ(𝑃2⋅𝐶)×𝐷 [cls] token 𝐱𝑝 𝑁 ∈ ℝ𝑃2⋅𝐶 + + + + Position Embedding ViT 微分可能なパラメータで 明示的に位置は教えずに自動で学習される 始点(0ベクトルで表現)であり 画像特徴がViTで集約されて最終層でクラス分類 入力画像を𝑃 × 𝑃に小分け … … 𝐱𝑝 𝑛 𝐄 𝐱𝑝 3 𝐄 𝐱𝑝 2 𝐄 𝐱𝑝 1 𝐄 + 𝐄𝑝𝑜𝑠 ∈ ℝ(𝑁+1)×𝐷 𝐄𝑝𝑜𝑠 • 入力画像を分解したパッチ領域をEmbeddingした後に位置情報を付与してViTへ入力 CNNの低次元層のフィルタのようなものが学習される 𝑁:パッチ数 :次元数 𝐷 :チャンネル数 :パッチ画像サイズ 𝐶 𝑃 ① ②
  • 9. ① ② 9 ①Patch Embeddingと②Position Embedding Embedding Flatten 𝐱𝑝 1 𝐱𝑝 2 𝐱𝑝 3 𝐱𝑝 𝑛 𝐄 ∈ ℝ(𝑃2⋅𝐶)×𝐷 [cls] token 𝐱𝑝 𝑁 ∈ ℝ𝑃2⋅𝐶 + + + + Position Embedding ViT 微分可能なパラメータで 明示的に位置は教えずに自動で学習される 始点(0ベクトルで表現)であり 画像特徴がViTで集約されて最終層でクラス分類 入力画像を𝑃 × 𝑃に小分け … … 𝐱𝑝 𝑛 𝐄 𝐱𝑝 3 𝐄 𝐱𝑝 2 𝐄 𝐱𝑝 1 𝐄 + 𝐄𝑝𝑜𝑠 ∈ ℝ(𝑁+1)×𝐷 𝐄𝑝𝑜𝑠 • 入力画像を分解したパッチ領域をEmbeddingした後に位置情報を付与してViTへ入力 𝑁:パッチ数 :次元数 𝐷 :チャンネル数 :パッチ画像サイズ 𝐶 𝑃 ベースモデル基準 あるPEと他のPEとの類似度を表現 (1,1)付近の他の位置との類似度が高い (1,1)から遠方の他の位置との類似度が低い 付近のPE同士は似た値になるように学習されている TransformerのEmbedding特徴量と同じ扱い
  • 10. 10 ③ Blockの全体処理 self-attention feed forward 特徴ベクトル トークン数x次元数 𝑊 𝑓𝑒𝑒𝑑1 FC後の特徴ベクトル 𝑊 𝑓𝑒𝑒𝑑2 𝐷 4𝐷 𝐷 query key value トークン数x次元数 𝑊 𝑞 𝑊𝑘 𝑊 𝑣 トークン数xトークン数 𝜶とValue間の行列演算 (重みを乗算) 各行には各トークンの他のトークン との重要度が格納されている queryとkey間の行列演算 𝑊𝑜𝑢𝑡 𝐷 転置 行方向に softmax 𝐷 トークン数x次元数 𝐷 𝜶 ベクトルをチャンネル方向 に個別に変換 正 規 化 ベクトルを空間方向に 混ぜて変換 正 規 化 cls token cls token 点線部を𝐿回繰り返す cls token class tokenのみ用いて クラス分類 z ⊕ ⊕ 𝐷 𝐷 𝑁
  • 11. 11 ③ Blockの全体処理 self-attention feed forward 特徴ベクトル トークン数x次元数 𝑊 𝑓𝑒𝑒𝑑1 FC後の特徴ベクトル 𝑊 𝑓𝑒𝑒𝑑2 𝐷 4𝐷 𝐷 query key value トークン数x次元数 𝑊 𝑞 𝑊𝑘 𝑊 𝑣 トークン数xトークン数 𝜶とValue間の行列演算 (重みを乗算) 各行には各トークンの他のトークン との重要度が格納されている queryとkey間の行列演算 𝑊𝑜𝑢𝑡 𝐷 転置 行方向に softmax 𝐷 トークン数x次元数 𝐷 𝜶 ベクトルをチャンネル方向 に個別に変換 正 規 化 ベクトルを空間方向に 混ぜて変換 正 規 化 cls token cls token 点線部を𝐿回繰り返す cls token class tokenのみ用いて クラス分類 z ⊕ ⊕ 𝐷 𝐷 𝑁 attention weightを用いて 注視領域(認識に対する説明性)を可視化
  • 12. • AIの推論結果に対して説明ができない -> ブラックボックス問題 12 AIにおける判断根拠の可視化 (Attention map) 鳥:0.89 モデル 何故鳥と答えた? 推論結果 … 犬:0.01 猫:0.02
  • 13. • AIの推論結果に対して説明ができない -> ブラックボックス問題 ⁃ CNNでは畳み込み層の勾配からマップを作成するGrad-CAM[RR.Selvaraju+,ICCV2017]等で判断根拠の可視化を行う ⁃ ViTではattention weightを用いて判断根拠の可視化を行う モデル 13 AIにおける判断根拠の可視化 (Attention map) Back Prop. … ⊕ ReLU 鳥:0.89 推論結果 … 犬:0.01 猫:0.02 鳥の特徴を捉えている
  • 14. 14 ViTにおけるAttention mapの出力 • Attention Rolloutにより分類結果に対する説明を間接的に捉えることが可能 ⁃ Attention Rollout:モデルが特定のクラス識別した理由をattention weightから説明 • クラストークンと各パッチトークン間のattention weightを取得 • attention weightを層毎に乗算,ヘッド方向に平均してマップ化 • クラストークンと各パッチトークン間で関連性が高いパッチ特徴を分析可能 Attention Rolloutで可視化した例[A.Dosovitskiy+,ICLR2021] Attention Rollout [S. Abnar+,ACL2020]
  • 15. 15 Transformer Explainability[H.Chefer+,CVPR2021] • Grad-CAMのように勾配ベースでAttention mapを可視化する方法 ⁃ 着目してほしい認識物体に対する可視化が可能 ViT-16 Tiny ViT-16 Small ViT-16 Tiny ViT-16 Small
  • 16. 16 コンピュータビジョンにおけるTransformerの応用例 画像生成 [Y. Jiang+, NeurIPS2021] 物体検出 [N. Carion+, ECCV2020] 動画像認識 [A. Arnab+, ICCV2021] 姿勢推定 [S.Yang+, ICCV2021] セマンティックセグメンテーション[E. Xie+, NeurIPS2021]
  • 17. 17 DEtection TRansformer - DETR-[N. Carion+, ECCV2020] • 従来のNMSによる後処理やAnchorの生成を用いずTransformerで直接物体を検出 Conv. Conv. class box class box class box class box class box class box NMS CNN set of image features Transformer Encoder-Decoder set of box predictions bipartite matching loss no object (∅) no object (∅) - 従来研究(SSD) - - DETR - 物体候補領域をたくさん推論してNMS*で絞り込む - 欠点 - • NMSの閾値,BoundingBoxのdefault box等を人手でチューニング • End-to-Endが実現されていない NMS無しで画像内の物体を一括で推論可能 - 課題と提案 - • 画像内の全推論結果と全教師ラベルの対応付けが不明 • 物体の存在する位置やクラスの順序は関係ない → ハンガリアン法で最適な対応付けを行う Conv. Conv. Conv. Conv. Conv. Conv. Conv. Conv. Conv. Conv. NMS:Non-Maximum Suppression Single Shot multibox Detector
  • 18. 18 SegFormer[E.Xie+, NeurIPS2021] • Transformerをセグメンテーションタスクへ応用 ⁃ Mix Transformer • マルチレベルな特徴を獲得可能な階層型Transformer • 計算コストを削減する構造 ⁃ 軽量かつシンプルなMLPデコーダを採用 • Transformerは局所的かつ大域的な特徴を浅い層から獲得 • MLPで局所的な特徴を補完 Red Box:Stage-4のself-attentionのreceptive fieldの大きさ Blue Box:MLP Layerのreceptive fieldの大きさ Cityscapesにおけるreceptive fieldの効果を分析 → CNNベースは局所的な特徴のみ捉えるが,Transformerベースは局所的・広域的な特徴を捉える → MLPのreceptive fieldは局所的領域の密度が高い = 小さい物体の正確なセグメンテーションが期待
  • 20. 20 知識蒸留とデータ拡張 (Data-efficient image Transformers : DeiT) • 学習済みのCNNを教師とした知識蒸留で小さなデータセット(ImageNet)で高性能[H.Touvron+,ICML2021] ⁃ 知識蒸留用にdistillation tokenを用意し教師モデルの出力分布に近似するように学習 • 疑似的にデータをかさ増しするデータ拡張で高性能化を実現 ⁃ DeiTで設定されたデータ拡張が後続研究でデファクトスタンダートになった ⁃ 物体形状を捉えるように設定したデータ拡張がさらに高性能になることが判明している[H.Touvron+,ECCV2022] Teacher:CNN ViT Student:ViT MLP Dist.token MLP Class token 入力画像 教師モデルの出力 0.80:猫 0.16:犬 0.04:魚 教師ラベル 1:猫 0:犬 0:魚 生徒モデルの出力 Target loss Soft/Hard Target loss
  • 21. 21 特定範囲内でSelf-Attention - Swin Transformer - • 多様な物体スケールに対応かつ特定範囲内のSelf-Attentionで計算量を削減[Z.Liu+,CVPR2021] ⁃ ViTのパッチサイズ(16x16)より細かいパッチサイズ(4x4)で分割 ⁃ パッチを広く分割した特定範囲内(window)のみでSAを計算 ⁃ windowを跨いだ特徴を捉えるために層毎にwindowをシフト ⁃ Stage毎に特徴マップサイズを小さくする階層型構造も合わさることで CV向けTransformerモデルとしての地位を獲得 Layer 𝒍 Layer 𝒍 + 𝟏 window パッチ Shifted window
  • 22. • 正解ラベルを付与していない大量のデータを疑似的な問題として学習 ⁃ 正解ラベルを必要としないためアノテーションにかかる人的コストを削減 ⁃ 下流タスクに有益となる特徴を中間表現の学習で獲得し,学習したモデルを各タスクへ転移学習 22 自己教師あり学習 - Self-Supervised Learning - cat 分類タスク 事前学習済み モデル HEAD 検出タスク 事前学習済み モデル HEAD SSLで 事前学習するモデル 大量の正解ラベル無しデータ ①大量の正解ラベル無しデータでモデルを事前学習 ②SSLで事前学習したモデルを対象タスクへ転移学習
  • 23. 23 自己教師あり学習とViTの組み合わせ Masked Image Modeling:代表的方法 -MAE- マスクしたトークンから元画像を復元するように学習 Contrastive Learning:代表的方法 -DINO- 画像間の関係に基づいて画像から抽出した特徴量を埋め込む ImgeNet-1kの評価用データに対する復元結果 入力画像 復元結果 原画像 encoder decoder … … Teacher Augment • ViTにおける自己教師あり学習の代表的方法 ⁃ Masked Image Modeling :画像を固定パッチに分解後にランダムにマスクしたパッチ領域を復元 • MAE[K.He+,CVPR2022],LocalMIM[H.Wand+,CVPR2023], BEiT[H.Bao+,ICLR2022](トークン毎の分類問題として扱う特殊例) ⁃ Contrastive Learning :画像同士を比較し類似データを近づかせ非類似データを遠ざけて学習 • DINO[M.Caron+,ICCV2021],DINO v2[M.Oquab+,TMLR2024],MoCo v3[X.Chen+,ICCV2021] ⁃ 大規模データセットで豊富な知識を得たモデルが下流タスクで高性能なことが判明[M.Oquab+,TMLR2024][M.Singh+,ICCV2023] Student 誤差逆伝播 Centering Softmax 指数移動平均 stop-grad 損失計算 (交差エントロピー)
  • 24. 24 スケーリング則[J.Kaplan+,JMLR2022] • 大規模モデルの性能は3つの大小に依存 ⁃ 学習ステップ数,データセットサイズ,パラメータ数 • データ数とモデルを大規模にすればするほど高性能 ⁃ 最適な学習方法に設定して膨大に学習する必要がある ⁃ 学習に膨大なコストがかかるため経験則に基づくチューニングが必須
  • 25. 25 コンテンツ • Vision Transformerの理解 ⁃ CNNとViTの違い ⁃ ViTの構造と処理手順 ⁃ モデルの判断根拠の説明 ⁃ コンピュータビジョンにおけるTransformerの応用例 ⁃ ViTにおける課題と解決案 • CLIPから始まるVision & Language ⁃ CLIPの理解 ⁃ CLIPによって得られた恩恵 ⁃ CLIPによるVLタスクの発展
  • 26. 26 Vision & Language • 画像と自然言語処理を融合した研究分野 ⁃ 他にもキャプション生成,ナビゲーション,動画像要約等の幅広いタスクで研究されている ⁃ モデルの多くは特定タスクに対してCNN(画像) + RNN (言語)を使用 Language Model Vision Model Image to Text 中央にある 黒色の物体を教えて テレビ 視覚的質問応答:画像に関する質問から正しい答えを導き出す Text to Image 条件付き画像生成:テキストから画像を生成 全体的に灰色の背景で 中央に虎猫がいる Generator Transformer,大規模DB構築に伴い画像と言語を共通の特徴空間で近似することが効果的なことが判明
  • 27. 27 Contrastive Language-Image Pre-training - CLIP - • 大規模なweb画像とテキストのペアデータ(400M)によるVision & Languageの基盤モデル [A.Radford+,ICML2021] ⁃ 画像と言語のペアをポジティブペアとして対照学習 ⁃ 画像と言語を共通の特徴空間上で近くなるように学習させる Image Encoder Text Encoder cock with red mane Black fox tabby on grass 𝑰𝟏 𝑰𝟐 𝑰𝑵 … 𝑰𝟏 ∙ 𝑻𝟏 𝑰𝟏 ∙ 𝑻𝟐 𝑰𝟏 ∙ 𝑻𝑵 𝑰𝟐 ∙ 𝑻𝟏 𝑰𝟐 ∙ 𝑻𝟐 𝑰𝟐 ∙ 𝑻𝑵 𝑰𝑵 ∙ 𝑻𝟏 𝑰𝑵 ∙ 𝑻𝟐 𝑰𝑵 ∙ 𝑻𝑵 … … … … … … 𝑻𝟏 𝑻𝟐 … 𝑻𝑵 ペアは近づ かせる 非ペアは遠 ざかる • CLIPのバッチサイズは32,768 • CLは負例を多くして学習を効率 よく行うためにバッチサイズが 大きい どちらも Transformer CNNも可 各ドメインのベクトル
  • 28. 28 CLIPのモチベーション 従来研究 CLIP bird: ID n … dog: ID 3 cat: ID 2 plane: ID 1 fox: ID n … plane: ID 3 dog: ID 2 bird: ID 1 データ セットA モデル データ セットB モデル ラベル 特定DBで学習したモデルを 他DBで分類しようとする • 事前学習のデータセットと出力のラベルが1対1で,データセットが変わると分類モデルが不成立 • ラベルIDを学習するためクラスの意味を理解できない • 新たなラベルを認識可能にするために追加の学習が必要 画像 画像 red bird … sleeping dog sitting cat plane in the sky データ セット Vモデル 文章 画像 Lモデル 特徴空間 • 画像と文章を各ドメインモデルの中間表現に変換し,それぞれを紐づけるように学習 • 様々な画像と文章を概念的に理解できる • 推論時に特徴ベクトル同士の内積から最大値をとることで未知ラベルに対する認識が可能
  • 29. 29 CLIPでのzero-shotクラス分類方法 • CLIPは未知画像に対して学習なしで予測するzero-shotクラス分類が可能 ⁃ データセット内のクラス名とプロンプトテンプレートを用意 ⁃ 画像と言語のそれぞれのエンコーダから出る特徴量の類似度からクラス識別 ⁃ 一般的な画像識別問題であれば様々なデータセットで性能が良い Text Encoder bird … 𝑰𝟏 0.02 0.74 0.01 … 𝑻𝟏 𝑻𝟐 … 𝑻𝑵 dog cat plane A photo of a {object}. Image Encoder A photo of a cat. プロンプト テンプレート クラス名 27種類のデータセットでCLIP(zero-shot)と ResNet-50(教師あり)を比較 16種類のデータセットで CLIPの方が性能良い 衛星画像分類,リンパ節腫瘍等の 専門的・複雑なタスクで性能が低い
  • 30. • CLIPの成功により様々なCV分野でVLモデルが提案されている 30 CLIPによるVLモデルの発展 CLIP Parameter Efficient Tuning 膨大なパラメタを持つモデルの一部のみ更新 事前学習済みモデルの破滅的忘却を防ぐ Text-to-Image(Video) テキストから画像や動画を生成 ユーザが欲しい画像を自由に生成可能になった Object Detection テキストとマッチする物体を検出 任意のオブジェクトを検出可能になった Segmentation テキストとマッチする物体領域を検出 任意の領域をセグメンテーション可能になった Multi-Modal Model 大量かつ広範なデータで学習して 様々な下流タスクに転移できるモデル 所謂,Foundation Modelと呼ばれる • Prompt Tuning • Adapter (LoRA) • ViLD • GLIP • Grounding-DINO • DenseCLIP • Segment Anything* *テキストによるセマセグは未リリース • DALL・E2 • Stable Diffusion • Sora • CoCa • Unified-IO • Flamingo • 入力画像をCNNで画像特徴量に変換 • 特徴量をRNNに渡し文章生成 CNN+RNN 2021年CLIP登場 Transformer (2017) BERT (2019) ViT (2021) アプリケーション寄り 基礎技術寄り
  • 31. • 少量なパラメタで特定タスクを解くためにモデルの一部のみを更新 エンコーダ 31 Parameter Efficient Tuning Prompt Tuning white cat is walking • 人手でプロンプトを書くがタスク毎の最適なプロンプトを用意できない • プロンプト自体を学習して高性能に最適化させる プロンプト エンコーダ • 画像の場合はクラストークンと同様のトークンを追加 • 最終層のヘッドを更新 • 追加したプロンプトトークンは損失計算しない トークン プロンプト クラストークン パッチ ヘッド … Adapter • Transformerブロックの中に学習可能なMLPブロックを追加 𝑊𝑑𝑜𝑤𝑛 𝑊 𝑢𝑝 non linear ⊕ • 学習可能な低ランクな行列を用意し,線形層やSA部分に加算 (LoRA) • お気持ちはfine-tuningの更新をしているだけ 𝑊𝑑𝑜𝑤𝑛 𝑊 𝑢𝑝 Pretrained Weight 𝑾 ∈ ℝ𝒅×𝒅 x h + d 𝑊′ = 𝑊 + Δ𝑊 FT後のパラメタ 元パラメタ FT後と元パラメタの差分 LoRAはFT後と元パラメタの差分をシンプルかつ効率的に学習 トークン
  • 32. • 事前定義された物体クラスに制限せず任意テキストで指定した物体を検出 32 Open-set Object Detection Vision Model 事前定義されたNクラスを検出できるモデル Language Model couch, poster on the wall, red chair on the left Prompt Closed-set Object Detection Open-set Object Detection 言語特徴量をVisionモデルに入れたり,出力側で画像特徴量と言語特徴量間でアライメントを行う couch chair TV couch red chair on the left Poster on the wall 未知クラスでも検出できるモデル Vision Model Nクラス用意したDB
  • 33. 33 Text-to-Image / Video • 任意テキストにマッチする画像や動画像を生成 ⁃ 元画像に少しずつノイズを加え,ノイズを除去しながら画像を復元するDiffusion Modelが脚光を浴びている Sora (OpenAI, 2024) テキスト -> 動画 Stable Diffusion 3 (Stability AI, 2024) テキスト -> 画像 サイバーパンクを舞台としたロボットのストーリー [引用] https://www.youtube.com/watch?v=HK6y8DAPN_0&ab_channel=OpenAI
  • 34. 34 ViT周辺簡易マップ 2023年以降の傾向 ViT ViTの理解 ViTを模した構造 ViTの学習 ViTの応用 ViT構造 CNNとのハイブリット MLP CNN Other 階層構造 直列構造 教師あり学習 自己教師あり学習 物体検出 Contrastive Learning Masked Image Modeling マルチモーダルへの応用 既存Visionタスク 動画像認識 QKV内でダウンサンプリング → Self-Attentionにかかる計算量の削減 特定範囲内でSA 画像生成 ViTに適したデータ拡張によるアプローチ 大規模DBの用意 →少ないデータではViTの性能を発揮できない 基盤モデル 幅広いタスクへの応用 →ラベルありデータを集めるのが大変 →ViTの成功は空間と次元方向を混ぜる構造にある → 深層化やパッチ分割方法の変更等で高性能化 マスクしたパッチ領域の予測 データ同士の比較 マルチスケール対応 空間と時間方向を同時に計算 空間方向に計算後に時間方向に計算 GANによるアプローチ 拡散モデルによるアプローチ Transformer 大規模DBの利用 V&Lモデルの台頭 下流タスクの バックボーンとして利用 SSII2024技術マップより改変 : https://confit.atlas.jp/guide/event/ssii2024/static/special_project_tech_map