SlideShare a Scribd company logo
UniT: Multimodal Multitask
Learning with a Unified
Transformer
Ronghang Hu 1 Amanpreet Singh1
1 Facebook AI Research
資料作成者: 尾崎安範
尾崎安範 (@alfredplpl)
• 例によって⾃⼰紹介
サイバーエージェント 研究員 兼
⼤阪⼤学 招聘研究員 兼
⼤阪⼤学 ⽯⿊研究室 社会⼈博⼠2年⽣
← NTT研(開発寄り) 研究員
← 東⼤ 情報理⼯
最近やっていること
ロボット接客における通⾏⼈認識の研究開発
認識にTransformer
使いたい
TL; DR
• 画像や⽂章、 タスクを⼊⼒すると、
タスク応じた出⼒を返すTransformerを作ったよ︕
背景
• Transformerが提案されてから、 Transformerは⾃然⾔語や画
像、映像、⾳などの広い分野で成功を収めている
• (読者の⼼︓Transformerって何︖)
←⾃然⾔語⽤Transformer、
BERTのアーキテクチャ([1]より引⽤)
←画像検出⽤Transformer、
DETRのアーキテクチャ
([2]より引⽤)
[1] Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” arXiv 2019
[2] Carion et al., “End-to-End Object Detection with Transformers,” arXiv 2020
そもそもTransformerとは
トランスフォーマー
コンボイの謎
HI-SCORE 999999999
1 PLAYER
2 PLAYERS
トランスフォーマー
コンボイの謎
HI-SCORE 999999999
1 PLAYER
2 PLAYERS
そもそもTransformerとは
そもそもTransformerとは
• Attentionという数式を特徴とするDNN
• Encoder(図左)とDecoder(図右)から
構成されている
これはNLPのEncoder-Decoderモデルを拡張したため
[3]より引⽤
[4]より引⽤
[3] Vaswani et al., “Attention Is All You Need,” arXiv 2017
[4] Ryobot., “論⽂解説 Attention Is All You Need (Transformer),” 2020,
https://deeplearning.hatenablog.com/entry/transformer
そもそもAttentionとは
• AttentionとはKeyとQueryから適切なValueを返す数式
KQVはそれぞれEmbeddingした値に重みをそれっぽくかけたもの
• TransformerではMulti Head Attentionとして使われている
[4]より引⽤
Multi Head Attentionとは
• Multi Head AttentionとはAttentionの各⾏列の次元を細かく分
断してまとめたもの(512次元のものを64次元のもの8つに
分断するイメージ)
• Multi Head AttentionにはMulti Head Cross Attentionと
Multi Head Self Attentionに分けることができる
[3]より引⽤
Multi Head Cross Attentionと
Multi Head Self Attention
• Multi Head Cross AttentionとMulti Head Self Attentionとは、
Queryの対象を出⼒先とするか⼊⼒先とするかの違いで分か
れる
[4]より引⽤
提案⼿法UniTの概要
• いろんな分野で活躍しているならば、すべて解けるよね
• Multi Head Self Attentionを使ったimage encoderと
Multi Head Self Attentionを使ったtext encoderと
Multi Head Cross AttentionとMulti Head Self Attentionを使った
decoderで構成されているDNNを作った
image encoderの概要
• 全体的にDETRっぽい構造になっている
まず画像をconvnet (今回はResNet-50っぽいもの) で
Embedding。
その結果をMulti-Head Self Attentionでどの領域に注⽬
すべきかを学習
Feed ForwardなNNで何かしらを学習させる
これをN回繰り返すと、それっぽい隠れ変数が出⼒さ
れる
text encoderの概要
• 全体的にBERTのような構造をしている
まずはtext embedding
その結果をMulti-Head Self Attentionでどの領域に注
⽬すべきかを学習
Feed ForwardなNNで何かしらを学習させる
これをN回繰り返すと、それっぽい隠れ変数が出⼒
される
decoderの概要
• 全体的にDETRっぽい構造らしい
task indexやそれをEmbeddingする理由がまずよくわから
ない
とにかくタスクに関するSelf Attentionを求めるらしい
とにかくEncoderたちの出⼒とEmbeddingされたtask index
をCross Attetionして、隠れ変数を吐き出してくれるらし
い
タスク間で重みを共有させる (shared) かさせないか
(separate) で条件を分けてAblation Studyするらしい
headまわりの概要
• トランスフォーマー コンカイの謎
Object detectionタスクにおいてはDETRとBUTDを合体したものを使った
らしい
他のタスク(識別タスク)は出⼒に対してCrossEntropyLossを損失関数し
たNNになるらしい
headまわりをどのように切り替えるかはよくわからない
評価実験
• シングルタスクで解くよりかはマルチタスクで解いたほうが
性能は良くなった
タスク特化のTransformerと⽐較
• タスク特化のTransformerと⽐べても近い値はでるらしい。
定性的な結果
• それっぽくはできている
まとめ
• 画像や⽂章、 タスクを⼊⼒すると、
タスク応じた出⼒を返すTransformerを作ったよ︕
発表者の感想
• ガチでごった煮
マシンパワーをひたすらにこき使いまわしている⼿法
• マルチモーダルにしたら性能が良くなるかというと
そうでもないらしい
以前のCVPRの論⽂[5]でも指摘はされていたがそのとおりであった
• これどう考えても某某某某に投稿されている論⽂だと思うが、
あまりに⼤切なところが抜けていて⼤丈夫かなと思った
コードを読めばわかるのだろうか・・・︖
[5] Wang et al., “What makes training multi-modal classification networks hard?,” CVPR
2020
おまけ
• UniTとは別だが似た⼿法として、General Purpose Visionとい
う⼿法がある
[6] Gupta et al., “Towards General Purpose Vision Systems,” arXiv 2021
General Purpose Visionの問題と⼿法([6]より引⽤)

More Related Content

PPTX
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PPTX
Transformerを雰囲気で理解する
PDF
最近のディープラーニングのトレンド紹介_20200925
PDF
【メタサーベイ】数式ドリブン教師あり学習
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Transformerを雰囲気で理解する
最近のディープラーニングのトレンド紹介_20200925
【メタサーベイ】数式ドリブン教師あり学習
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

What's hot (20)

PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
PDF
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PPTX
SfM Learner系単眼深度推定手法について
PDF
フーリエ変換と画像圧縮の仕組み
PDF
Deep Learningと画像認識   ~歴史・理論・実践~
PDF
時系列予測にTransformerを使うのは有効か?
PDF
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
PDF
Semantic segmentation
PPTX
近年のHierarchical Vision Transformer
PDF
SSII2019企画: 点群深層学習の研究動向
PDF
画像生成・生成モデル メタサーベイ
PDF
【メタサーベイ】Video Transformer
PPTX
Triplet Lossによる Person Re-identification
PDF
ドメイン適応の原理と応用
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
【メタサーベイ】Neural Fields
PPTX
[DL輪読会]When Does Label Smoothing Help?
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
これからの Vision & Language ~ Acadexit した4つの理由
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
三次元点群を取り扱うニューラルネットワークのサーベイ
SfM Learner系単眼深度推定手法について
フーリエ変換と画像圧縮の仕組み
Deep Learningと画像認識   ~歴史・理論・実践~
時系列予測にTransformerを使うのは有効か?
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
Semantic segmentation
近年のHierarchical Vision Transformer
SSII2019企画: 点群深層学習の研究動向
画像生成・生成モデル メタサーベイ
【メタサーベイ】Video Transformer
Triplet Lossによる Person Re-identification
ドメイン適応の原理と応用
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【メタサーベイ】Neural Fields
[DL輪読会]When Does Label Smoothing Help?
Ad

Similar to 第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need) (20)

PDF
Chainerのテスト環境とDockerでのCUDAの利用
PDF
Detecting attended visual targets in video の勉強会用資料
PDF
マイニング探検会#12
PDF
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
PDF
人生の意思決定を支える社会インフラとしての図書館
PDF
ニュービジネスとドメインモデル V2
PDF
mlabforum2012_okanohara
PDF
インタラクションのためのコンピュータビジョンのお仕事
PDF
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
PDF
【メタサーベイ】基盤モデル / Foundation Models
PDF
チケット管理システム大決戦第二弾
PPTX
【Fan】学びの場づくり、"勝手に"最先端はこれだ! コンテンツデザインからコミュニティデザインへ
PDF
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
PPTX
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
TensorFlowで遊んでみよう!
PDF
TensorFlowによるCNNアーキテクチャ構築
PDF
[Whisper論文紹介]Robust Speech Recognition via Large-Scale Weak Supervision
PDF
Machine learning 15min TensorFlow hub
PDF
Langfuse_v3をGoogleCloud上にTerraformでサクッとホスト
Chainerのテスト環境とDockerでのCUDAの利用
Detecting attended visual targets in video の勉強会用資料
マイニング探検会#12
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
人生の意思決定を支える社会インフラとしての図書館
ニュービジネスとドメインモデル V2
mlabforum2012_okanohara
インタラクションのためのコンピュータビジョンのお仕事
第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)
【メタサーベイ】基盤モデル / Foundation Models
チケット管理システム大決戦第二弾
【Fan】学びの場づくり、"勝手に"最先端はこれだ! コンテンツデザインからコミュニティデザインへ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
TensorFlowで遊んでみよう!
TensorFlowによるCNNアーキテクチャ構築
[Whisper論文紹介]Robust Speech Recognition via Large-Scale Weak Supervision
Machine learning 15min TensorFlow hub
Langfuse_v3をGoogleCloud上にTerraformでサクッとホスト
Ad

More from Yasunori Ozaki (13)

PDF
Decision Transformer: Reinforcement Learning via Sequence Modeling
PDF
CHI 2021 Human, ML & AI のまとめ
PDF
POMDP下での強化学習の基礎と応用
PDF
Reinforcement Learning: An Introduction 輪読会第1回資料
PDF
IROS 2019 参加報告詳細版
PDF
Interact with AI (CHI 2019)
PDF
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
PDF
ビジョンとロボットの強化学習
PDF
Kaggleのテクニック
PPTX
10分でわかるRandom forest
PDF
PRMLの線形回帰モデル(線形基底関数モデル)
PDF
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
PDF
Introduction of my works
Decision Transformer: Reinforcement Learning via Sequence Modeling
CHI 2021 Human, ML & AI のまとめ
POMDP下での強化学習の基礎と応用
Reinforcement Learning: An Introduction 輪読会第1回資料
IROS 2019 参加報告詳細版
Interact with AI (CHI 2019)
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習
Kaggleのテクニック
10分でわかるRandom forest
PRMLの線形回帰モデル(線形基底関数モデル)
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Introduction of my works

第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)