SlideShare a Scribd company logo
18
Most read
20
Most read
24
Most read
DLゼミ (論文紹介)
ViTPose: Simple Vision Transformer
Baselines for Human Pose Estimation
北海道大学大学院 情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
博士後期課程2年 森 雄斗
2023/06/12
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報 2
タイトル
ViTPose: Simple Vision Transformer Baselines for Human
Pose Estimation
著者
Yufei Xu1*, Jing Zhang1*, Qiming Zhang1, Dacheng Tao2,1
1School of Computer Science, The University of Sydney, Australia
2 JD Explore Academy, China
発表
NeurIPS2022
URL
デモページ (Huggingface Spaces)
https://huggingface.co/spaces/hysts/ViTPose_video
GitHub
https://github.com/ViTAE-Transformer/ViTPose
論文
https://proceedings.neurips.cc/paper_files/paper/2022/file/fbb10
d319d44f8c3b4720873e4177c65-Paper-Conference.pdf
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
概要 3
プレーンなVision Transformerを用いた
姿勢推定モデルの提案
モデル構造のシンプルさ
モデルサイズのスケーラビリティ などが特徴
スループットとパフォーマンスの
パレートフロントの解であり、最高精度を記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
姿勢推定 (Pose Estimation) 4
コンピュータビジョンの1タスク
画像、動画から人間のキーポイント座標を推定
https://github.com/ViTAE-Transformer/ViTPose
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
姿勢推定の発展 5
CNNベース
Deeppose[1] (2014)
ResNet-50 base[2] (2018)
HRNet[3] (2019)
Transformerベース
HRFormer[4] (2021)
TokenPose[5] (2021)
TransPose[6] (2021)
[1] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition (CVPR), pages 1653–1660, 2014.
[2] B. Xiao, H. Wu, and Y. Wei. Simple baselines for human pose estimation and tracking. In Proceedings of the European conference on computer vision (ECCV), 2018.
[3] K. Sun, B. Xiao, D. Liu, and J. Wang. Deep high-resolution representation learning for human pose estimation. In Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition (CVPR), pages 5693–5703, 2019.
[4] Y. Yuan, R. Fu, L. Huang, W. Lin, C. Zhang, X. Chen, and J. Wang. Hrformer: High-resolution transformer for dense prediction. In Advances in Neural Information Processing
Systems, 2021.
[5] Y. Li, S. Zhang, Z. Wang, S. Yang, W. Yang, S.-T. Xia, and E. Zhou. Tokenpose: Learning keypoint tokens for human pose estimation. In Proceedings of the IEEE/CVF
International Conference on Computer Vision (ICCV), 2021.
[6] S. Yang, Z. Quan, M. Nie, and W. Yang. Transpose: Keypoint localization via transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision
(ICCV), 2021.
HRNetの出力
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
従来手法の課題 6
HRFormer
Transformerを使い特徴量を抽出し、
多解像度並列transformerを介して高解像度表現を得る
課題
特徴抽出のための余分のCNNが必要 or 変換器構造を慎重に検討する必要
著者の疑問
プレーンのTransformerは, 姿勢推定にどの程度対応できるのか?
ネットワーク構造
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ViTPoseの優れた点 7
1. Simplicity (シンプルさ)
• シンプルで非階層的なVision Transformer[1]を採用
• 特定のドメイン知識を不必要
• デコーダーはup-sampling層と畳み込み予測層で構成
2. Scalability (拡張性)
• Transformer層の数による推論速度と性能のバランス
3. Flexibility(柔軟性)
• 入力画像の解像度
• single poseからmulti poseへの適応
[1] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al. An image is worth 16x16 words:
Transformers for image recognition at scale. In International Conference on Learning Representations, 2020.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ViTPoseのネットワーク構造 8
Transformer Block
クラシックな
Decoder
シンプルな
Decoder
multiple datasetの
ためのDecoder群
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. Simplicity: 入力からEncoderまで 9
𝑑: ダウンサンプリング率
𝐶: チャネル次元数
入力画像: 𝑋 ∈ ℛ𝐻×𝑊×3
Patch Embedding layer:
𝐹 ∈ ℛ
𝐻
𝑑
×
𝑊
𝑑
×𝐶
Transformer Blockの中身
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. Simplicity: Transformer Block 10
MHSA = multi-head self-attention
LN = Layer Normalization (Norm)
FFN =Feed-forward network
[1] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al. An image is
worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2020.
ViT[1]のネットワーク図
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. Simplicity: Decoder 11
クラシックなDecoder
シンプルなDecoder
Bilinear: バイリニア補間
BN : Batch Normalization
Predictor: 畳み込み層で
ヒートマップを出力
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2. Scalability: transformer層の増減 12
transformer層の個数によって
特徴表現力を増減させることが可能
ViT-B, ViT-L, ViT-H
ViTAE-G
帰納的バイアスを獲得し、汎用性が向上したViT
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3. Flexibility 13
事前学習データ
Masked Autoencoderを使った事前学習によって
少ない学習データでも学習可能
解像度
入力サイズの変更が可能
ダウンサンプリング比𝑑も変更可能
Attention type
メモリ負担の軽減のための2つ手法を使用
Shift window
Pooling window
Patch Embedding layer:
𝐹 ∈ ℛ
𝐻
𝑑
×
𝑊
𝑑
×𝐶
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究 14
Vision transformerのための自己教師あり学習[1]
BERTで使われているMasked Autoencoder(MAE)の
Vision Transformer版
ViTPoseはmasked image modeling (MIM) で
事前学習したViTを採用
[1] K. He, X. Chen, S. Xie, Y. Li, P. Dollár, and R. Girshick. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition (CVPR), pages 16000–16009, 2022.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3. Flexibility 15
FineTuning
MHSA のパラメータを凍結させても
すべてのパラメータを学習させた値に近い性能
Table6: 1,2行目
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験: 事前確認 16
バックボーンの詳細
過学習対策
Ablation study
ViTベースはSimpleなDecoderでも問題なし
𝐴𝑃5050: OKE(一致していると判定する指標) のしきい値50 のAverage Precision
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
実験: データセット
• データセット
– COCO Keypoint Detection
• 200,000以上の17のキーポイントが
ラベル付けされた画像
• https://cocodataset.org/#home
• 評価指標
– Object Keypoint Similarity (OKS)
𝑂𝐾𝑆 =
𝑖 𝑒𝑥𝑝 −𝑑𝑖
2
2𝑠2𝑘𝑖
2
𝛿 𝑣𝑖 > 0
𝑖 𝛿 𝑣𝑖 > 0
𝑑𝑖 : 推定座標とGround truthの座標のユークリッド距離
𝑠 : 人物領域の面積
𝑘𝑖 : 減衰を制御するキーポイントごとの定数 (eyes < nose < … < ankles < Hips)
𝑣𝑖 : Ground truthの可視性フラグ (部位が画像に存在するかどうか)
広範囲
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験: SoTA手法との比較 18
ViTPoseが高精度を記録
* multi-datasetで学習
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ViTPoseの結果 19
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
パレートフロントを記録 20
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
制限と考察 21
特殊な構造がなくてもSoTAを記録
複雑なDecoderの設計やFPN構造を変えるこ
とでさらなる精度向上が見込める
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
まとめ 22
プレーンなVision Transformerを用いた
姿勢推定モデルの提案
モデル構造のシンプルさ
モデルサイズのスケーラビリティ などが特徴
スループットとパフォーマンスのパレートフロ
ントの解であり、最高精度を記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2023年6月現在の状況 23
PCT[1]
CVPR2023で発表
バックボーンはSwin-Transformer
Decoder部分にはMLP-mixerを使用
[1] Geng, Zigang, et al. "Human Pose as Compositional Tokens." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2023年6月現在の状況 24
ViTPose+[1]
ViTPoseと同じ著者
2022年11月にarXivに投稿
[1] Xu, Yufei, et al. "ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation." arXiv preprint arXiv:2212.04246 (2022).
新たなDecoder

More Related Content

PDF
【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)
PDF
深層学習によるHuman Pose Estimationの基礎
PPTX
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PPTX
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
PPTX
畳み込みニューラルネットワークの高精度化と高速化
【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)
深層学習によるHuman Pose Estimationの基礎
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
畳み込みニューラルネットワークの高精度化と高速化

What's hot (20)

PDF
実装レベルで学ぶVQVAE
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
PDF
Transformer メタサーベイ
PDF
全力解説!Transformer
PDF
機械学習モデルの判断根拠の説明
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PPTX
近年のHierarchical Vision Transformer
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PPTX
画像キャプションの自動生成
PDF
“機械学習の説明”の信頼性
PDF
Deep Learningによる超解像の進歩
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PPTX
【DL輪読会】"A Generalist Agent"
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PDF
20190619 オートエンコーダーと異常検知入門
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
最近のディープラーニングのトレンド紹介_20200925
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PDF
[DL Hacks]Visdomを使ったデータ可視化
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
実装レベルで学ぶVQVAE
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Transformer メタサーベイ
全力解説!Transformer
機械学習モデルの判断根拠の説明
これからの Vision & Language ~ Acadexit した4つの理由
近年のHierarchical Vision Transformer
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
画像キャプションの自動生成
“機械学習の説明”の信頼性
Deep Learningによる超解像の進歩
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】"A Generalist Agent"
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
20190619 オートエンコーダーと異常検知入門
[DL輪読会]相互情報量最大化による表現学習
最近のディープラーニングのトレンド紹介_20200925
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL Hacks]Visdomを使ったデータ可視化
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Ad

Similar to DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation (20)

PPTX
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
PPTX
A Generalist Agent
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
PDF
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
PDF
ReAct: Synergizing Reasoning and Acting in Language Models
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PPTX
You Only Learn One Representation: Unified Network for Multiple Tasks
PDF
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
PPTX
深層学習を用いたバス乗客画像の属性推定 に関する研究
PPTX
Recursively Summarizing Books with Human Feedback
PDF
A Study on the Generation of Clothing Captions Highlighting the Differences b...
PPTX
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
PPTX
2021 09 29_dl_hirata
PPTX
RAPiD
PPTX
Semi-Supervised Neural Architecture Search
PPTX
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
PPTX
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
PDF
Towards Total Recall in Industrial Anomaly Detection
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
A Generalist Agent
【DLゼミ】Generative Image Dynamics, CVPR2024
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
ReAct: Synergizing Reasoning and Acting in Language Models
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
You Only Learn One Representation: Unified Network for Multiple Tasks
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
深層学習を用いたバス乗客画像の属性推定 に関する研究
Recursively Summarizing Books with Human Feedback
A Study on the Generation of Clothing Captions Highlighting the Differences b...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
Generating Automatic Feedback on UI Mockups with Large Language Models
2021 09 29_dl_hirata
RAPiD
Semi-Supervised Neural Architecture Search
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
Towards Total Recall in Industrial Anomaly Detection
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
PDF
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
Voyager: An Open-Ended Embodied Agent with Large Language Models
PPTX
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
PPTX
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
形態素解析を用いた帝国議会議事速記録の変遷に関する研究

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

  • 1. DLゼミ (論文紹介) ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 北海道大学大学院 情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 博士後期課程2年 森 雄斗 2023/06/12
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 2 タイトル ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 著者 Yufei Xu1*, Jing Zhang1*, Qiming Zhang1, Dacheng Tao2,1 1School of Computer Science, The University of Sydney, Australia 2 JD Explore Academy, China 発表 NeurIPS2022 URL デモページ (Huggingface Spaces) https://huggingface.co/spaces/hysts/ViTPose_video GitHub https://github.com/ViTAE-Transformer/ViTPose 論文 https://proceedings.neurips.cc/paper_files/paper/2022/file/fbb10 d319d44f8c3b4720873e4177c65-Paper-Conference.pdf
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 概要 3 プレーンなVision Transformerを用いた 姿勢推定モデルの提案 モデル構造のシンプルさ モデルサイズのスケーラビリティ などが特徴 スループットとパフォーマンスの パレートフロントの解であり、最高精度を記録
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 姿勢推定 (Pose Estimation) 4 コンピュータビジョンの1タスク 画像、動画から人間のキーポイント座標を推定 https://github.com/ViTAE-Transformer/ViTPose
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 姿勢推定の発展 5 CNNベース Deeppose[1] (2014) ResNet-50 base[2] (2018) HRNet[3] (2019) Transformerベース HRFormer[4] (2021) TokenPose[5] (2021) TransPose[6] (2021) [1] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1653–1660, 2014. [2] B. Xiao, H. Wu, and Y. Wei. Simple baselines for human pose estimation and tracking. In Proceedings of the European conference on computer vision (ECCV), 2018. [3] K. Sun, B. Xiao, D. Liu, and J. Wang. Deep high-resolution representation learning for human pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 5693–5703, 2019. [4] Y. Yuan, R. Fu, L. Huang, W. Lin, C. Zhang, X. Chen, and J. Wang. Hrformer: High-resolution transformer for dense prediction. In Advances in Neural Information Processing Systems, 2021. [5] Y. Li, S. Zhang, Z. Wang, S. Yang, W. Yang, S.-T. Xia, and E. Zhou. Tokenpose: Learning keypoint tokens for human pose estimation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021. [6] S. Yang, Z. Quan, M. Nie, and W. Yang. Transpose: Keypoint localization via transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021. HRNetの出力
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 従来手法の課題 6 HRFormer Transformerを使い特徴量を抽出し、 多解像度並列transformerを介して高解像度表現を得る 課題 特徴抽出のための余分のCNNが必要 or 変換器構造を慎重に検討する必要 著者の疑問 プレーンのTransformerは, 姿勢推定にどの程度対応できるのか? ネットワーク構造
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ViTPoseの優れた点 7 1. Simplicity (シンプルさ) • シンプルで非階層的なVision Transformer[1]を採用 • 特定のドメイン知識を不必要 • デコーダーはup-sampling層と畳み込み予測層で構成 2. Scalability (拡張性) • Transformer層の数による推論速度と性能のバランス 3. Flexibility(柔軟性) • 入力画像の解像度 • single poseからmulti poseへの適応 [1] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2020.
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ViTPoseのネットワーク構造 8 Transformer Block クラシックな Decoder シンプルな Decoder multiple datasetの ためのDecoder群
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. Simplicity: 入力からEncoderまで 9 𝑑: ダウンサンプリング率 𝐶: チャネル次元数 入力画像: 𝑋 ∈ ℛ𝐻×𝑊×3 Patch Embedding layer: 𝐹 ∈ ℛ 𝐻 𝑑 × 𝑊 𝑑 ×𝐶 Transformer Blockの中身
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. Simplicity: Transformer Block 10 MHSA = multi-head self-attention LN = Layer Normalization (Norm) FFN =Feed-forward network [1] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2020. ViT[1]のネットワーク図
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. Simplicity: Decoder 11 クラシックなDecoder シンプルなDecoder Bilinear: バイリニア補間 BN : Batch Normalization Predictor: 畳み込み層で ヒートマップを出力
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2. Scalability: transformer層の増減 12 transformer層の個数によって 特徴表現力を増減させることが可能 ViT-B, ViT-L, ViT-H ViTAE-G 帰納的バイアスを獲得し、汎用性が向上したViT
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3. Flexibility 13 事前学習データ Masked Autoencoderを使った事前学習によって 少ない学習データでも学習可能 解像度 入力サイズの変更が可能 ダウンサンプリング比𝑑も変更可能 Attention type メモリ負担の軽減のための2つ手法を使用 Shift window Pooling window Patch Embedding layer: 𝐹 ∈ ℛ 𝐻 𝑑 × 𝑊 𝑑 ×𝐶
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 関連研究 14 Vision transformerのための自己教師あり学習[1] BERTで使われているMasked Autoencoder(MAE)の Vision Transformer版 ViTPoseはmasked image modeling (MIM) で 事前学習したViTを採用 [1] K. He, X. Chen, S. Xie, Y. Li, P. Dollár, and R. Girshick. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 16000–16009, 2022.
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3. Flexibility 15 FineTuning MHSA のパラメータを凍結させても すべてのパラメータを学習させた値に近い性能 Table6: 1,2行目
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験: 事前確認 16 バックボーンの詳細 過学習対策 Ablation study ViTベースはSimpleなDecoderでも問題なし 𝐴𝑃5050: OKE(一致していると判定する指標) のしきい値50 のAverage Precision
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験: データセット • データセット – COCO Keypoint Detection • 200,000以上の17のキーポイントが ラベル付けされた画像 • https://cocodataset.org/#home • 評価指標 – Object Keypoint Similarity (OKS) 𝑂𝐾𝑆 = 𝑖 𝑒𝑥𝑝 −𝑑𝑖 2 2𝑠2𝑘𝑖 2 𝛿 𝑣𝑖 > 0 𝑖 𝛿 𝑣𝑖 > 0 𝑑𝑖 : 推定座標とGround truthの座標のユークリッド距離 𝑠 : 人物領域の面積 𝑘𝑖 : 減衰を制御するキーポイントごとの定数 (eyes < nose < … < ankles < Hips) 𝑣𝑖 : Ground truthの可視性フラグ (部位が画像に存在するかどうか) 広範囲
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験: SoTA手法との比較 18 ViTPoseが高精度を記録 * multi-datasetで学習
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ViTPoseの結果 19
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. パレートフロントを記録 20
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 制限と考察 21 特殊な構造がなくてもSoTAを記録 複雑なDecoderの設計やFPN構造を変えるこ とでさらなる精度向上が見込める
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. まとめ 22 プレーンなVision Transformerを用いた 姿勢推定モデルの提案 モデル構造のシンプルさ モデルサイズのスケーラビリティ などが特徴 スループットとパフォーマンスのパレートフロ ントの解であり、最高精度を記録
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2023年6月現在の状況 23 PCT[1] CVPR2023で発表 バックボーンはSwin-Transformer Decoder部分にはMLP-mixerを使用 [1] Geng, Zigang, et al. "Human Pose as Compositional Tokens." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2023年6月現在の状況 24 ViTPose+[1] ViTPoseと同じ著者 2022年11月にarXivに投稿 [1] Xu, Yufei, et al. "ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation." arXiv preprint arXiv:2212.04246 (2022). 新たなDecoder

Editor's Notes

  • #10: 複雑なモジュールが性能を向上させる可能性があるとしてもなるべく避けることにした
  • #11: 複雑なモジュールが性能を向上させる可能性があるとしてもなるべく避けることにした