SlideShare a Scribd company logo
2
Most read
7
Most read
14
Most read
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Deep High-Resolution Representation
Learning for Human Pose Estimation”
Matsuo Lab, Ryo Okada/岡田 領
Outline
1. 書誌情報
2. 論文の概要
3. 姿勢推定問題とは
4. 先行研究
5. 提案手法
6. 実験
7. まとめ
2
書誌情報
• タイトル
– Deep High-Resolution Representation Learning for Human
Pose Estimation
• 著者
– Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang
– University of Science and Technology of China,
Microsoft Research Asia
• CVPR’19
3
概要
4
本論文の概要
• Deep High-Resolution Representation Learning for
Human Pose Estimation
– ネットワーク全体で高解像度を維持する一方で、複数スケールを繰り返し
フィージョンする姿勢推定のためのhigh resolution network
(HRNet)を提案
– 異なるスケールのインタラクションを密にして高精度出した
5
姿勢推定とは
6
Human Pose
Estimation - 姿勢推定
• 姿勢推定とは
– 画像や動画から肩や手首といった人間の関節部分
(キーポイント)を推定する問題
• 種類
– 2D姿勢推定
• 画像から関節部分の2次元(x, y)の位置を推定する
– 3D姿勢推定
• 画像から関節部分の3次元(x, y, z)の位置を推定す
る
• 利用例
– 行動認識、アニメーション、ゲーム
– Homecourt(バスケのシュートの分析アプリ)
7
Human Pose Estimation - 姿勢推定
• 姿勢推定モデルのアプローチ
– トップダウンアプローチ
• まず人物を検知する。その後、それぞれの人物について姿勢推定(Single Person Pose
Estimation)を行う。
• 人数に比例して計算量が増加する
– ボトムアップアプローチ
• 画像中のキーポイントを全て洗い出したあと、人物ごとにマッチングさせて繋ぎ合わせて
いく。
• トップダウンに比べ、計算量が少ないが、部位間のつなぎ合わせの精度が低い
8
先行研究
9
姿勢推定の先行研究
10
Hourglass Cascaded pyramid network Simple Baseline
• 対照的な高->低、低->高解像度の
ネットワーク(Hourglass)を直列に
8つつ繋ぐ。それぞれのhourglass
ではIntermediate supervisionを用
いる。
• Skip connection使ってフュージョ
ンする。
• トップダウンアプローチ(人物検
知->姿勢推定)
• 左側の GlobalNetで単純明瞭な
キーポイントを見つける。右部分
のRefineNetが複数スケールの特
徴をアップサンプリング・統合す
ることで、抽象度の高く、見つけ
づらいキーポイントの推定を行う。
• ResNetで高->低解像度、Hourglass
ではアップサンプリングであった
が、deconv layerでスケールを戻
す。
• シンプルなネットワークで高性能
を示した。
• ECCV Posetrack challenge 2018で優
勝
• 著者らの前作
既存研究のポイントと提案手法の着想
11
既存研究 提案手法
直列に高->低解像度へ落とす
段階的に異なるスケールを加えていく
ものが多い
Intermediate supervisionを使用
(Hourglassなど)
並列に高->低解像度ネットワーク
(分類やセグメンテーションのmulti scale
networkから着想. Ex. Convolutional
neural fabric, interlinked CNN)
複数スケールを一気に繰り返しフュー
ジョン
(Deep fusionから着想)
intermediate supervisionを使用
しないため、計算量小。
ネットワーク
構成
複数スケール
の加算方
Intermediat
e
supervision
提案手法
12
HRNetのアーキテクチャ
13
• 高解像度から始め徐々に低解像度
のサブネットワークを加えていく。
• 後段のステージの並列ネットワー
クの解像度は前段のステージのも
のに加え、より解像度の低いもの
で構成される。
• サブネットワーク間で情報を繰り
返しフュージョンする
• 異なるスケールのfeature mapは
アップサンプリング (nearest
neighbor サンプリング + 1x1
convolution) またはダウンサ
ンプリング (strided 3x3
convolution) して加算。
並列マルチ解像度サブネットワーク Exchange Unit
s: stage, r: resolution index
HRNetのアーキテクチャ
14
• 最終層では1x, 2x, 4x, 8xの4スケー
ルが出力される。このうち最も精度の
高い1xの出力のみが用いられる。
• 損失関数はground truthのキーポイン
トヒートマップに対するmean square
error。
HRNet全体イメージ 出力
• 4ステージ、4並列サブネットワーク
• 実験では2サイズのネットワークを用意
• HRNet-W32(チャンネル幅32,64,128,256)
• HRNet-W48(チャンネル幅48,96,192,384)
実験
15
実験
• 以下データセットで検証。それ
ぞれSoTAを達成。
– MSCOCO
• 物体検知・セグメンテーション・人物
姿勢を含むデータセット
– MPII Human Pose Estimation,
PoseTrack
• 人物2D姿勢データセット
• 評価指標(COCOでの検証の際)
– Object Keypoint Similarity
– 物体認識におけるIoUと似た役割
– OKS閾値でのStandard Average
precisionとrecall scoresで評
価 16
http://image-
net.org/challenges/talks/2016/ECCV2016_workshop_presentation_keypo
int.pdf
COCO test-devでの性能比較結果
17
提案手法が高精度を示
している
• AP: OKSを10段階に
変えた時のAverage
Precisionの平均値
• AP50, AP75: OKSの閾
値0.5, 0.75
• APM,APL: 中サイズ、
大サイズ人物に対す
るAP
分解検証
18
分解検証
• 以下3点について分解検証
1. フュージョン回数による効果
2. ネットワーク内での解像度の扱いの影響
3. ヒートマップ推定に利用するfeature mapの解像度
4. 入力サイズの影響
19
分解検証
20
①フュージョンの繰り返しによる効果
提案手法(HRNet-W32)のほうが高性能となった。
徐々にスケール/サブネットワークを増やしていく
のが性能向上につながると言える。
②ネットワーク内での解像度の扱いの影響
マルチスケールのフュージョンは効果的であり、回
数を増やすほど高い性能に
最初から4つのサブネットワークを繋いだネット
ワークと提案手法とを検証(variant of the
HRNet)。
ネットワークの深さやフュージョンについては同じ。
- 結果
Variant of the HRNet: 72.5AP
HRNet-W32:73.4 AP
分解検証
21
③ヒートマップ推定に利用する
feature mapの解像度
小さいサイズにおける変化の方が性能の改善幅が大
きい。
ある程度の解像度を利用すれば精度の高い結果につ
ながる。
④入力サイズの影響
ネットワーク最後で利用するfeature mapの解像
度の精度への影響を検証。
解像度は予測精度に大きく影響することがわかる。
まとめ
• 姿勢推定のためのhigh resolution network(HRNet)を提案した
– プロセス全体で高解像度を維持し、解像度を復元する必要がない、
– 複数の解像度を繰り返しフュージョンし、高い精度を得た
• Future work
– HRNetの他のタスクでの効果検証(すでにいくつか検証している)
• 物体検知
– High-Resolution Representation Learning for Object Detection
• セグメンテーション
– High-Resolution Representations for Labeling Pixels and Regions
• 画像分類
– High-Resolution Representation Learning for ImageNet Classification
• 顔認識
– 未
22
THANK YOU.
23

More Related Content

PDF
深層学習によるHuman Pose Estimationの基礎
PDF
Transformer メタサーベイ
PDF
Semantic segmentation
PDF
自己教師学習(Self-Supervised Learning)
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PPTX
近年のHierarchical Vision Transformer
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PDF
三次元表現まとめ(深層学習を中心に)
深層学習によるHuman Pose Estimationの基礎
Transformer メタサーベイ
Semantic segmentation
自己教師学習(Self-Supervised Learning)
三次元点群を取り扱うニューラルネットワークのサーベイ
近年のHierarchical Vision Transformer
Semi supervised, weakly-supervised, unsupervised, and active learning
三次元表現まとめ(深層学習を中心に)

What's hot (20)

PDF
【メタサーベイ】Video Transformer
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
点群深層学習 Meta-study
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PDF
Introduction to YOLO detection model
PDF
【メタサーベイ】数式ドリブン教師あり学習
PDF
画像生成・生成モデル メタサーベイ
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PDF
Skip Connection まとめ(Neural Network)
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PPTX
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
PDF
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...
PDF
実装レベルで学ぶVQVAE
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
PPTX
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
【メタサーベイ】Video Transformer
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
点群深層学習 Meta-study
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Introduction to YOLO detection model
【メタサーベイ】数式ドリブン教師あり学習
画像生成・生成モデル メタサーベイ
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
[DL輪読会]GQNと関連研究,世界モデルとの関係について
【DL輪読会】ViT + Self Supervised Learningまとめ
Skip Connection まとめ(Neural Network)
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...
実装レベルで学ぶVQVAE
[DL輪読会] マルチエージェント強化学習と心の理論
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
Ad

Similar to [DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation (20)

PDF
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
PDF
DeepPose: Human Pose Estimation via Deep Neural Networks
PDF
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
PPTX
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
PPTX
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
PPTX
[DL輪読会]Human Pose Estimation @ ECCV2018
PPTX
CVPR Festival
PPTX
よわよわPCによる姿勢推定 -PoseNet-
PDF
【メタサーベイ】Face, Gesture, and Body Pose
PDF
CVPR2011 Festival PDF
PPTX
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
PDF
PFI成果発表会2014発表資料 Where Do You Look?
PDF
[DL輪読会]CVPR2019:Weakly-Supervised Discovery of Geometry-Aware Representation ...
PPTX
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements
PPTX
2018 07 02_dense_pose
PDF
[DL Hacks 実装]Representation Learning by Rotating Your Faces
PDF
[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
PPTX
Sprint16 papers research
PDF
GTC 2016 ディープラーニング最新情報
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
DeepPose: Human Pose Estimation via Deep Neural Networks
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]Human Pose Estimation @ ECCV2018
CVPR Festival
よわよわPCによる姿勢推定 -PoseNet-
【メタサーベイ】Face, Gesture, and Body Pose
CVPR2011 Festival PDF
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
PFI成果発表会2014発表資料 Where Do You Look?
[DL輪読会]CVPR2019:Weakly-Supervised Discovery of Geometry-Aware Representation ...
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements
2018 07 02_dense_pose
[DL Hacks 実装]Representation Learning by Rotating Your Faces
[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
Sprint16 papers research
GTC 2016 ディープラーニング最新情報
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation