Submit Search
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Download as PPTX, PDF
4 likes
6,795 views
Deep Learning JP
2019/05/17 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
Related topics:
Deep Learning
Read more
1 of 23
Download now
Downloaded 48 times
1
2
Most read
3
4
5
6
7
Most read
8
9
10
11
12
13
14
Most read
15
16
17
18
19
20
21
22
23
More Related Content
PDF
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
PDF
Transformer メタサーベイ
cvpaper. challenge
PDF
Semantic segmentation
Takuya Minagawa
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
PPTX
近年のHierarchical Vision Transformer
Yusuke Uchida
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
PDF
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
Transformer メタサーベイ
cvpaper. challenge
Semantic segmentation
Takuya Minagawa
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
近年のHierarchical Vision Transformer
Yusuke Uchida
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
What's hot
(20)
PDF
【メタサーベイ】Video Transformer
cvpaper. challenge
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
Deep Learning JP
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
PDF
点群深層学習 Meta-study
Naoya Chiba
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
PDF
Introduction to YOLO detection model
WEBFARMER. ltd.
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
PDF
画像生成・生成モデル メタサーベイ
cvpaper. challenge
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
PDF
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
PPTX
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
Deep Learning JP
PDF
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...
Deep Learning JP
PDF
実装レベルで学ぶVQVAE
ぱんいち すみもと
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
PPTX
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
Yusuke Uchida
【メタサーベイ】Video Transformer
cvpaper. challenge
【DL輪読会】A Path Towards Autonomous Machine Intelligence
Deep Learning JP
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
点群深層学習 Meta-study
Naoya Chiba
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
Introduction to YOLO detection model
WEBFARMER. ltd.
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
画像生成・生成モデル メタサーベイ
cvpaper. challenge
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
Deep Learning JP
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...
Deep Learning JP
実装レベルで学ぶVQVAE
ぱんいち すみもと
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
Yusuke Uchida
Ad
Similar to [DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
(20)
PDF
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
PDF
DeepPose: Human Pose Estimation via Deep Neural Networks
Shunta Saito
PDF
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
PPTX
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
Deep Learning JP
PPTX
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
Deep Learning JP
PPTX
[DL輪読会]Human Pose Estimation @ ECCV2018
Deep Learning JP
PPTX
CVPR Festival
Masafumi Noda
PPTX
よわよわPCによる姿勢推定 -PoseNet-
Yuto Mori
PDF
【メタサーベイ】Face, Gesture, and Body Pose
cvpaper. challenge
PDF
CVPR2011 Festival PDF
Masafumi Noda
PPTX
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
PDF
PFI成果発表会2014発表資料 Where Do You Look?
Hokuto Kagaya
PDF
[DL輪読会]CVPR2019:Weakly-Supervised Discovery of Geometry-Aware Representation ...
Deep Learning JP
PPTX
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
PPTX
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements
Deep Learning JP
PPTX
2018 07 02_dense_pose
harmonylab
PDF
[DL Hacks 実装]Representation Learning by Rotating Your Faces
Deep Learning JP
PDF
[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
Deep Learning JP
PPTX
Sprint16 papers research
MisakiRyo
PDF
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
DeepPose: Human Pose Estimation via Deep Neural Networks
Shunta Saito
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
Deep Learning JP
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
Deep Learning JP
[DL輪読会]Human Pose Estimation @ ECCV2018
Deep Learning JP
CVPR Festival
Masafumi Noda
よわよわPCによる姿勢推定 -PoseNet-
Yuto Mori
【メタサーベイ】Face, Gesture, and Body Pose
cvpaper. challenge
CVPR2011 Festival PDF
Masafumi Noda
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
PFI成果発表会2014発表資料 Where Do You Look?
Hokuto Kagaya
[DL輪読会]CVPR2019:Weakly-Supervised Discovery of Geometry-Aware Representation ...
Deep Learning JP
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
[DL輪読会]Human Dynamics from Monocular Video with Dynamic Camera Movements
Deep Learning JP
2018 07 02_dense_pose
harmonylab
[DL Hacks 実装]Representation Learning by Rotating Your Faces
Deep Learning JP
[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
Deep Learning JP
Sprint16 papers research
MisakiRyo
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
Ad
More from Deep Learning JP
(20)
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ “Deep High-Resolution Representation Learning for Human Pose Estimation” Matsuo Lab, Ryo Okada/岡田 領
2.
Outline 1. 書誌情報 2. 論文の概要 3.
姿勢推定問題とは 4. 先行研究 5. 提案手法 6. 実験 7. まとめ 2
3.
書誌情報 • タイトル – Deep
High-Resolution Representation Learning for Human Pose Estimation • 著者 – Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang – University of Science and Technology of China, Microsoft Research Asia • CVPR’19 3
4.
概要 4
5.
本論文の概要 • Deep High-Resolution
Representation Learning for Human Pose Estimation – ネットワーク全体で高解像度を維持する一方で、複数スケールを繰り返し フィージョンする姿勢推定のためのhigh resolution network (HRNet)を提案 – 異なるスケールのインタラクションを密にして高精度出した 5
6.
姿勢推定とは 6
7.
Human Pose Estimation -
姿勢推定 • 姿勢推定とは – 画像や動画から肩や手首といった人間の関節部分 (キーポイント)を推定する問題 • 種類 – 2D姿勢推定 • 画像から関節部分の2次元(x, y)の位置を推定する – 3D姿勢推定 • 画像から関節部分の3次元(x, y, z)の位置を推定す る • 利用例 – 行動認識、アニメーション、ゲーム – Homecourt(バスケのシュートの分析アプリ) 7
8.
Human Pose Estimation
- 姿勢推定 • 姿勢推定モデルのアプローチ – トップダウンアプローチ • まず人物を検知する。その後、それぞれの人物について姿勢推定(Single Person Pose Estimation)を行う。 • 人数に比例して計算量が増加する – ボトムアップアプローチ • 画像中のキーポイントを全て洗い出したあと、人物ごとにマッチングさせて繋ぎ合わせて いく。 • トップダウンに比べ、計算量が少ないが、部位間のつなぎ合わせの精度が低い 8
9.
先行研究 9
10.
姿勢推定の先行研究 10 Hourglass Cascaded pyramid
network Simple Baseline • 対照的な高->低、低->高解像度の ネットワーク(Hourglass)を直列に 8つつ繋ぐ。それぞれのhourglass ではIntermediate supervisionを用 いる。 • Skip connection使ってフュージョ ンする。 • トップダウンアプローチ(人物検 知->姿勢推定) • 左側の GlobalNetで単純明瞭な キーポイントを見つける。右部分 のRefineNetが複数スケールの特 徴をアップサンプリング・統合す ることで、抽象度の高く、見つけ づらいキーポイントの推定を行う。 • ResNetで高->低解像度、Hourglass ではアップサンプリングであった が、deconv layerでスケールを戻 す。 • シンプルなネットワークで高性能 を示した。 • ECCV Posetrack challenge 2018で優 勝 • 著者らの前作
11.
既存研究のポイントと提案手法の着想 11 既存研究 提案手法 直列に高->低解像度へ落とす 段階的に異なるスケールを加えていく ものが多い Intermediate supervisionを使用 (Hourglassなど) 並列に高->低解像度ネットワーク (分類やセグメンテーションのmulti
scale networkから着想. Ex. Convolutional neural fabric, interlinked CNN) 複数スケールを一気に繰り返しフュー ジョン (Deep fusionから着想) intermediate supervisionを使用 しないため、計算量小。 ネットワーク 構成 複数スケール の加算方 Intermediat e supervision
12.
提案手法 12
13.
HRNetのアーキテクチャ 13 • 高解像度から始め徐々に低解像度 のサブネットワークを加えていく。 • 後段のステージの並列ネットワー クの解像度は前段のステージのも のに加え、より解像度の低いもの で構成される。 •
サブネットワーク間で情報を繰り 返しフュージョンする • 異なるスケールのfeature mapは アップサンプリング (nearest neighbor サンプリング + 1x1 convolution) またはダウンサ ンプリング (strided 3x3 convolution) して加算。 並列マルチ解像度サブネットワーク Exchange Unit s: stage, r: resolution index
14.
HRNetのアーキテクチャ 14 • 最終層では1x, 2x,
4x, 8xの4スケー ルが出力される。このうち最も精度の 高い1xの出力のみが用いられる。 • 損失関数はground truthのキーポイン トヒートマップに対するmean square error。 HRNet全体イメージ 出力 • 4ステージ、4並列サブネットワーク • 実験では2サイズのネットワークを用意 • HRNet-W32(チャンネル幅32,64,128,256) • HRNet-W48(チャンネル幅48,96,192,384)
15.
実験 15
16.
実験 • 以下データセットで検証。それ ぞれSoTAを達成。 – MSCOCO •
物体検知・セグメンテーション・人物 姿勢を含むデータセット – MPII Human Pose Estimation, PoseTrack • 人物2D姿勢データセット • 評価指標(COCOでの検証の際) – Object Keypoint Similarity – 物体認識におけるIoUと似た役割 – OKS閾値でのStandard Average precisionとrecall scoresで評 価 16 http://image- net.org/challenges/talks/2016/ECCV2016_workshop_presentation_keypo int.pdf
17.
COCO test-devでの性能比較結果 17 提案手法が高精度を示 している • AP:
OKSを10段階に 変えた時のAverage Precisionの平均値 • AP50, AP75: OKSの閾 値0.5, 0.75 • APM,APL: 中サイズ、 大サイズ人物に対す るAP
18.
分解検証 18
19.
分解検証 • 以下3点について分解検証 1. フュージョン回数による効果 2.
ネットワーク内での解像度の扱いの影響 3. ヒートマップ推定に利用するfeature mapの解像度 4. 入力サイズの影響 19
20.
分解検証 20 ①フュージョンの繰り返しによる効果 提案手法(HRNet-W32)のほうが高性能となった。 徐々にスケール/サブネットワークを増やしていく のが性能向上につながると言える。 ②ネットワーク内での解像度の扱いの影響 マルチスケールのフュージョンは効果的であり、回 数を増やすほど高い性能に 最初から4つのサブネットワークを繋いだネット ワークと提案手法とを検証(variant of the HRNet)。 ネットワークの深さやフュージョンについては同じ。 -
結果 Variant of the HRNet: 72.5AP HRNet-W32:73.4 AP
21.
分解検証 21 ③ヒートマップ推定に利用する feature mapの解像度 小さいサイズにおける変化の方が性能の改善幅が大 きい。 ある程度の解像度を利用すれば精度の高い結果につ ながる。 ④入力サイズの影響 ネットワーク最後で利用するfeature mapの解像 度の精度への影響を検証。 解像度は予測精度に大きく影響することがわかる。
22.
まとめ • 姿勢推定のためのhigh resolution
network(HRNet)を提案した – プロセス全体で高解像度を維持し、解像度を復元する必要がない、 – 複数の解像度を繰り返しフュージョンし、高い精度を得た • Future work – HRNetの他のタスクでの効果検証(すでにいくつか検証している) • 物体検知 – High-Resolution Representation Learning for Object Detection • セグメンテーション – High-Resolution Representations for Labeling Pixels and Regions • 画像分類 – High-Resolution Representation Learning for ImageNet Classification • 顔認識 – 未 22
23.
THANK YOU. 23
Download