SlideShare a Scribd company logo
DeepPose: Human Pose Estimation via Deep Neural Networks
東京⼤学⼤学院⼯学系研究科
技術経営戦略学専攻
松尾研究室
⼤野峻典
発表の⽬的
• 今回の発表のハイライト
– DeepPose, 姿勢検知界隈
– PyTorchでの実装⽅法・ノウハウ理解
– 実装を⼿元で動かしてみる発表スタイル試み
2
書誌情報
3
• 論⽂名:“DeepPose: Human Pose Estimation via Deep Neural
Networks”
– https://arxiv.org/pdf/1312.4659
• 著者:Alexander Toshev, Christian Szegedy
– Google
• 公開⽇:20 Aug 2014
• IEEE Conference on Computer Vision and Pattern Recognition, 2014
• ※ 特に断りが無い場合は, 上記論⽂, Slide, Videoから引⽤
こういうことができる
4
CNNによる姿勢推定
• GoogleLeNetチームの⼈が書いたCNNによる姿勢推定
• AlexNetのアーキテクチャをそのまま利⽤
• Dec 2013時点でSoTA
• CNNを利⽤した回帰問題としての姿勢推定の最初の論⽂で以降ベンチマー
ク
5
Introduction
• ⼈間は隠れている関節の位置を推測できる
– 他の部位の様⼦や対象⼈物の動きから推測
– → 「全体的に⾒て, 推測する」ことが重要
• DNNならこの辺うまくできそう.
• 既存研究では, パーツごと検出してあとでパーツ間の関係を考慮する⼿法が
多い.
• → DNNなら特徴量設計しなくていい & パーツ検出器設計いらない & 関節
間の相互関係などのモデルもいらない
• DeepPoseでは 複数のDNNを直列につなげる
– ⼤まかに各関節の初期位置を推定するDNN
– 推定された位置の画像を切り出したもの⽤いて, 関節位置推定するDNN ←
– 各関節推定のためのDCNNの直列の繋ぎ合わせ
6
Deep Learning Model for Pose Estimation
• データセット
– x: 画像
– y: k個の各関節の位置座標値を⼀列に連結したベクトル
7
⼈物領域の切り出し
8
• 元画像から固定サイズ(220x220)で⼈物領域を切り出す.
– 学習時:アノテーションされている関節位置から上下左右端にある関節に合わせて,
Crop. ⼤きさに合わせてScale, Padding.
– 推論時:⼈物領域のbounding box推定.(※)
• 切り出しに合わせて座標位置も変換.
CNNによる関節位置の推定
• 画像xを姿勢ベクトルyに回帰する関数ψ(x;θ) ∈ R2kを学習.(k:関節数)
• ψを事前に決めたサイズ(220x220)の3チャンネルの⼊⼒画像を取り, 2k次
元のベクトルy*を出⼒するDeep Convolutional Neural Networkで近似.
• CNNのアーキテクチャ:AlexNet
– 最終層は1000unitsではなく2k units
– 13層アーキテクチャ:C(55 x 55 x 96) - LRN - P - C(27 x 27 x 256) - LRN - P -
C(13 x 13 x 384) - C(13 x 13 x 384) - C(13 x 13 x 256) - P - F(4096) -
F(4096) - F(2k)
– 活性化関数には全てReLu
– フィルタサイズは, 下から順位, 11x11, 5x5, 3x3, 3x3
9
複数DCNNの直列接続
• DCNNの⼊⼒が220x220なので荒い画像しか⾒れない.
• 各関節の正確な位置推定のため, 同じアーキテクチャのDCNNを複数, 直列
に接続する.
– パラメータはステージごとに⽤意(全体で共有はしない)
• 1つ下のステージの予測結果と、正解のズレ(yi
(s-1) - yi)の平均と分散を
計算し, これらをパラメータとして1つ正規分布と使って⽣成したノイズを
正解に付加して予測結果とする
• 各ステージのBounding boxは, 予測値(y)と, 体幹部の⼤きさ(diam)で取得
10
訓練
• データ前処理
– 画像から⼈物領域切り出し.
– データセット内のデータを⼈物領域切り出した画像上の座標に変換.
• 誤差関数
– 予測ベクトルψ(x;θ)と正解ベクトルyの間のユークリッド距離
– K個の関節ごとのL2距離の合計(MSE)
• 勾配降下法:Momentum SGD or Adam
• Data Augumentation: ランダムCrop, ランダムノイズ
11
実装説明
• https://github.com/DLHacks/DeepPose
12

More Related Content

PDF
Deep Learningによる超解像の進歩
PDF
Attentionの基礎からTransformerの入門まで
PDF
DeepPose: Human Pose Estimation via Deep Neural Networks
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PPTX
[DL輪読会]Objects as Points
PDF
Action Recognitionの歴史と最新動向
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PDF
Transformerを多層にする際の勾配消失問題と解決法について
Deep Learningによる超解像の進歩
Attentionの基礎からTransformerの入門まで
DeepPose: Human Pose Estimation via Deep Neural Networks
【メタサーベイ】Vision and Language のトップ研究室/研究者
[DL輪読会]Objects as Points
Action Recognitionの歴史と最新動向
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Transformerを多層にする際の勾配消失問題と解決法について

What's hot (20)

PPTX
画像処理AIを用いた異常検知
PDF
全力解説!Transformer
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
3次元レジストレーション(PCLデモとコード付き)
PDF
深層学習によるHuman Pose Estimationの基礎
PDF
画像認識モデルを作るための鉄板レシピ
PPTX
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
PDF
【メタサーベイ】Neural Fields
PDF
画像生成・生成モデル メタサーベイ
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PDF
動画認識サーベイv1(メタサーベイ )
PDF
点群深層学習 Meta-study
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
SSII2019企画: 点群深層学習の研究動向
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PPTX
畳み込みニューラルネットワークの研究動向
PPTX
Curriculum Learning (関東CV勉強会)
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
画像処理AIを用いた異常検知
全力解説!Transformer
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
3次元レジストレーション(PCLデモとコード付き)
深層学習によるHuman Pose Estimationの基礎
画像認識モデルを作るための鉄板レシピ
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
【メタサーベイ】Neural Fields
画像生成・生成モデル メタサーベイ
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
[DL輪読会]Pay Attention to MLPs (gMLP)
動画認識サーベイv1(メタサーベイ )
点群深層学習 Meta-study
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
SSII2019企画: 点群深層学習の研究動向
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
畳み込みニューラルネットワークの研究動向
Curriculum Learning (関東CV勉強会)
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向

Similar to [DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks (20)

PPTX
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
PPTX
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
PPTX
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
PDF
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
PPTX
よわよわPCによる姿勢推定 -PoseNet-
PPTX
[DL輪読会]Human Pose Estimation @ ECCV2018
PPTX
2018 07 02_dense_pose
PDF
PFI成果発表会2014発表資料 Where Do You Look?
PPTX
Sprint16 papers research
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PDF
[DL Hacks 実装]Representation Learning by Rotating Your Faces
PDF
AIoTLT 組み込み人姿勢検出CNN
PPTX
CVPR Festival
PPTX
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
PPTX
Eccv2018 report day2
PDF
CVPR2017勉強会 Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
PDF
【メタサーベイ】Face, Gesture, and Body Pose
PDF
CVPR2011 Festival PDF
PDF
[DL輪読会]CVPR2019:Weakly-Supervised Discovery of Geometry-Aware Representation ...
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
よわよわPCによる姿勢推定 -PoseNet-
[DL輪読会]Human Pose Estimation @ ECCV2018
2018 07 02_dense_pose
PFI成果発表会2014発表資料 Where Do You Look?
Sprint16 papers research
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
[DL Hacks 実装]Representation Learning by Rotating Your Faces
AIoTLT 組み込み人姿勢検出CNN
CVPR Festival
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
Eccv2018 report day2
CVPR2017勉強会 Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
【メタサーベイ】Face, Gesture, and Body Pose
CVPR2011 Festival PDF
[DL輪読会]CVPR2019:Weakly-Supervised Discovery of Geometry-Aware Representation ...

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks