1
Monocular Real-Time Volumetric Performance Capture
Naruya Kondo (もうすぐM1)
2
https://twitter.com/shiropen2/status/1374239206415822848
https://twitter.com/r_natsume/status/1232870844738633728
3
Monocular Real-Time Volumetric Performance Capture
• ECCV 2020, SIGGRAPH 2020 real-time live best in show award
• 著者:Ruilong Li, Yuliang Xiu, Shunsuke Saito, Zeng Huang, Kyle Olszewski, Hao Li
• 機関:University of Southern California, Pinscreen
• スポンサー:DARPA, Adobe, Sony…
• モチベーション
– 「VRがあるのにビデオ会議が盛んなの、時代錯誤のはずだよね。」
⇨もっとリアルアバターを便利にしよう
• ひとことで言うと
– PIFuをリアルタイムに動かせるようにした (450倍高速化 (まじか))
4
PIFu
5
PIFu (ICCV 2019)
6
PIFu
• 単眼のRGB画像から3Dモデルを高精度で生成
• ポイント
– 陰関数で形を表現(予測)している
• Voxelは高解像度無理。推論時にテンプレの形を仮定するとディティールが死ぬ。
– データセットの作り方が賢い (力技感はある)
7
Mesh推定系 / テクスチャ推定系
8
PIFu
• 2つのPIFuモジュール(SurfaceとTexture)からなる。
9
データセット
• https://renderpeople.com/jp/free-3d-people/
– ⇧すごいリアルな人間モデル+アニメーション
• 466体
• yaw軸周りに10度ずつ回転。
– 各角度で、
• ①画像
• ②回転された座標軸での3Dモデル
– を学習に使う
• 一度学習すれば
だれでも使える!
10
Train時
• 画像から、空間の各座標の in/out と rgb を推定
– CNN(後述)で特徴抽出、z値とconcatしてMLP(後述)で出力
11
x,y,z
512
512
512
x,y
128x128x256
256
Loss
• Surface PIFu の loss
• Texture PIFu の loss
– Surfaceを単体で学習後、固定してTextureを追加で学習
• Surface側から特徴量をconcatしてくる
– 陰関数的には、fv == 0.5 が境界面
• 実際には0/1バイナリ化されて、Marching Cube 法で境界を見つけてつないでいく
12
– Fv, Fc: CNN
– fv*(Xi): 真のin/out (0/1)
– C(Xi): 真のrgb
Test時
• ① 全格子点で in/out を予測
• ② inの点群からメッシュを生成 (Marching Cube 法)
• ③ メッシュ上の点のみrgbを予測し、頂点に色を付ける
13
x,y,z
512
512
512
x,y
512x512x256
256
Marching Cubes Algorithm
• 点群(今回の場合内側だと判定した点群)を適切につないでメッシュを作る方法
– (メッシュは3Dモデルの一般的な表現)
• 3D格子上に並んだ点は、局所的には8つのパターンしかない。
• ⇨ それぞれのパターンで、点を内側に内包するように面を引く
14
PIFuHD
• CVPR 2020 (Oral)
• 解説記事
– https://qiita.com/masataka46/items/d717a9d57eaa44ea197d
• ポイント
– Front-to-Back inference
• Pix2Pixで正面と背面の面法線(表面の向き)を先に予測する
– Multi-level PIFu
• ネットワークサイズの大きいCNNとMLPを追加で用意してrefineする
15
PIFuHD
• Front-to-Back inference
– Pix2Pixで正面と背面の面法線を先に予測する
• Multi-level PIFu
– ネットワークサイズの大きいCNNとMLPを追加で用意してrefineする
16
本題の PIFu (Enhanced PIFu?)
17
18
Real Avatar 一派
• Google (Facebookも)
– しっかり不気味の谷感
– https://www.youtube.com/watch?v=anBRroZWfzI
• ⇨ 単眼RGBでreal-time real avatarを実現する 19
Enhanced PIFu
• PIFuからの改善点 (for 高速化)
– Efficient Surface Localization
– Direct Rendering
– Online Hard Example Mining
– ネットワーク周りの工夫
• その他ポイント
– 各フレームは独立して処理
• 動画としては扱っていない
• 誤差の蓄積を避けたいよね、初期情報に頼るのはよくないよね
20
Efficient Surface Localization
• 512x512x512全点でSurface (in/out) を評価するのは大変 (ボトルネックだった)
21
• Octree法(改)で、サンプリング
数を劇的に減らす
一様で疎なサンプリング
境界付近を
重点サンプリング
Efficient Surface Localization
22
一様で疎なサンプリング、
評価
バイナリ化した点
補完した点
境界の候補点(次に評価される)
補完の結果 O > 0 の点と、
その1マス周辺の0が候補になる
赤を実際に評価してバイナリ化
調べた結果結果が裏返った点
まだ調べてない候補点 のうち、結
果が変わった点の周辺の点
(次に評価される)
点線は境界の正解
Efficient Surface Localization
• 全点でメッシュを推定した結果と同じ精度のまま、180倍の高速化を達成
– OursはOctree改
23
⇧
Octree比で36%オフ
baselineの点 and Octreeの点 / baselineの点 or Octreeの点 ⇨
Direct Rendering
• さようならMesh
– ある方向から見える場所のみ色を推定。(meshでなく)画像として扱う
24
Direct Rendering
• (視点に合わせて点群を回転)
• 最初に1が現れた点のみ色を評価
– 他の表面の点は無視
25
Online Hard Example Mining
• データの偏りをどうするか
– ⇨ Data Augmentation ✖
• domain知識が必要&他のdomainで使えなくなる
– ⇨ Online Hard Example Mining
• 各データのサンプリング確率を動的に変える
– Surfaceでのサンプル確率 ~
– Textureでのサンプル確率 ~
• IoU が0だとexp(10) ≈ 22000 , IoUが1だとexp(3.4) ≈ 30 26
⇦ 4096点でIoUを評価
0.15 10.0
0.7 0.0
ネットワーク周り
• HRNet (Encoderの工夫)
• Soft Z (z座標の与え方の工夫)
27
HRNet(V2)
• 岡田さんの輪読会資料が詳しかったです
– https://www.slideshare.net/DeepLearningJP2016/dldeep-highresolution-repres
entation-learning-for-human-pose-estimation
• segmentation, pose estimation系でSoTA出せるモジュール
• 実装はPyTorch (MIT License)
28
HRNet(V2)
• もともとのPIFuではhourglassを使っていた
29
Soft Z
• Depth Regression の先行研究を参考に
– Deep Ordinal Regression Network for Monocular Depth Estimation (CVPR 2018)
– 回帰と分類の間くらいの表現が良いらしい(?)
• 0~255のスカラーをN次元のベクトルに変える
– (0 < z < 255 ⇨) -1 < Pz < 1 ⇨ 0 < P’z < 1
• z = 192 ⇨ P’z = 0.75 ⇨
30
- 変なカッコは整数部分
- N = 64
Z47 = 0.75
Z48 = 0.25
Zその他 = 0
データセット (追加分)
• PIFu の 466体
• 追加
– 167体 (ボーンあり)
– 32アニメーション
• 全部で 466 + 167 * 32 * 3 = 16196 シーン
– (各アニメーションからランダムに3フレーム使う)
31
結果 (Surfaceとfps)
• Chamfer:点と(一番近い)点の距離
• P2S (point to surface):点と面の距離
• P, I: surface, color の ohem (online hard example mining)
• ohemは “すごく悪い”を防いでいる
32
limitation
• まだぼやけてる
• 複数人
• オクルージョン
33
コードが公開されてる
• https://github.com/Project-Splinter/MonoPort
• (2GPU必要らしい)
34
まとめ
• PIFuがリアルタイムになったとは驚き
• GAN系でもっとリアルになりそう?
• 特定の人について事前学習しなくてよい方向性はどれくらい
伸びしろがあるのだろう…?
35

More Related Content

PDF
CV分野におけるサーベイ方法
PDF
三次元表現まとめ(深層学習を中心に)
PDF
点群深層学習 Meta-study
PPTX
backbone としての timm 入門
PDF
Anomaly detection 系の論文を一言でまとめた
PDF
【DL輪読会】Segment Anything
PPTX
近年のHierarchical Vision Transformer
PDF
Transformer メタサーベイ
CV分野におけるサーベイ方法
三次元表現まとめ(深層学習を中心に)
点群深層学習 Meta-study
backbone としての timm 入門
Anomaly detection 系の論文を一言でまとめた
【DL輪読会】Segment Anything
近年のHierarchical Vision Transformer
Transformer メタサーベイ

What's hot (20)

PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PPTX
[DL輪読会]Objects as Points
PDF
全力解説!Transformer
PDF
Action Recognitionの歴史と最新動向
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PPTX
強化学習アルゴリズムPPOの解説と実験
PDF
3D CNNによる人物行動認識の動向
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PDF
画像認識の初歩、SIFT,SURF特徴量
PDF
自己教師学習(Self-Supervised Learning)
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
PDF
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
PDF
【チュートリアル】コンピュータビジョンによる動画認識
PPTX
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PPTX
モデル高速化百選
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PPTX
Structure from Motion
PDF
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Objects as Points
全力解説!Transformer
Action Recognitionの歴史と最新動向
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
動画認識における代表的なモデル・データセット(メタサーベイ)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習アルゴリズムPPOの解説と実験
3D CNNによる人物行動認識の動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
画像認識の初歩、SIFT,SURF特徴量
自己教師学習(Self-Supervised Learning)
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
【チュートリアル】コンピュータビジョンによる動画認識
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
モデル高速化百選
畳み込みニューラルネットワークの高精度化と高速化
Structure from Motion
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
Ad

Similar to 【DL輪読会】Monocular real time volumetric performance capture (20)

PPTX
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
PDF
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
PPTX
cvsaisentan20141004 kanezaki
PPT
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
PDF
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
PPTX
Eccv2018 report day2
PPTX
CVPR2018 参加報告(速報版)初日
PDF
SLAMチュートリアル大会資料(ORB-SLAM)
PPTX
Eccv2018 report day3
PPTX
Eccv2018 report day4
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PDF
CVPR2011 Festival PDF
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PDF
【2015.07】(1/2)cvpaper.challenge@CVPR2015
PPTX
ORB-SLAMの手法解説
PDF
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
PDF
【2015.08】(1/5)cvpaper.challenge@CVPR2015
PDF
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
PPTX
Cvpr2018 参加報告(速報版)3日目
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvsaisentan20141004 kanezaki
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
Eccv2018 report day2
CVPR2018 参加報告(速報版)初日
SLAMチュートリアル大会資料(ORB-SLAM)
Eccv2018 report day3
Eccv2018 report day4
三次元点群を取り扱うニューラルネットワークのサーベイ
CVPR2011 Festival PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
【2015.07】(1/2)cvpaper.challenge@CVPR2015
ORB-SLAMの手法解説
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
【2015.08】(1/5)cvpaper.challenge@CVPR2015
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
Cvpr2018 参加報告(速報版)3日目
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

【DL輪読会】Monocular real time volumetric performance capture