Upload
Download free for 30 days
Login
Submit Search
【DL輪読会】Monocular real time volumetric performance capture
0 likes
540 views
Deep Learning JP
2021/03/26 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
Read more
1 of 35
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
More Related Content
PDF
CV分野におけるサーベイ方法
Hirokatsu Kataoka
PDF
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
PDF
点群深層学習 Meta-study
Naoya Chiba
PPTX
backbone としての timm 入門
Takuji Tahara
PDF
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
PDF
【DL輪読会】Segment Anything
Deep Learning JP
PPTX
近年のHierarchical Vision Transformer
Yusuke Uchida
PDF
Transformer メタサーベイ
cvpaper. challenge
CV分野におけるサーベイ方法
Hirokatsu Kataoka
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
点群深層学習 Meta-study
Naoya Chiba
backbone としての timm 入門
Takuji Tahara
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
【DL輪読会】Segment Anything
Deep Learning JP
近年のHierarchical Vision Transformer
Yusuke Uchida
Transformer メタサーベイ
cvpaper. challenge
What's hot
(20)
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
PPTX
[DL輪読会]Objects as Points
Deep Learning JP
PDF
全力解説!Transformer
Arithmer Inc.
PDF
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
PPTX
強化学習アルゴリズムPPOの解説と実験
克海 納谷
PDF
3D CNNによる人物行動認識の動向
Kensho Hara
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
PDF
画像認識の初歩、SIFT,SURF特徴量
takaya imai
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
PDF
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
PDF
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
PPTX
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
Kosuke Shinoda
PPTX
モデル高速化百選
Yusuke Uchida
PPTX
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
PPTX
Structure from Motion
Ryutaro Yamauchi
PDF
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
Deep Learning JP
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
[DL輪読会]Objects as Points
Deep Learning JP
全力解説!Transformer
Arithmer Inc.
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
強化学習アルゴリズムPPOの解説と実験
克海 納谷
3D CNNによる人物行動認識の動向
Kensho Hara
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
画像認識の初歩、SIFT,SURF特徴量
takaya imai
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
Kosuke Shinoda
モデル高速化百選
Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
Structure from Motion
Ryutaro Yamauchi
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
Deep Learning JP
Ad
Similar to 【DL輪読会】Monocular real time volumetric performance capture
(20)
PPTX
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Kohei Nishimura
PDF
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Morpho, Inc.
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
PPTX
cvsaisentan20141004 kanezaki
kanejaki
PPT
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
PDF
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
Shunsuke Ono
PPTX
Eccv2018 report day2
Atsushi Hashimoto
PPTX
CVPR2018 参加報告(速報版)初日
Atsushi Hashimoto
PDF
SLAMチュートリアル大会資料(ORB-SLAM)
Masaya Kaneko
PPTX
Eccv2018 report day3
Atsushi Hashimoto
PPTX
Eccv2018 report day4
Atsushi Hashimoto
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
PDF
CVPR2011 Festival PDF
Masafumi Noda
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
PDF
【2015.07】(1/2)cvpaper.challenge@CVPR2015
cvpaper. challenge
PPTX
ORB-SLAMの手法解説
Masaya Kaneko
PDF
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
Mai Nishimura
PDF
【2015.08】(1/5)cvpaper.challenge@CVPR2015
cvpaper. challenge
PDF
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
harmonylab
PPTX
Cvpr2018 参加報告(速報版)3日目
Atsushi Hashimoto
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Kohei Nishimura
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Morpho, Inc.
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
cvsaisentan20141004 kanezaki
kanejaki
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
Shunsuke Ono
Eccv2018 report day2
Atsushi Hashimoto
CVPR2018 参加報告(速報版)初日
Atsushi Hashimoto
SLAMチュートリアル大会資料(ORB-SLAM)
Masaya Kaneko
Eccv2018 report day3
Atsushi Hashimoto
Eccv2018 report day4
Atsushi Hashimoto
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
CVPR2011 Festival PDF
Masafumi Noda
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
【2015.07】(1/2)cvpaper.challenge@CVPR2015
cvpaper. challenge
ORB-SLAMの手法解説
Masaya Kaneko
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
Mai Nishimura
【2015.08】(1/5)cvpaper.challenge@CVPR2015
cvpaper. challenge
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
harmonylab
Cvpr2018 参加報告(速報版)3日目
Atsushi Hashimoto
Ad
More from Deep Learning JP
(20)
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】Monocular real time volumetric performance capture
1.
1 Monocular Real-Time Volumetric
Performance Capture Naruya Kondo (もうすぐM1)
2.
2 https://twitter.com/shiropen2/status/1374239206415822848 https://twitter.com/r_natsume/status/1232870844738633728
3.
3
4.
Monocular Real-Time Volumetric
Performance Capture • ECCV 2020, SIGGRAPH 2020 real-time live best in show award • 著者:Ruilong Li, Yuliang Xiu, Shunsuke Saito, Zeng Huang, Kyle Olszewski, Hao Li • 機関:University of Southern California, Pinscreen • スポンサー:DARPA, Adobe, Sony… • モチベーション – 「VRがあるのにビデオ会議が盛んなの、時代錯誤のはずだよね。」 ⇨もっとリアルアバターを便利にしよう • ひとことで言うと – PIFuをリアルタイムに動かせるようにした (450倍高速化 (まじか)) 4
5.
PIFu 5
6.
PIFu (ICCV 2019) 6
7.
PIFu • 単眼のRGB画像から3Dモデルを高精度で生成 • ポイント –
陰関数で形を表現(予測)している • Voxelは高解像度無理。推論時にテンプレの形を仮定するとディティールが死ぬ。 – データセットの作り方が賢い (力技感はある) 7
8.
Mesh推定系 / テクスチャ推定系 8
9.
PIFu • 2つのPIFuモジュール(SurfaceとTexture)からなる。 9
10.
データセット • https://renderpeople.com/jp/free-3d-people/ – ⇧すごいリアルな人間モデル+アニメーション •
466体 • yaw軸周りに10度ずつ回転。 – 各角度で、 • ①画像 • ②回転された座標軸での3Dモデル – を学習に使う • 一度学習すれば だれでも使える! 10
11.
Train時 • 画像から、空間の各座標の in/out
と rgb を推定 – CNN(後述)で特徴抽出、z値とconcatしてMLP(後述)で出力 11 x,y,z 512 512 512 x,y 128x128x256 256
12.
Loss • Surface PIFu
の loss • Texture PIFu の loss – Surfaceを単体で学習後、固定してTextureを追加で学習 • Surface側から特徴量をconcatしてくる – 陰関数的には、fv == 0.5 が境界面 • 実際には0/1バイナリ化されて、Marching Cube 法で境界を見つけてつないでいく 12 – Fv, Fc: CNN – fv*(Xi): 真のin/out (0/1) – C(Xi): 真のrgb
13.
Test時 • ① 全格子点で
in/out を予測 • ② inの点群からメッシュを生成 (Marching Cube 法) • ③ メッシュ上の点のみrgbを予測し、頂点に色を付ける 13 x,y,z 512 512 512 x,y 512x512x256 256
14.
Marching Cubes Algorithm •
点群(今回の場合内側だと判定した点群)を適切につないでメッシュを作る方法 – (メッシュは3Dモデルの一般的な表現) • 3D格子上に並んだ点は、局所的には8つのパターンしかない。 • ⇨ それぞれのパターンで、点を内側に内包するように面を引く 14
15.
PIFuHD • CVPR 2020
(Oral) • 解説記事 – https://qiita.com/masataka46/items/d717a9d57eaa44ea197d • ポイント – Front-to-Back inference • Pix2Pixで正面と背面の面法線(表面の向き)を先に予測する – Multi-level PIFu • ネットワークサイズの大きいCNNとMLPを追加で用意してrefineする 15
16.
PIFuHD • Front-to-Back inference –
Pix2Pixで正面と背面の面法線を先に予測する • Multi-level PIFu – ネットワークサイズの大きいCNNとMLPを追加で用意してrefineする 16
17.
本題の PIFu (Enhanced
PIFu?) 17
18.
18
19.
Real Avatar 一派 •
Google (Facebookも) – しっかり不気味の谷感 – https://www.youtube.com/watch?v=anBRroZWfzI • ⇨ 単眼RGBでreal-time real avatarを実現する 19
20.
Enhanced PIFu • PIFuからの改善点
(for 高速化) – Efficient Surface Localization – Direct Rendering – Online Hard Example Mining – ネットワーク周りの工夫 • その他ポイント – 各フレームは独立して処理 • 動画としては扱っていない • 誤差の蓄積を避けたいよね、初期情報に頼るのはよくないよね 20
21.
Efficient Surface Localization •
512x512x512全点でSurface (in/out) を評価するのは大変 (ボトルネックだった) 21 • Octree法(改)で、サンプリング 数を劇的に減らす 一様で疎なサンプリング 境界付近を 重点サンプリング
22.
Efficient Surface Localization 22 一様で疎なサンプリング、 評価 バイナリ化した点 補完した点 境界の候補点(次に評価される) 補完の結果
O > 0 の点と、 その1マス周辺の0が候補になる 赤を実際に評価してバイナリ化 調べた結果結果が裏返った点 まだ調べてない候補点 のうち、結 果が変わった点の周辺の点 (次に評価される) 点線は境界の正解
23.
Efficient Surface Localization •
全点でメッシュを推定した結果と同じ精度のまま、180倍の高速化を達成 – OursはOctree改 23 ⇧ Octree比で36%オフ baselineの点 and Octreeの点 / baselineの点 or Octreeの点 ⇨
24.
Direct Rendering • さようならMesh –
ある方向から見える場所のみ色を推定。(meshでなく)画像として扱う 24
25.
Direct Rendering • (視点に合わせて点群を回転) •
最初に1が現れた点のみ色を評価 – 他の表面の点は無視 25
26.
Online Hard Example
Mining • データの偏りをどうするか – ⇨ Data Augmentation ✖ • domain知識が必要&他のdomainで使えなくなる – ⇨ Online Hard Example Mining • 各データのサンプリング確率を動的に変える – Surfaceでのサンプル確率 ~ – Textureでのサンプル確率 ~ • IoU が0だとexp(10) ≈ 22000 , IoUが1だとexp(3.4) ≈ 30 26 ⇦ 4096点でIoUを評価 0.15 10.0 0.7 0.0
27.
ネットワーク周り • HRNet (Encoderの工夫) •
Soft Z (z座標の与え方の工夫) 27
28.
HRNet(V2) • 岡田さんの輪読会資料が詳しかったです – https://www.slideshare.net/DeepLearningJP2016/dldeep-highresolution-repres entation-learning-for-human-pose-estimation •
segmentation, pose estimation系でSoTA出せるモジュール • 実装はPyTorch (MIT License) 28
29.
HRNet(V2) • もともとのPIFuではhourglassを使っていた 29
30.
Soft Z • Depth
Regression の先行研究を参考に – Deep Ordinal Regression Network for Monocular Depth Estimation (CVPR 2018) – 回帰と分類の間くらいの表現が良いらしい(?) • 0~255のスカラーをN次元のベクトルに変える – (0 < z < 255 ⇨) -1 < Pz < 1 ⇨ 0 < P’z < 1 • z = 192 ⇨ P’z = 0.75 ⇨ 30 - 変なカッコは整数部分 - N = 64 Z47 = 0.75 Z48 = 0.25 Zその他 = 0
31.
データセット (追加分) • PIFu
の 466体 • 追加 – 167体 (ボーンあり) – 32アニメーション • 全部で 466 + 167 * 32 * 3 = 16196 シーン – (各アニメーションからランダムに3フレーム使う) 31
32.
結果 (Surfaceとfps) • Chamfer:点と(一番近い)点の距離 •
P2S (point to surface):点と面の距離 • P, I: surface, color の ohem (online hard example mining) • ohemは “すごく悪い”を防いでいる 32
33.
limitation • まだぼやけてる • 複数人 •
オクルージョン 33
34.
コードが公開されてる • https://github.com/Project-Splinter/MonoPort • (2GPU必要らしい) 34
35.
まとめ • PIFuがリアルタイムになったとは驚き • GAN系でもっとリアルになりそう? •
特定の人について事前学習しなくてよい方向性はどれくらい 伸びしろがあるのだろう…? 35
Download