SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
論文紹介:
GET3D: A Generative Model of High Quality 3D
Textured Shapes Learned from Images
Ryosuke Ohashi, bestat Corp.
http://deeplearning.jp/
書誌情報
2
 ※紹介論文からの引用は省略させていただきます
 NeurIPS 2022(2022年12月)採択論文
 DreamFusionと並んで巷で話題の3Dモデル生成に関する論文
背景:3Dモデルを大量生成したい
3
 今後3Dモデルの活用シーンが爆増する?
 メタバース
 デジタルツイン
https://www.nvidia.com/ja-jp/omniverse/
背景:AIで大量生成したい
4
 AIで3Dモデルを大量生成したい!
 人手モデリングではスケールに限界あり
 専門モデラーの確保
 モデリング工数
 品質管理
https://www.turbosquid.com/ja/3d-
model/animal
本論文の趣旨
5
 GET3Dという名前の3Dモデル生成モデルを提案
 a Generative Model of Explicit Textured 3D Meshes
 既存の3Dモデル生成モデルより高品質なテクスチャ付き3Dメッシュを
大量生成できる
 3Dモデルの生成モデルを2D画像データのみ使って構築できる
 ※本論文ではテクニカルな理由により,3Dモデルをレンダリングして得た2D画像
を使っている
6
7
https://nv-tlabs.github.io/GET3D/
補足:3Dメッシュ,テクスチャ
8
メッシュ
ポリゴンメッシュの略.ポリゴンと略すことも多い.
ポリゴン(多角形)を並べて形状を表したもののこと.
https://en.wikipedia.org/wiki/Polygon_mes
h
https://entry.cgworld.jp/terms/UV%E5%BA%A
7%E6%A8%99%E7%B3%BB.html
テクスチャ
メッシュに画像をマッピング投影して見た目や質感を表したもののこと.
GET3Dの手法概要
9
 ②warped SDFとテクスチャ場が出てくる
 deep marching tetrahedraでSDFを3Dメッシュ化
 シード「w1」と「w2」を入れる
①「形状」と「見た目」の生成器にシード「w1」と「w2」を入れ
る
 ③微分可能レンダラーでテクスチャ付き3Dメッシュを様々な方向から2D画像
にレンダリング
 ④StyleGANを使って,レンダリングされた画像群が教師2D画像群の分布に
マッチするよう訓練する
補足:SDF, marching tetrahedra
10
https://arxiv.org/abs/1901.05103
SDF (Signed Distance Function)
ある曲面への最短距離を与える関数.
曲面の外側では正,内側では負の値をとる.
f(x) = 0 を満たすxの集合が曲面を表している.
Marching Tetrahedra
SDFが表す曲面をメッシュ化するアルゴリズム.
Marching Cubesという直方体を使ったバージョンが有名.
https://nv-tlabs.github.io/DMTet/
手法の要点
11
 基本的には既存研究や論文著者らの先行研究を組み合わせたアルゴリズムになっている
 DMTET x StyleGAN
 「変形可能メッシュ + 微分可能ラスタライザ」という計算コストが低くかつそれなりに表現力・自由度が高い構成をとること
で,以下のメリットを実現している
 高解像度で3Dモデルをパラメトライズ・高解像度でレンダリングできるので形状・テクスチャのディテールまで捉えられ
る
 生成モデルの訓練時間が比較的短くてすむ
実験:CGデータセットを使った訓練
12
 「あるクラス」の3Dモデル群をレンダリングして得られる2D画像群を使ってGET3Dを訓練する
 ShapeNetの車モデル約10K個からレンダリングした約200K枚の画像
 TurboSquidの動物モデル約500個からレンダリングした約50K毎の画像
 …
 3Dモデル生成モデルの形状・見た目に関する評価指標で既存研究より良好な結果が得られた
 特にバイクのような非常に複雑な形のものについて顕著な向上が見られた
13
既存研究との比較(形状品質)
14
3D awareなシード補間
その他の応用
15
マテリアル付き3Dモデルの生成モ
デル
テクスチャにマテリアルパラメー
ターを入れてIBL対応したレンダ
ラーで逆レンダリングする
text-guidedな3Dモデル生成モデル
CLIPでの埋め込みを使って生成モ
デルをfine tuningする
制限事項
16
 「2D画像群のみを使って」といいつつ,2Dシルエットやカメラのキャリブレーションパラメーターを
活用している
 セグメンテーションやカメラ位置推定などの技術と組み合わせてリアルの2D画像群に適用できるよ
うにできないか?
 生成器の生成対象が(生成器毎に)特定クラスのオブジェクトに限定されている
 複数クラス対応することでより多様な概念を表現できるようにできないか?
17
まとめ,感想
 まとめ
 既存手法よりも高品質な3Dモデル生成モデル「GET3D」を提案
 変形可能メッシュと軽量なレンダラーを使って逆レンダリングすることで従
来より高解像度な3Dモデルの生成を実現した
 感想
 可能な限り高速で効果のある手法を使って新しい結果を生み出すところが
NVIDIAらしい研究で流石だと思った
 Appendixにいろんな実験結果や詳細が書かれていてとても勉強になる
 生成される3Dモデルの品質や作り込み具合はまだまだ向上の余地があるので
今後の研究の発展が楽しみ

More Related Content

PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PDF
自己教師学習(Self-Supervised Learning)
PDF
Automatic Mixed Precision の紹介
PDF
【メタサーベイ】Video Transformer
PDF
Semantic segmentation
PDF
ドメイン適応の原理と応用
PDF
Point net
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
三次元点群を取り扱うニューラルネットワークのサーベイ
自己教師学習(Self-Supervised Learning)
Automatic Mixed Precision の紹介
【メタサーベイ】Video Transformer
Semantic segmentation
ドメイン適応の原理と応用
Point net
【DL輪読会】A Path Towards Autonomous Machine Intelligence

What's hot (20)

PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PPTX
画像キャプションの自動生成
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PPTX
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
Transformer メタサーベイ
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PDF
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
PDF
深層生成モデルを用いたマルチモーダル学習
PDF
PRML学習者から入る深層生成モデル入門
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
Transformerを雰囲気で理解する
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
画像キャプションの自動生成
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Transformer メタサーベイ
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】ViT + Self Supervised Learningまとめ
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
畳み込みニューラルネットワークの高精度化と高速化
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
[第2回3D勉強会 研究紹介] Neural 3D Mesh Renderer (CVPR 2018)
深層生成モデルを用いたマルチモーダル学習
PRML学習者から入る深層生成モデル入門
[DL輪読会]Dense Captioning分野のまとめ
【メタサーベイ】基盤モデル / Foundation Models
Transformerを雰囲気で理解する
トピックモデルの評価指標 Perplexity とは何なのか?
Ad

Similar to 【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images (20)

PDF
DMS2017~3Dプリンタまとめ~
PDF
DMS2017まとめ
PDF
【de:code 2020】 IT インフラをモダナイズ?今、検討すべきクラウドの活用方法
PDF
【de:code 2020】 ついに来た!! 普通のマシンで高品質な 3D データがヌルヌル動く Azure Remote Rendering
PDF
3Dリッチコンテンツビジネス活用のご提案ver3.1
PPTX
3Dリッチコンテンツビジネス活用のご提案ver3.1
PPTX
cvsaisentan20141004 kanezaki
PDF
3DCAD入門~3DCADで出来ること~
PPTX
宇宙建造物と3Dプリント―3D Printing Corporation
PDF
KyotoLT_Online_27.pdf
PDF
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
PDF
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
PPTX
3Dリッチコンテンツビジネス活用のご提案ver3.1
PDF
【CVPR 2020 メタサーベイ】Neural Generative Models
PPTX
Rustで3D graphics programming
PPTX
デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~
PDF
Cocos2d x-sprite3d
PDF
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
PDF
ドメイン駆動設計とは何か 【入門編】
PPTX
Make the 3D Wapuu model and printing by the 3D printer.
DMS2017~3Dプリンタまとめ~
DMS2017まとめ
【de:code 2020】 IT インフラをモダナイズ?今、検討すべきクラウドの活用方法
【de:code 2020】 ついに来た!! 普通のマシンで高品質な 3D データがヌルヌル動く Azure Remote Rendering
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
cvsaisentan20141004 kanezaki
3DCAD入門~3DCADで出来ること~
宇宙建造物と3Dプリント―3D Printing Corporation
KyotoLT_Online_27.pdf
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
3Dリッチコンテンツビジネス活用のご提案ver3.1
【CVPR 2020 メタサーベイ】Neural Generative Models
Rustで3D graphics programming
デジタルトランスフォーメーション時代を生き抜くためのビジネス力 ~ AI、Advanced Analytics の使いどころ ~
Cocos2d x-sprite3d
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
ドメイン駆動設計とは何か 【入門編】
Make the 3D Wapuu model and printing by the 3D printer.
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...

【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images

Editor's Notes

  • #2: Beyond Reward Based End-to-End RL: Representation Learning and Dataset Optimization Perspective