DEEP LEARNING JP
[DL Papers]
BlobGAN: Spatially Disentangled Scene Representations
Presenter: Yuki Kondo
(Toyota Motor Corporation, Research Frontier Center)
http://deeplearning.jp/
2022.10.21
1
Yuki Kondo @ TOYOTA, Frontier Research Center
2
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
3
書誌情報
• 論文名
BlobGAN: Spatially Disentangled Scene Representations (ECCV2022)
Keywords: scenes, generative models, mid-level representations
• 著者
Dave Epstein1, Taesung Park2, Richard Zhang2, Eli Shechtman2, Alexei Efros1
1UC Berkeley, 2Adobe Research
• URL
論文※:https://arxiv.org/abs/2205.02837
プロジェクトページ:https://dave.ml/Blobgan/
コード:https://github.com/dave-epstein/Blobgan
Demo : https://colab.research.google.com/drive/1NnMe6pmsKxaDCWdFcFTDdjIUdZUKmfAL?usp=sharing
4
※出典が明記されていない図表は当論文より引用
論文概要
[ タスク ]
• 画像生成・編集
• オブジェクトの概念をBlobで表現.
5
https://dave.ml/Blobgan/static/vids/move_beds/final/5.mp4 (最終閲覧:2022/10/12)
https://dave.ml/Blobgan/st
atic/vids/clone/final/3.mp4
(最終閲覧:2022/10/12)
https://dave.ml/Blobgan/sta
tic/vids/clone/final/1.mp4
(最終閲覧:2022/10/12)
Blob: 斑点,染み
- Clone -
- Move -
- Resize -
https://dave.ml/Blobgan/static/vids/shrink_beds/final/5.mp4 (最終閲覧:2022/10/12)
論文概要
[ 問題提起 ]
• 解析と合成タスクのためのシーンモデリング
• ClassifierやDiscriminator:「台所」などのシーンクラスと「椅子」などの
オブジェクトクラスを同列に扱っている.
• Semantic segmentation, pix2pix など:各画素に対応する教師データが必要であり,
ボトムアップ的.
• 条件つき画像生成
• 教示された特定のクラスのための中間表現にとどまっている
• Disentanglement
• シーンとオブジェクトを分離した形でそれぞれを独立に編集する多くの研究は
教師データが必要.
6
[ 提案 ]
• 教師無しの中間レベル表現
(中間レベル:画像単位でもピクセル単位でもないその間の表現)
• オブジェクトの位置や大きさなどが表現された中間表現を操作する
高品質かつ直感的なインターフェース
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
7
中間レベルのシーン表現
• シーン表現の様々な検討
• Top-down : 画像全体を表現する
• Bottom-up : ピクセル単位で表現する
• Mid-level : 双方のシーン表現を用いたり,その中間的な粒度で表現する
8
https://youtu.be/KpUv82VsU5k (最終閲覧:2022/10/12)
Blobでのシーン表現
• BlobWorld [C. Carson+ VISUAL1999]
• シーン表現をガウス型Blobで表現
• 領域ベースの画像検索システムとして活用
9
BlobWorld [C. Carson+ VISUAL1999]
このBlobのアイデアに「深度順序の符号化」を加えた表現を生成モデルに適応
条件付き画像生成
• StyleGAN [ T. Karras+ CVPR2019]
• 潜在空間𝒁をマッピングネットワークで
中間潜在空間𝑾に変換.
⇒ 表現のDisentanglementを実現
• 階層ごとにwをスタイル情報として加える.
10
StyleGAN [T. Karras+ CVPR2019]
StyleGAN2をベースモデルとし,Blobをスタイル表現wとして活用する
• StyleGAN2 [ T. Karras+ CVPR2020]
• 生成画像の品質向上のために
• スタイル情報の加え方
• Generator, Discriminator内の拡大・縮小機構
などを再考.
Generator
Discriminator
StyleGAN [T. Karras+ CVPR2020]
Disentanglement
• Disentanglementとは?
• 生成モデルで獲得される多様体表現によって,形状や色などの様々な属性のもつれをほどくこと
• 教師あり,教師なしの双方で研究されている.
11
GAN Dissection [D. Bau+ ICLR2019]
複雑なシーンにおいても意味的な教示なしに,
これらの要素が自然に表れる表現を提案する
Hessian Penalty [T. Karras+ ECCV2020]
https://gandissect.csail.mit.edu/img/demo_short3.gif
(最終参照日2022/10/12)
- 教師ありの先行研究例 - - 教師なしの先行研究例-
12
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
提案手法概要
[ 提案手法 ]
• 中間シーンを空間的深度順序が考慮されたガウス型「Blob」の集合体として
モデリング
• 教師無しでBlob表現を獲得
• Blob集合をエンコード情報とし,画像をデコーディング
• デコーダのベースモデルはStyleGAN2 [ T.Karras+ CVPR2020]
13
• 以下のパラメータでBlobを表現
• 中心座標
• スケール
• アスペクト比
• 回転角
• 構造特徴量
• スタイル特徴量
Layout network FとBlob表現
14
として一つのBlobを表現
がFより出力
Blob集合
Blobを表現するパラメータ
k : Blobの数
(ハイパーパラメータ)
空間解像度は生成画像と同じ
1. 各Blobの不透明度oを表現するために,Blob中心からの
各グリッドのマハラノビス距離dを計算
2. スケールと距離から,位置の不透明度を計算
• シグモイドを適用しているため,sを−∞に近づけることで,Blobの削除が可能
3. アルファ合成により,それぞれのBlobの不透明度マップを計算
4. 背景特徴量𝜙0, 𝜓0に対し, 𝑜0 = 1とし各グリッドの特徴量は
𝑘 + 1 チャネルの𝛼𝑖の凸結合で表現される.
Blobのアルファ合成による不透明度表現
15
いわゆる画像の
アルファチャネルと同じ働き
c = 0.02 controls Blob edge sharpness
xgrid
d
Blobの占有率を表現できるため,z方向の前後関係の表現が可能
⇒ オクルージョンとオブジェクトの関係を自然に表現
生成器GへのBlob表現の入力
• 16 x 16にダウンスケールした構造ベクトルで構成されるマップΦを
Gの初期層への入力とする
*解像度増加の関係を合わせるために,ベースモデルから畳み込み2層を削除
• スタイルベクトルで構成されるマップΨ𝑙×𝑙 (𝑙 ∈ {16,32, … , 256})を
それぞれの対応する畳み込み層に入力
16
Φ
Ψ16×16 Ψ256×256
…
Disentanglementの促進
• Blob表現によるDisentanglement
• あるBlobが活性化している領域は同じ特徴量ベクトルが支配的であり,その領域は
自己類似性をもつ画像領域⇒シーン内のオブジェクト表現を促進
• Gの畳み込みの局所性により,Blobとオブジェクトの位置関係に強い影響を与える.
• レイアウト(Blobの位置,形状,サイズ)と外観(Blobの特徴)を分離
• 学習中のβへのノイズ付与によるDisentanglementの促進
• Blobのパラメータに独立なノイズ𝛿𝑥, 𝛿𝑠, 𝛿𝜃を加える
⇒ Blobの正確な配置や形状に依存した解への収束を防ぎ,本質的な
オブジェクト発見を促進
• その他の以下のような外乱条件の付与は実験的に検証
• Blobのスタイルベクトルの並べ替え
• Blobの削除
17
18
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
オブジェクトの移動
• LSUN シーンデータセット [F. Yu+ arXiv2015]で検証
• 移動に伴うオクルージョン関係の変更が適用されている
19
https://dave.ml/Blobgan/static/vids/move_
beds/final/5.mp4 (最終閲覧:2022/10/12)
- Movie -
:オクルージョン消失領域 :オクルージョン発生領域
リサイズ,移動,削除,追加,スタイル変換
• オブジェクトのリサイズ,移動,削除,追加,スタイル変換を独立に表現
20
マルチカテゴリデータセットへの適応
• 挑戦的なシーンに対しても,テーブルの削除に成功
21
その他の操作
• オブジェクト複製や入れ替えに成功
22
Blobとオブジェクトクラスの関連性解析
• Blobを削除し,既存のセグメンテーションモデルで消失したクラスを評価
• 特にtableやpainting, lightなどが独立な表現を獲得できている
• 各Blobの局在化⇒各オブジェクトの局在化を考察できる
23
クラスとBlobの相関 Blobの中心点の分布
提案手法によるシーンオートコンプリートの解析
• シーンオートコンプリート:オブジェクトのレイアウトに関して,存在する同時分布の制約を
満たすシーンのサンプリングを実現する機能
• 例:ある家具が存在するとき,その家具に対応してレイアウトが制限される
• 特定の背景とあるオブジェクトの特徴量に固定し,初期化.その他のBlobを最適化させることで
オートコンプリートを実施.
• 定量的にも知覚的品質の優れた
自然な画像の生成に成功.
24
*最適化はRTX3090で約1秒で完了
25
1.書誌情報・概要
2.先行研究
3.提案手法
4.実験結果
5.結論・所感
Section
結論・所感
[ 結論 ]
• シーンの空間的に分離された対象の効率的なBlob表現を提案
• Blobの位置,大きさ,形状等がDisentanglementに大きく寄与
• ナイーブな表現にもかかわらず,ロバストな表現を獲得
[ 所感 ]
• 教師無しで,Blob操作とオブジェクトの対応が,人間が直感的に想像する状態に
最適化されることに驚いた.
• シンプルなアイデアであるため,多くの発展が考えられる
• Blob生成のためのベクトルに学習済みのCLIP[A. Radford+ PMLR2021]で自然言語空間と対応づける.
• Neural Fields を適用させ,Blob表現を3次元化 (ObjectNeRF[B. Yang+ ICCV2021]と相性が良い?)
• Blob表現の改善の余地
• 背景にも意味的なセグメントがあるはず(壁と床など)で,これらの分離もできるとさらに良い
• 減衰する楕円が最適か?⇒モデルの複雑性とDisentanglementの関係
• Blobの数は固定せず,Bottom-upとTop-downを行き来することが人間の理解に近い?
• Bottom-upとTop-downの双方利用は[Ohta+ IJCPR1978]などでも有効であると言及されている.
26
27
補足資料
実験結果:オブジェクトの削除
• ベットとベット以外を削除
• ベットがある部屋のデータセットで学習させたが,ベットの削除に成功.
28
実験結果:実画像からのBlob最適化と編集可能性
• 実画像に近づけるようにBlobを最適化⇒そのBlobの操作性を評価
• [D.Roich+ ACM2022]では多様体空間が適切に表現されず,編集が制限されると元論文で言及
• 提案手法は編集が正しく行え,ロバストな表現であることが確認された
29

More Related Content

PDF
【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)
PDF
【DL輪読会】Segment Anything
PPTX
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
PPTX
【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model
PDF
Transformer メタサーベイ
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
PPTX
【DL輪読会】HexPlaneとK-Planes
PDF
三次元表現まとめ(深層学習を中心に)
【DL輪読会】GAN-Supervised Dense Visual Alignment (CVPR 2022)
【DL輪読会】Segment Anything
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model
Transformer メタサーベイ
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】HexPlaneとK-Planes
三次元表現まとめ(深層学習を中心に)

What's hot (20)

PDF
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
PDF
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
PDF
Semantic segmentation
PDF
論文紹介 Pixel Recurrent Neural Networks
PDF
実装レベルで学ぶVQVAE
PDF
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
PPTX
モデル高速化百選
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
PPTX
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
PDF
自己教師学習(Self-Supervised Learning)
PDF
動画認識サーベイv1(メタサーベイ )
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
Sift特徴量について
PDF
画像認識モデルを作るための鉄板レシピ
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
PPTX
物体検出の歴史(R-CNNからSSD・YOLOまで)
PPTX
Transformerを雰囲気で理解する
ICLR2019 読み会in京都 ICLRから読み取るFeature Disentangleの研究動向
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
Semantic segmentation
論文紹介 Pixel Recurrent Neural Networks
実装レベルで学ぶVQVAE
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【DL輪読会】ViT + Self Supervised Learningまとめ
モデル高速化百選
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
自己教師学習(Self-Supervised Learning)
動画認識サーベイv1(メタサーベイ )
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Sift特徴量について
画像認識モデルを作るための鉄板レシピ
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
物体検出の歴史(R-CNNからSSD・YOLOまで)
Transformerを雰囲気で理解する
Ad

Similar to 【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations (14)

PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
[DL輪読会]Details or Artifacts: A Locally Discriminative Learning Approach to Re...
PPTX
【DL輪読会】Reflash Dropout in Image Super-Resolution
PPTX
[DL輪読会]ODT: Online Decision Transformer
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
PDF
ROSCon2019 参加報告:オーバビュー+α
PDF
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
PPTX
【DL輪読会】Emergent World Representations: Exploring a Sequence ModelTrained on a...
PPTX
[DL輪読会]"Omnimatte: Associating Objects and Their Effects in Video"
PDF
「オープンなジオデータを考える」資料
PDF
宇宙データを使った世界同時開催ハッカソン「International Space Apps Challenge」の日本開催
PDF
20140801ACL2014読み会
PDF
DYNAMIXEL ROS Package
PPTX
[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
[DL輪読会]Details or Artifacts: A Locally Discriminative Learning Approach to Re...
【DL輪読会】Reflash Dropout in Image Super-Resolution
[DL輪読会]ODT: Online Decision Transformer
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
ROSCon2019 参加報告:オーバビュー+α
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
【DL輪読会】Emergent World Representations: Exploring a Sequence ModelTrained on a...
[DL輪読会]"Omnimatte: Associating Objects and Their Effects in Video"
「オープンなジオデータを考える」資料
宇宙データを使った世界同時開催ハッカソン「International Space Apps Challenge」の日本開催
20140801ACL2014読み会
DYNAMIXEL ROS Package
[DL輪読会]GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PDF
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...

【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations