【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations

DEEP LEARNING JP
[DL Papers]
BlobGAN: Spatially Disentangled Scene Representations
Presenter: Yuki Kondo
(Toyota Motor Corporation, Research Frontier Center)
http://deeplearning.jp/
2022.10.21
1
Yuki Kondo @ TOYOTA, Frontier Research Center

2
１．書誌情報・概要
２．先行研究
３．提案手法
４．実験結果
５．結論・所感
Section

２．先行研究
３．提案手法
４．実験結果
Section
3

書誌情報
• 論文名
BlobGAN: Spatially Disentangled Scene Representations (ECCV2022)
Keywords: scenes, generative models, mid-level representations
• 著者
Dave Epstein1, Taesung Park2, Richard Zhang2, Eli Shechtman2, Alexei Efros1
1UC Berkeley, 2Adobe Research
• URL
論文※：https://arxiv.org/abs/2205.02837
プロジェクトページ：https://dave.ml/Blobgan/
コード：https://github.com/dave-epstein/Blobgan
Demo : https://colab.research.google.com/drive/1NnMe6pmsKxaDCWdFcFTDdjIUdZUKmfAL?usp=sharing
4
※出典が明記されていない図表は当論文より引用

論文概要
[ タスク ]
• 画像生成・編集
• オブジェクトの概念をBlobで表現．
5
https://dave.ml/Blobgan/static/vids/move_beds/final/5.mp4 (最終閲覧：2022/10/12)
https://dave.ml/Blobgan/st
atic/vids/clone/final/3.mp4
(最終閲覧：2022/10/12)
https://dave.ml/Blobgan/sta
tic/vids/clone/final/1.mp4
(最終閲覧：2022/10/12)
Blob: 斑点，染み
- Clone -
- Move -
- Resize -
https://dave.ml/Blobgan/static/vids/shrink_beds/final/5.mp4 (最終閲覧：2022/10/12)

論文概要
[ 問題提起 ]
• 解析と合成タスクのためのシーンモデリング
• ClassifierやDiscriminator：「台所」などのシーンクラスと「椅子」などの
オブジェクトクラスを同列に扱っている．
• Semantic segmentation, pix2pix など：各画素に対応する教師データが必要であり，
ボトムアップ的．
• 条件つき画像生成
• 教示された特定のクラスのための中間表現にとどまっている
• Disentanglement
• シーンとオブジェクトを分離した形でそれぞれを独立に編集する多くの研究は
教師データが必要．
6
[ 提案 ]
• 教師無しの中間レベル表現
(中間レベル：画像単位でもピクセル単位でもないその間の表現)
• オブジェクトの位置や大きさなどが表現された中間表現を操作する
高品質かつ直感的なインターフェース

２．先行研究
３．提案手法
４．実験結果
Section
7

中間レベルのシーン表現
• シーン表現の様々な検討
• Top-down : 画像全体を表現する
• Bottom-up : ピクセル単位で表現する
• Mid-level : 双方のシーン表現を用いたり，その中間的な粒度で表現する
8
https://youtu.be/KpUv82VsU5k (最終閲覧：2022/10/12)

Blobでのシーン表現
• BlobWorld [C. Carson+ VISUAL1999]
• シーン表現をガウス型Blobで表現
• 領域ベースの画像検索システムとして活用
9
BlobWorld [C. Carson+ VISUAL1999]
このBlobのアイデアに「深度順序の符号化」を加えた表現を生成モデルに適応

条件付き画像生成
• StyleGAN [ T. Karras+ CVPR2019]
• 潜在空間𝒁をマッピングネットワークで
中間潜在空間𝑾に変換．
⇒ 表現のDisentanglementを実現
• 階層ごとにwをスタイル情報として加える．
10
StyleGAN [T. Karras+ CVPR2019]
StyleGAN2をベースモデルとし，Blobをスタイル表現wとして活用する
• StyleGAN2 [ T. Karras+ CVPR2020]
• 生成画像の品質向上のために
• スタイル情報の加え方
• Generator, Discriminator内の拡大・縮小機構
などを再考．
Generator
Discriminator
StyleGAN [T. Karras+ CVPR2020]

Disentanglement
• Disentanglementとは？
• 生成モデルで獲得される多様体表現によって，形状や色などの様々な属性のもつれをほどくこと
• 教師あり，教師なしの双方で研究されている．
11
GAN Dissection [D. Bau+ ICLR2019]
複雑なシーンにおいても意味的な教示なしに，
これらの要素が自然に表れる表現を提案する
Hessian Penalty [T. Karras+ ECCV2020]
https://gandissect.csail.mit.edu/img/demo_short3.gif
(最終参照日2022/10/12)
- 教師ありの先行研究例 - - 教師なしの先行研究例-

12
２．先行研究
３．提案手法
４．実験結果
Section

提案手法概要
[ 提案手法 ]
• 中間シーンを空間的深度順序が考慮されたガウス型「Blob」の集合体として
モデリング
• 教師無しでBlob表現を獲得
• Blob集合をエンコード情報とし，画像をデコーディング
• デコーダのベースモデルはStyleGAN2 [ T.Karras+ CVPR2020]
13

• 以下のパラメータでBlobを表現
• 中心座標
• スケール
• アスペクト比
• 回転角
• 構造特徴量
• スタイル特徴量
Layout network FとBlob表現
14
として一つのBlobを表現
がFより出力
Blob集合
Blobを表現するパラメータ
k : Blobの数
(ハイパーパラメータ)
空間解像度は生成画像と同じ

1. 各Blobの不透明度oを表現するために，Blob中心からの
各グリッドのマハラノビス距離dを計算
2. スケールと距離から，位置の不透明度を計算
• シグモイドを適用しているため，sを−∞に近づけることで，Blobの削除が可能
3. アルファ合成により，それぞれのBlobの不透明度マップを計算
4. 背景特徴量𝜙0, 𝜓0に対し， 𝑜0 = 1とし各グリッドの特徴量は
𝑘 + 1 チャネルの𝛼𝑖の凸結合で表現される．
Blobのアルファ合成による不透明度表現
15
いわゆる画像の
アルファチャネルと同じ働き
c = 0.02 controls Blob edge sharpness
xgrid
d
Blobの占有率を表現できるため，z方向の前後関係の表現が可能
⇒ オクルージョンとオブジェクトの関係を自然に表現

生成器GへのBlob表現の入力
• 16 x 16にダウンスケールした構造ベクトルで構成されるマップΦを
Gの初期層への入力とする
＊解像度増加の関係を合わせるために，ベースモデルから畳み込み2層を削除
• スタイルベクトルで構成されるマップΨ𝑙×𝑙 (𝑙 ∈ {16,32, … , 256})を
それぞれの対応する畳み込み層に入力
16
Φ
Ψ16×16 Ψ256×256
…

Disentanglementの促進
• Blob表現によるDisentanglement
• あるBlobが活性化している領域は同じ特徴量ベクトルが支配的であり，その領域は
自己類似性をもつ画像領域⇒シーン内のオブジェクト表現を促進
• Gの畳み込みの局所性により，Blobとオブジェクトの位置関係に強い影響を与える．
• レイアウト(Blobの位置，形状，サイズ)と外観(Blobの特徴)を分離
• 学習中のβへのノイズ付与によるDisentanglementの促進
• Blobのパラメータに独立なノイズ𝛿𝑥, 𝛿𝑠, 𝛿𝜃を加える
⇒ Blobの正確な配置や形状に依存した解への収束を防ぎ，本質的な
オブジェクト発見を促進
• その他の以下のような外乱条件の付与は実験的に検証
• Blobのスタイルベクトルの並べ替え
• Blobの削除
17

18
２．先行研究
３．提案手法
４．実験結果
Section

オブジェクトの移動
• LSUN シーンデータセット [F. Yu+ arXiv2015]で検証
• 移動に伴うオクルージョン関係の変更が適用されている
19
https://dave.ml/Blobgan/static/vids/move_
beds/final/5.mp4 (最終閲覧：2022/10/12)
- Movie -
：オクルージョン消失領域：オクルージョン発生領域

リサイズ，移動，削除，追加，スタイル変換
• オブジェクトのリサイズ，移動，削除，追加，スタイル変換を独立に表現
20

マルチカテゴリデータセットへの適応
• 挑戦的なシーンに対しても，テーブルの削除に成功
21

その他の操作
• オブジェクト複製や入れ替えに成功
22

Blobとオブジェクトクラスの関連性解析
• Blobを削除し，既存のセグメンテーションモデルで消失したクラスを評価
• 特にtableやpainting, lightなどが独立な表現を獲得できている
• 各Blobの局在化⇒各オブジェクトの局在化を考察できる
23
クラスとBlobの相関 Blobの中心点の分布

提案手法によるシーンオートコンプリートの解析
• シーンオートコンプリート：オブジェクトのレイアウトに関して，存在する同時分布の制約を
満たすシーンのサンプリングを実現する機能
• 例：ある家具が存在するとき，その家具に対応してレイアウトが制限される
• 特定の背景とあるオブジェクトの特徴量に固定し，初期化．その他のBlobを最適化させることで
オートコンプリートを実施．
• 定量的にも知覚的品質の優れた
自然な画像の生成に成功．
24
＊最適化はRTX3090で約1秒で完了

25
２．先行研究
３．提案手法
４．実験結果
Section

結論・所感
[ 結論 ]
• シーンの空間的に分離された対象の効率的なBlob表現を提案
• Blobの位置，大きさ，形状等がDisentanglementに大きく寄与
• ナイーブな表現にもかかわらず，ロバストな表現を獲得
[ 所感 ]
• 教師無しで，Blob操作とオブジェクトの対応が，人間が直感的に想像する状態に
最適化されることに驚いた．
• シンプルなアイデアであるため，多くの発展が考えられる
• Blob生成のためのベクトルに学習済みのCLIP[A. Radford+ PMLR2021]で自然言語空間と対応づける．
• Neural Fields を適用させ，Blob表現を3次元化 (ObjectNeRF[B. Yang+ ICCV2021]と相性が良い？)
• Blob表現の改善の余地
• 背景にも意味的なセグメントがあるはず(壁と床など)で，これらの分離もできるとさらに良い
• 減衰する楕円が最適か？⇒モデルの複雑性とDisentanglementの関係
• Blobの数は固定せず，Bottom-upとTop-downを行き来することが人間の理解に近い？
• Bottom-upとTop-downの双方利用は[Ohta+ IJCPR1978]などでも有効であると言及されている．
26

実験結果：オブジェクトの削除
• ベットとベット以外を削除
• ベットがある部屋のデータセットで学習させたが，ベットの削除に成功．
28

実験結果：実画像からのBlob最適化と編集可能性
• 実画像に近づけるようにBlobを最適化⇒そのBlobの操作性を評価
• [D.Roich+ ACM2022]では多様体空間が適切に表現されず，編集が制限されると元論文で言及
• 提案手法は編集が正しく行え，ロバストな表現であることが確認された
29

【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations

More Related Content

What's hot (20)

Similar to 【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations (14)

More from Deep Learning JP (20)

【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations