SlideShare a Scribd company logo
論⽂輪読
Learning	What	and	Where	to	
Draw	(NIPS’16)
2017/1/20 1
書誌情報
• Learning	What	and	Where	to	Draw
• Scott	Reed	(Google),	Zeynep Akata (MPI),	Santosh	Mohan	(umich),
Samuel	Tenka (umich),	Bernt Schiele	(MPI),	Honglak Lee	(umich)
• NIPS‘16	(Conference	Event	Type:	Poster)
• https://papers.nips.cc/paper/6111-learning-what-and-where-to-draw
2017/1/20 2
c.f.	Generative	Adversarial	Text	to	Image	Synthesis
• ICML’16
• http://www.slideshare.net/mmisono/generative-adversarial-text-to-
image-synthesis
2017/1/20 3
2017/1/20 4
2017/1/20 5
Generative	Adversarial	What-Where	Network	
(GAWWN)
• 「なに」を「どこ」に描くか指定する GAN
⽂章 bonding	box	/	keypoint
2017/1/20 6
Bounding-box-conditional	text-to-image	model
1. text	embeddingをM	x	M	x	T	に変換
2. bounding	boxに合うように正規化.	周りは0で埋める
0でマスク
M	x	M	x	T 0でマスク
2017/1/20 7
Keypoint-conditional	text-to-image	model
Key	Pointはグリッド座標で指定
それぞれがhead,	left	foot,	などに対応
2017/1/20 8
Conditional	keypoint generation	model
• 全てのキーポイントを⼊⼒するのは⾯倒
• 今回の実験では,⿃は15個のキーポイントを持つ
• ここではConditional	GANでキーポイントを⽣成
• キーポイント :	
• x,y :	座標,	v:	visible	flag
• v	=	0	なら x	=	y	=	0
• Generator:	
• Dは を1,	合成したものを0とするよう学習
s:	ユーザが指定したキー
ポイントに対応する箇所が1
2017/1/20 9
Experiments	:	Dataset
• USB	Birds	dataset
• 200種類の⿃,11,788	枚の画像
• 1枚の画像に10のキャプション,	1つのbounding	box,	15のkeypoints
• MHP
• 25k	image,	410種類の動作
• 各画像3キャプション
• 複数⼈が写っている画像を除くと19k
2017/1/20 10
Experiments	:	Misc
• text	encoder	:	char-CNN-GRU
• Generative	Adversarial	Text	To	Image	Synthesisと多分同じ
• Solver:	Adam
• Batchsize 16
• Learning	rate	0.0002
• 実装 :	torch	
• spatial	transform:	https://github.com/qassemoquab/stnbhwd
• loosely	based	on	dcgan.torch
2017/1/20 11
Conditional	bird	location	via	bounding	boxes
textとnoiseは3つとも同じ
・背景は似ている3つの画像で同じではない
・bounding	boxが変わっても⿃の向きは同じ
・zは背景や向きなど制御できない情報を担当しているのでは2017/1/20 12
Conditional	individual	part	locations	via	keypoints
・keypoints は ground	truthに固定 (合成でない)
・noiseは各例で別
・keypointsはnoiseに対してinvaliant
・背景等はnoiseで変化
2017/1/20 13
Using	keypoints condition
・くちばしと尻尾を指定
・全ての⿃が左を向いている (c.f.	condition	on	bounding	box)
2017/1/20 14
Generating	both	bird	keypoints and	images	
from	text	alone
・textだけからkeypointsを⽣成,その後画像⽣成
・全部keypointsを⽣成するようにすると質は下がる2017/1/20 15
先⾏研究との⽐較
・先⾏研究はtextはほぼ正確に捉えているものの,
くちばちなどが⽋けることがある (64x64)
・提案⼿法は128x128でほぼ正確な画像を⽣成
2017/1/20 16
Generating	Human
・⿃より質が下がる
・textが似ているものが少ない,複雑なポーズは難しい (ヨガぐらいならまぁまぁできてる)2017/1/20 17
まとめ
• GAWWN		:	bounding	boxとkey	pointsでどこに描くかを条件付け
• CUB	datasetでは128x128で質の⾼い画像が⽣成可能
• Future	work
• 物体の位置を unsupervised	or	weekly	supervised	な⽅法で学習
• better	text-to-human	generation
2017/1/20 18
所感
• 「どこ」の情報をどうエンコードするか,という点が新しい
• bounding	box
• keypoints
• ⽂章だけだと任意性が⾼すぎる.位置情報を与えてあげること
で画像が⽣成しやすくなる
• 細かいネットワーク構成に関しては,なぜそういう設計にした
か説明がないため不明
• もう少し何か理論的根拠が欲しいところ
2017/1/20 19

More Related Content

PPTX
20151012_AQAA PPT
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
20151012_AQAA PPT
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...

More from Deep Learning JP (20)

PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
PDF
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
PPTX
【DL輪読会】マルチモーダル 基盤モデル
PPTX
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
PDF
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
PPTX
【DL輪読会】大量API・ツールの扱いに特化したLLM
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Ad

[DL輪読会]Learning What and Where to Draw (NIPS’16)