SlideShare a Scribd company logo
輪読	:		
MULTILINGUAL	IMAGE	DESCRIPTION	WITH	
NEURAL	SEQUENCE	MODELS	
h6p://arxiv.org/abs/1510.04709
書誌情報	
•  Title:	MULTILINGUAL	IMAGE	DESCRIPTION	WITH	NEURAL	SEQUENCE	
MODELS	
•  Author:	Desmond	Ellio6,	Stella	Frank,	Eva	Hasler	
•  AffiliaTon:	University	of	Amsterdam,	Cambridge	
•  URL:		h6p://arxiv.org/abs/1510.04709	
•  ICLR’16	不採録	
•  概要	:	MulTlingual	Image	DescripTon	
–  ある画像に対して言語Aのキャプションを生成するとき,言語Bの情報も使う
MoTvaTon	
•  関連研究	:	キャプション生成	
–  入力画像に対して,その画像の説明文を生成する	
–  画像とその画像に対するキャプションのデータを利用して学習	
•  この論文の主題	
–  ある画像に対して,言語Bでキャプションを生成するとき,言語Aでのキャプションを生か
すことができるか?	
–  MulTlingual	Image	DescripTon
Approach	
•  MulTlingual	mulTmodal	language	model	
•  ターゲットのキャプションを生成するのに,以下の2つの特徴量を使う	
–  monolingual	source-language	image	descripTon	model	
–  visual	features	from	an	object	recogniTon	model
モデル	:	Recurrent	Language	Model	(LM)	
•  RNNである単語を入力したとき,次の単語を予測するように訓練	
–  入力 w_i	(あるステップiにおいて)
モデル	:	MulTmodal		Language	Model	(MLM)	
•  画像の情報をLMに組み込む	
–  画像特徴量で条件付ければ良い	
–  一つの方法	:	h_0	の計算をする際に画像特徴量を入れる	
•  各タイムステップで画像特徴量を入れると,	overfidng	するという研究報告が複数ある
モデル	:	TranslaTon	Model	(Source-LM	→	Target-LM)	
•  画像の情報をの代わりに,source	language	modelで条件付
モデル	:		MulTlingual	MulTmodal	Model	(Source-MLM	→	
Target-MLM)	
•  画像とsource	language	model両方使う
NMT	(Neural	Machine	TranslaTon)	モデルとの違い	
•  NMT	
–  (翻訳元言語,	翻訳先言語)	のペアで学習	
•  このモデル	
–  データセットの扱いがより柔軟	(言語のペアを用意しなくても良い)	
–  source-language	modelとtarget-language	modelは別々のものでも良い	
•  e.g.	sequense-to-sequense,	encoder-decode,	…
実験 : 使用したデータ	
•  データ	:	IAPR-TC12	
–  画像数	:	20000	
–  英語のキャプションと,対応するドイツ語訳	
–  17,665枚を訓練に利用	
–  英語	:	272,172	トークン	(語彙数	1763)							(出現頻度3以下は除去)	
–  ドイツ語:	223,147	トークン	(語彙数2374)	
–  画像特徴量はVGG-16を利用して抽出
実験	:	結果	
•  Baselin	 MLM	:	Monolingual	Language	Model	
(MulTmodal	Language	Model	
	without	source	language	features)	
	
LM	→	LM	:	no	image	
	
MLM	よりも	LM→LMの方が良い	
ドイツ語のキャプション生成結果	
(全体的に英語より難しい)	
	
	
sourceに画像特徴量を入れた方	
(sourceでMLMを使う)	が効果的
[輪読会]Multilingual Image Description with Neural Sequence Models
t-SNEによる隠れ層初期値の可視化	
(左)	MLM		(右)	De	MLM	→	En	MLM	
ドイツ語のキャプション生成結果	
(全体的に英語より難しい)	
	
	
sourceに画像特徴量を入れた方	
(sourceでMLMを使う)	が効果的
source	language	modelを加えたことによるスコアの変動	
元々スコアが高かったものは,source	language	modelを入れると	
スコアが下がる傾向にある
まとめ	
•  画像キャプショニングをする際に,別の言語のキャプションを利用する方
法の提案	
•  マルチモーダルな翻訳の一つ	
•  単純に画像と言語を組み合わせるだけだと,なかなかスコアが上がらな
い	
•  (ドイツ語のキャプション生成の実施)	
–  英語より難しい
[輪読会]Multilingual Image Description with Neural Sequence Models
ACL’16でのMulTmodal	Machine	TranslaTon	
•  h6p://www.statmt.org/wmt16/mulTmodal-task.html	
•  今回の著者らがオーガナイザー	
•  データセット:	flickr30k	
–  英語のキャプションと,それに対応するドイツ語訳	
•  タスク	
1.  MulTmodal	Machine	TranslaTon	
2.  Mulilingual	Image	DescripTon	
•  結論を言うと,あんまり良いのは無かった
Result	
結果	:	タスク1	(下線がベースライン;	灰色は外部データの利用)
結果	:	タスク2	(下線がベースライン;	灰色は外部データの利用)
優勝チームの手法

More Related Content

PDF
[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...
PDF
Direct feedback alignment provides learning in Deep Neural Networks
PPTX
[DL輪読会]Learning convolutional neural networks for graphs
PPTX
[DL輪読会]Let there be color
PPTX
[DL輪読会]Image-to-Image Translation with Conditional Adversarial Networks
PDF
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
PPTX
[DL輪読会]Understanding deep learning requires rethinking generalization
PDF
[Dl輪読会]video pixel networks
[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...
Direct feedback alignment provides learning in Deep Neural Networks
[DL輪読会]Learning convolutional neural networks for graphs
[DL輪読会]Let there be color
[DL輪読会]Image-to-Image Translation with Conditional Adversarial Networks
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]Understanding deep learning requires rethinking generalization
[Dl輪読会]video pixel networks

Viewers also liked (17)

PDF
[DL輪読会]Unsupervised Learning of 3D Structure from Images
PDF
[Dl輪読会]bridging the gaps between residual learning, recurrent neural networks...
PDF
[Dl輪読会]Censoring Representation with Adversary
PDF
[DL輪読会]Learning What and Where to Draw (NIPS’16)
PPTX
[DL輪読会]TREE-STRUCTURED VARIATIONAL AUTOENCODER
PDF
[Dl輪読会]dl hacks輪読
PDF
[Dl輪読会]bayesian dark knowledge
PDF
Iclr2016 vaeまとめ
PPTX
[DL輪読会]Semi supervised qa with generative domain-adaptive nets
PDF
[DL輪読会]Combining Fully Convolutional and Recurrent Neural Networks for 3D Bio...
PDF
[DL輪読会]Regularization with stochastic transformations and perturbations for d...
PDF
[DL輪読会]最新の深層強化学習
PPTX
[DL輪読会]Exploiting Cyclic Symmetry in Convolutional Neural Networks
PPTX
[DL輪読会]Unsupervised Cross-Domain Image Generation
PDF
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
PPTX
[DL輪読会]Wavenet a generative model for raw audio
PDF
[Dl輪読会]introduction of reinforcement learning
[DL輪読会]Unsupervised Learning of 3D Structure from Images
[Dl輪読会]bridging the gaps between residual learning, recurrent neural networks...
[Dl輪読会]Censoring Representation with Adversary
[DL輪読会]Learning What and Where to Draw (NIPS’16)
[DL輪読会]TREE-STRUCTURED VARIATIONAL AUTOENCODER
[Dl輪読会]dl hacks輪読
[Dl輪読会]bayesian dark knowledge
Iclr2016 vaeまとめ
[DL輪読会]Semi supervised qa with generative domain-adaptive nets
[DL輪読会]Combining Fully Convolutional and Recurrent Neural Networks for 3D Bio...
[DL輪読会]Regularization with stochastic transformations and perturbations for d...
[DL輪読会]最新の深層強化学習
[DL輪読会]Exploiting Cyclic Symmetry in Convolutional Neural Networks
[DL輪読会]Unsupervised Cross-Domain Image Generation
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wavenet a generative model for raw audio
[Dl輪読会]introduction of reinforcement learning
Ad

Similar to [輪読会]Multilingual Image Description with Neural Sequence Models (20)

PPTX
Bridging between Vision and Language
PPTX
ニューラル機械翻訳の動向@IBIS2017
PDF
Emnlp読み会@2015 10-09
PDF
子どもの言語獲得のモデル化とNN Language ModelsNN
PDF
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
PDF
Memory-augmented Neural Machine Translation
PDF
20180622 munit multimodal unsupervised image-to-image translation
 
PDF
Dl hacks paperreading_20150527
PDF
Convolutional Neural Netwoks で自然言語処理をする
PDF
ニューラルネットワークを用いた自然言語処理
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
PPTX
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
PDF
【DeepLearning研修】Transformerの基礎と応用 -- 第1回 Transformerの基本
PPTX
Deep Learning による視覚×言語融合の最前線
PDF
Extract and edit
PPTX
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
PDF
広告文生成タスクの規定とベンチマーク構築
PDF
全力解説!Transformer
PDF
言語と画像の表現学習
PDF
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Bridging between Vision and Language
ニューラル機械翻訳の動向@IBIS2017
Emnlp読み会@2015 10-09
子どもの言語獲得のモデル化とNN Language ModelsNN
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Memory-augmented Neural Machine Translation
20180622 munit multimodal unsupervised image-to-image translation
 
Dl hacks paperreading_20150527
Convolutional Neural Netwoks で自然言語処理をする
ニューラルネットワークを用いた自然言語処理
これからの Vision & Language ~ Acadexit した4つの理由
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
【DeepLearning研修】Transformerの基礎と応用 -- 第1回 Transformerの基本
Deep Learning による視覚×言語融合の最前線
Extract and edit
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
広告文生成タスクの規定とベンチマーク構築
全力解説!Transformer
言語と画像の表現学習
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[輪読会]Multilingual Image Description with Neural Sequence Models