[輪読会]Multilingual Image Description with Neural Sequence Models

輪読 :
MULTILINGUAL IMAGE DESCRIPTION WITH
NEURAL SEQUENCE MODELS
h6p://arxiv.org/abs/1510.04709

書誌情報
•  Title: MULTILINGUAL IMAGE DESCRIPTION WITH NEURAL SEQUENCE
MODELS
•  Author: Desmond Ellio6, Stella Frank, Eva Hasler
•  AﬃliaTon: University of Amsterdam, Cambridge
•  URL: h6p://arxiv.org/abs/1510.04709
•  ICLR’16 不採録
•  概要 : MulTlingual Image DescripTon
–  ある画像に対して言語Aのキャプションを生成するとき，言語Bの情報も使う

MoTvaTon
•  関連研究 : キャプション生成
–  入力画像に対して，その画像の説明文を生成する
–  画像とその画像に対するキャプションのデータを利用して学習
•  この論文の主題
–  ある画像に対して，言語Bでキャプションを生成するとき，言語Aでのキャプションを生か
すことができるか?
–  MulTlingual Image DescripTon

Approach
•  MulTlingual mulTmodal language model
•  ターゲットのキャプションを生成するのに，以下の2つの特徴量を使う
–  monolingual source-language image descripTon model
–  visual features from an object recogniTon model

モデル : Recurrent Language Model (LM)
•  RNNである単語を入力したとき，次の単語を予測するように訓練
–  入力 w_i (あるステップiにおいて)

モデル : MulTmodal Language Model (MLM)
•  画像の情報をLMに組み込む
–  画像特徴量で条件付ければ良い
–  一つの方法 : h_0 の計算をする際に画像特徴量を入れる
•  各タイムステップで画像特徴量を入れると， overﬁdng するという研究報告が複数ある

モデル : TranslaTon Model (Source-LM → Target-LM)
•  画像の情報をの代わりに，source language modelで条件付

モデル : MulTlingual MulTmodal Model (Source-MLM →
Target-MLM)
•  画像とsource language model両方使う

NMT (Neural Machine TranslaTon) モデルとの違い
•  NMT
–  (翻訳元言語, 翻訳先言語) のペアで学習
•  このモデル
–  データセットの扱いがより柔軟 (言語のペアを用意しなくても良い)
–  source-language modelとtarget-language modelは別々のものでも良い
•  e.g. sequense-to-sequense, encoder-decode, …

実験 : 使用したデータ
•  データ : IAPR-TC12
–  画像数 : 20000
–  英語のキャプションと，対応するドイツ語訳
–  17,665枚を訓練に利用
–  英語 : 272,172 トークン (語彙数 1763) (出現頻度3以下は除去)
–  ドイツ語: 223,147 トークン (語彙数2374)
–  画像特徴量はVGG-16を利用して抽出

実験 : 結果
•  Baselin MLM : Monolingual Language Model
(MulTmodal Language Model
without source language features)

LM → LM : no image

MLM よりも LM→LMの方が良い
ドイツ語のキャプション生成結果
(全体的に英語より難しい)

sourceに画像特徴量を入れた方
(sourceでMLMを使う) が効果的

[輪読会]Multilingual Image Description with Neural Sequence Models

t-SNEによる隠れ層初期値の可視化
(左) MLM (右) De MLM → En MLM
ドイツ語のキャプション生成結果
(全体的に英語より難しい)

sourceに画像特徴量を入れた方
(sourceでMLMを使う) が効果的

source language modelを加えたことによるスコアの変動
元々スコアが高かったものは，source language modelを入れると
スコアが下がる傾向にある

まとめ
•  画像キャプショニングをする際に，別の言語のキャプションを利用する方
法の提案
•  マルチモーダルな翻訳の一つ
•  単純に画像と言語を組み合わせるだけだと，なかなかスコアが上がらな
い
•  (ドイツ語のキャプション生成の実施)
–  英語より難しい

ACL’16でのMulTmodal Machine TranslaTon
•  h6p://www.statmt.org/wmt16/mulTmodal-task.html
•  今回の著者らがオーガナイザー
•  データセット: ﬂickr30k
–  英語のキャプションと，それに対応するドイツ語訳
•  タスク
1.  MulTmodal Machine TranslaTon
2.  Mulilingual Image DescripTon
•  結論を言うと，あんまり良いのは無かった

Result
結果 : タスク1 (下線がベースライン; 灰色は外部データの利用)

結果 : タスク2 (下線がベースライン; 灰色は外部データの利用)

[輪読会]Multilingual Image Description with Neural Sequence Models

More Related Content

Viewers also liked (17)

Similar to [輪読会]Multilingual Image Description with Neural Sequence Models (20)

More from Deep Learning JP (20)

[輪読会]Multilingual Image Description with Neural Sequence Models