Submit Search
[輪読会]Multilingual Image Description with Neural Sequence Models
0 likes
376 views
Deep Learning JP
2016/9/9 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
Related topics:
Deep Learning
Read more
1 of 20
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
More Related Content
PDF
[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...
Deep Learning JP
PDF
Direct feedback alignment provides learning in Deep Neural Networks
Deep Learning JP
PPTX
[DL輪読会]Learning convolutional neural networks for graphs
Deep Learning JP
PPTX
[DL輪読会]Let there be color
Deep Learning JP
PPTX
[DL輪読会]Image-to-Image Translation with Conditional Adversarial Networks
Deep Learning JP
PDF
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
PPTX
[DL輪読会]Understanding deep learning requires rethinking generalization
Deep Learning JP
PDF
[Dl輪読会]video pixel networks
Deep Learning JP
[DL輪読会]StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generat...
Deep Learning JP
Direct feedback alignment provides learning in Deep Neural Networks
Deep Learning JP
[DL輪読会]Learning convolutional neural networks for graphs
Deep Learning JP
[DL輪読会]Let there be color
Deep Learning JP
[DL輪読会]Image-to-Image Translation with Conditional Adversarial Networks
Deep Learning JP
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
[DL輪読会]Understanding deep learning requires rethinking generalization
Deep Learning JP
[Dl輪読会]video pixel networks
Deep Learning JP
Viewers also liked
(17)
PDF
[DL輪読会]Unsupervised Learning of 3D Structure from Images
Deep Learning JP
PDF
[Dl輪読会]bridging the gaps between residual learning, recurrent neural networks...
Deep Learning JP
PDF
[Dl輪読会]Censoring Representation with Adversary
Deep Learning JP
PDF
[DL輪読会]Learning What and Where to Draw (NIPS’16)
Deep Learning JP
PPTX
[DL輪読会]TREE-STRUCTURED VARIATIONAL AUTOENCODER
Deep Learning JP
PDF
[Dl輪読会]dl hacks輪読
Deep Learning JP
PDF
[Dl輪読会]bayesian dark knowledge
Deep Learning JP
PDF
Iclr2016 vaeまとめ
Deep Learning JP
PPTX
[DL輪読会]Semi supervised qa with generative domain-adaptive nets
Deep Learning JP
PDF
[DL輪読会]Combining Fully Convolutional and Recurrent Neural Networks for 3D Bio...
Deep Learning JP
PDF
[DL輪読会]Regularization with stochastic transformations and perturbations for d...
Deep Learning JP
PDF
[DL輪読会]最新の深層強化学習
Deep Learning JP
PPTX
[DL輪読会]Exploiting Cyclic Symmetry in Convolutional Neural Networks
Deep Learning JP
PPTX
[DL輪読会]Unsupervised Cross-Domain Image Generation
Deep Learning JP
PDF
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
PPTX
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
PDF
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
[DL輪読会]Unsupervised Learning of 3D Structure from Images
Deep Learning JP
[Dl輪読会]bridging the gaps between residual learning, recurrent neural networks...
Deep Learning JP
[Dl輪読会]Censoring Representation with Adversary
Deep Learning JP
[DL輪読会]Learning What and Where to Draw (NIPS’16)
Deep Learning JP
[DL輪読会]TREE-STRUCTURED VARIATIONAL AUTOENCODER
Deep Learning JP
[Dl輪読会]dl hacks輪読
Deep Learning JP
[Dl輪読会]bayesian dark knowledge
Deep Learning JP
Iclr2016 vaeまとめ
Deep Learning JP
[DL輪読会]Semi supervised qa with generative domain-adaptive nets
Deep Learning JP
[DL輪読会]Combining Fully Convolutional and Recurrent Neural Networks for 3D Bio...
Deep Learning JP
[DL輪読会]Regularization with stochastic transformations and perturbations for d...
Deep Learning JP
[DL輪読会]最新の深層強化学習
Deep Learning JP
[DL輪読会]Exploiting Cyclic Symmetry in Convolutional Neural Networks
Deep Learning JP
[DL輪読会]Unsupervised Cross-Domain Image Generation
Deep Learning JP
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
Ad
Similar to [輪読会]Multilingual Image Description with Neural Sequence Models
(20)
PPTX
Bridging between Vision and Language
Shion Honda
PPTX
ニューラル機械翻訳の動向@IBIS2017
Toshiaki Nakazawa
PDF
Emnlp読み会@2015 10-09
sekizawayuuki
PDF
子どもの言語獲得のモデル化とNN Language ModelsNN
Chiba Institute of Technology
PDF
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
株式会社メタップスホールディングス
PDF
Memory-augmented Neural Machine Translation
Satoru Katsumata
PDF
20180622 munit multimodal unsupervised image-to-image translation
h m
PDF
Dl hacks paperreading_20150527
Makoto Kawano
PDF
Convolutional Neural Netwoks で自然言語処理をする
Daiki Shimada
PDF
ニューラルネットワークを用いた自然言語処理
Sho Takase
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
PPTX
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
PDF
【DeepLearning研修】Transformerの基礎と応用 -- 第1回 Transformerの基本
Sony - Neural Network Libraries
PPTX
Deep Learning による視覚×言語融合の最前線
Yoshitaka Ushiku
PDF
Extract and edit
禎晃 山崎
PPTX
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
STAIR Lab, Chiba Institute of Technology
PDF
広告文生成タスクの規定とベンチマーク構築
Masato Mita
PDF
全力解説!Transformer
Arithmer Inc.
PDF
言語と画像の表現学習
Yuki Noguchi
PDF
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Masayoshi Kondo
Bridging between Vision and Language
Shion Honda
ニューラル機械翻訳の動向@IBIS2017
Toshiaki Nakazawa
Emnlp読み会@2015 10-09
sekizawayuuki
子どもの言語獲得のモデル化とNN Language ModelsNN
Chiba Institute of Technology
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
株式会社メタップスホールディングス
Memory-augmented Neural Machine Translation
Satoru Katsumata
20180622 munit multimodal unsupervised image-to-image translation
h m
Dl hacks paperreading_20150527
Makoto Kawano
Convolutional Neural Netwoks で自然言語処理をする
Daiki Shimada
ニューラルネットワークを用いた自然言語処理
Sho Takase
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
【DeepLearning研修】Transformerの基礎と応用 -- 第1回 Transformerの基本
Sony - Neural Network Libraries
Deep Learning による視覚×言語融合の最前線
Yoshitaka Ushiku
Extract and edit
禎晃 山崎
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
STAIR Lab, Chiba Institute of Technology
広告文生成タスクの規定とベンチマーク構築
Masato Mita
全力解説!Transformer
Arithmer Inc.
言語と画像の表現学習
Yuki Noguchi
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Masayoshi Kondo
Ad
More from Deep Learning JP
(20)
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
[輪読会]Multilingual Image Description with Neural Sequence Models
1.
輪読 : MULTILINGUAL IMAGE DESCRIPTION WITH NEURAL SEQUENCE MODELS h6p://arxiv.org/abs/1510.04709
2.
書誌情報 • Title: MULTILINGUAL IMAGE DESCRIPTION WITH NEURAL SEQUENCE MODELS • Author: Desmond Ellio6, Stella Frank, Eva Hasler •
AffiliaTon: University of Amsterdam, Cambridge • URL: h6p://arxiv.org/abs/1510.04709 • ICLR’16 不採録 • 概要 : MulTlingual Image DescripTon – ある画像に対して言語Aのキャプションを生成するとき,言語Bの情報も使う
3.
MoTvaTon • 関連研究 : キャプション生成 – 入力画像に対して,その画像の説明文を生成する –
画像とその画像に対するキャプションのデータを利用して学習 • この論文の主題 – ある画像に対して,言語Bでキャプションを生成するとき,言語Aでのキャプションを生か すことができるか? – MulTlingual Image DescripTon
4.
Approach • MulTlingual mulTmodal language model • ターゲットのキャプションを生成するのに,以下の2つの特徴量を使う –
monolingual source-language image descripTon model – visual features from an object recogniTon model
5.
モデル : Recurrent Language Model (LM) • RNNである単語を入力したとき,次の単語を予測するように訓練 – 入力
w_i (あるステップiにおいて)
6.
モデル : MulTmodal Language Model (MLM) • 画像の情報をLMに組み込む – 画像特徴量で条件付ければ良い –
一つの方法 : h_0 の計算をする際に画像特徴量を入れる • 各タイムステップで画像特徴量を入れると, overfidng するという研究報告が複数ある
7.
モデル : TranslaTon Model (Source-LM → Target-LM) • 画像の情報をの代わりに,source language modelで条件付
8.
モデル : MulTlingual MulTmodal Model (Source-MLM → Target-MLM) • 画像とsource language model両方使う
9.
NMT (Neural Machine TranslaTon) モデルとの違い • NMT – (翻訳元言語, 翻訳先言語) のペアで学習 •
このモデル – データセットの扱いがより柔軟 (言語のペアを用意しなくても良い) – source-language modelとtarget-language modelは別々のものでも良い • e.g. sequense-to-sequense, encoder-decode, …
10.
実験 : 使用したデータ •
データ : IAPR-TC12 – 画像数 : 20000 – 英語のキャプションと,対応するドイツ語訳 – 17,665枚を訓練に利用 – 英語 : 272,172 トークン (語彙数 1763) (出現頻度3以下は除去) – ドイツ語: 223,147 トークン (語彙数2374) – 画像特徴量はVGG-16を利用して抽出
11.
実験 : 結果 • Baselin MLM : Monolingual Language Model (MulTmodal Language Model without source language features) LM → LM : no image MLM よりも LM→LMの方が良い ドイツ語のキャプション生成結果 (全体的に英語より難しい) sourceに画像特徴量を入れた方 (sourceでMLMを使う) が効果的
13.
t-SNEによる隠れ層初期値の可視化 (左) MLM (右) De MLM → En MLM ドイツ語のキャプション生成結果 (全体的に英語より難しい) sourceに画像特徴量を入れた方 (sourceでMLMを使う) が効果的
14.
source language modelを加えたことによるスコアの変動 元々スコアが高かったものは,source language modelを入れると スコアが下がる傾向にある
15.
まとめ • 画像キャプショニングをする際に,別の言語のキャプションを利用する方 法の提案 • マルチモーダルな翻訳の一つ •
単純に画像と言語を組み合わせるだけだと,なかなかスコアが上がらな い • (ドイツ語のキャプション生成の実施) – 英語より難しい
17.
ACL’16でのMulTmodal Machine TranslaTon • h6p://www.statmt.org/wmt16/mulTmodal-task.html • 今回の著者らがオーガナイザー •
データセット: flickr30k – 英語のキャプションと,それに対応するドイツ語訳 • タスク 1. MulTmodal Machine TranslaTon 2. Mulilingual Image DescripTon • 結論を言うと,あんまり良いのは無かった
18.
Result 結果 : タスク1 (下線がベースライン; 灰色は外部データの利用)
19.
結果 : タスク2 (下線がベースライン; 灰色は外部データの利用)
20.
優勝チームの手法
Download