SlideShare a Scribd company logo
EMNLP2016読み会@⿊橋研
佐藤 元紀|Motoki Sato
NAIST 松本研 (M1)
1.  Deep Multi-Task Learning
with Shared Memory
2.  How Transferable are Neural Networks
in NLP Applications?
名前 佐藤 元紀 (さとう もとき)
所属 NAIST (松本研)
学年 修⼠1年⽣
Twitter @aonotas
 あおのたす
⾃⼰紹介 2
研究の興味 QA, 対話, 深層学習
   Chainer派閥
紹介する論⽂①
紹介する論⽂①
l Deep Multi-Task Learning with Shared Memory
–  LSTMに外部メモリを追加し, Multi-Taskを解く
–  ⽂書分類タスク(同じドメインの複数データセット)
•  Movie Review
–  タスクで共通のメモリ, タスクごとのメモリを⽤意
4
Motivation
l Neural Networkは過学習しやすい
–  Pre-trainingが使われるが,
直接タスクを最適化しているわけではない
–  Multiタスクで共通知識を共有して性能を向上させたい
l LSTMの外にメモリを付けて表現⼒向上を狙う
5
提案⼿法1 6
提案⼿法1 7
l  ⼊⼒⽂
提案⼿法1 8
l  LSTMの隠れ層
提案⼿法1 9
l  外部メモリ
提案⼿法1 10
l  ⽂書クラス分類
ここの部分を詳しく! 11
モデルの詳細 12
l  通常のLSTM
モデルの詳細 13
l  外部メモリ
モデルの詳細 14
l  Reading key vector
l  Erase vector
l  Add vector
モデルの詳細 15
l  Read
l  Write
l  Fusion
提案⼿法2 16
実験結果 17
実例 18
紹介する論⽂②
紹介する論⽂②
l How Transferable are Neural Networks in NLP
Applications?
–  NLPにおける転移学習の論⽂
–  画像のNN分野での転移学習との⽐較
–  結論が分かりやすい(予想通りっちゃ予想通り)
20
問題設定 21
学習
データ
多
学習データ
少
Source Target
Train NN
Transfer
転移学習アルゴリズム
l INIT
–  ⼤きいデータで学習し, 
NNのパラメータを初期値とする (Fine-tune)
l MULTI
–  同時に⼤きいデータと⼩さいデータで学習する
l MULTI+INUT
–  ⼤きいデータで学習し, その後マルチタスクで解く
22
画像 vs NLP
l 画像
–  連続値
–  素性がピクセル単位
l NLP
–  離散的
23
問題設定 24
Source(学習データ多い) Target(学習データ少ない)
⽂分類 ⽂ペア
問題設定 25
Source(学習データ多い)
Target(学習データ 少)
データのドメインが同じ
Target(学習データ 少)
データのドメインが違う
⽂分類 ⽂ペア
ネットワーク構造 26
実験結果 27
パラメータは更新しない
パラメータは更新する
ランダム初期値
Pre-trained embedding
Target(学習データ 少)
データのドメインが同じ
Target(学習データ 少)
データのドメインが違う
実験結果 28
パラメータ固定
l  ドメイン似ている
–  Embedding, hiddenはTransfer
l  ドメインが異なる
–  EmbeddingだけTransfer
実験結果 29
パラメータ固定
l  ドメイン似ている
–  Embedding, hiddenはTransfer
l  ドメインが異なる
–  EmbeddingだけTransfer
MULTIの効果 30
が⼤きい:Targetのロスを重視する
が⼩さい:Sourceのロスを重視する
Output Layer以外を共有。
ネットワーク構造
MULTI 31
■ドメイン似ているタスク
–  Source重視の⽅が良い
■ドメインが異なるタスク
–  MULTIでもダメ
INIT
Non-
transfer
疑問①
l ドメインが似ているタスク, 
ドメインが違うタスクで,
転移学習できるのか?
→ タスクの類似度に⼤きく依存する
32
疑問②
l 転移できるかどうかは、層ごとに異なるのか?
→ Output Layerは転移できない
  Word Embeddingは転移できる
33
疑問③
l INIT, MULTIは効果あるのか?
→ INIT, MULTIも効果がある。
  しかし両⽅使うのは向上は⾒られなかった
34

More Related Content

PPTX
AI入門「第1回:AIの歴史とTensorFlow」
PDF
Getting Started with Deep Learning using Scala
PPTX
最近の自然言語処理
PDF
Meta-Learning with Memory Augmented Neural Network
PPTX
Deep forest
PPTX
ニューラルチューリングマシン入門
PPTX
ならば
PPTX
Dilated rnn
AI入門「第1回:AIの歴史とTensorFlow」
Getting Started with Deep Learning using Scala
最近の自然言語処理
Meta-Learning with Memory Augmented Neural Network
Deep forest
ニューラルチューリングマシン入門
ならば
Dilated rnn

What's hot (7)

PDF
TensorFlowによるCNNアーキテクチャ構築
PPTX
Differentiable neural conputers
PDF
[DL輪読会] Using millions of emoji occurrences to learn any-domain representatio...
PDF
Dropout Distillation
PDF
20161217 脳画像解析とubuntu
PDF
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
PDF
『ポケットスタディ ネットワークスペシャリスト[第2版]』著者が販促しつつ試験対策の話をします
TensorFlowによるCNNアーキテクチャ構築
Differentiable neural conputers
[DL輪読会] Using millions of emoji occurrences to learn any-domain representatio...
Dropout Distillation
20161217 脳画像解析とubuntu
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
『ポケットスタディ ネットワークスペシャリスト[第2版]』著者が販促しつつ試験対策の話をします
Ad

Viewers also liked (11)

PDF
Multi-modal Neural Machine Translation - Iacer Calixto
PDF
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
PDF
On the benchmark of Chainer
PDF
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
PDF
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
PDF
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
PDF
マシンパーセプション研究におけるChainer活用事例
PDF
Chainer Update v1.8.0 -> v1.10.0+
PDF
Chainer, Cupy入門
PDF
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
PPTX
Chainerを使って細胞を数えてみた
Multi-modal Neural Machine Translation - Iacer Calixto
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
On the benchmark of Chainer
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
マシンパーセプション研究におけるChainer活用事例
Chainer Update v1.8.0 -> v1.10.0+
Chainer, Cupy入門
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
Chainerを使って細胞を数えてみた
Ad

Similar to EMNLP2016読み会@黒橋研 (20)

PDF
[DL輪読会]One Model To Learn Them All
PDF
RNN-based Translation Models (Japanese)
PDF
ChainerによるRNN翻訳モデルの実装+@
PDF
20171128分散深層学習とChainerMNについて
PDF
Transformer メタサーベイ
PDF
NIP2015読み会「End-To-End Memory Networks」
PDF
Memory Networks (End-to-End Memory Networks の Chainer 実装)
PDF
attention_is_all_you_need_nips17_論文紹介
PDF
EMNLP2018 Overview
PPTX
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
PDF
全力解説!Transformer
PPTX
2017-05-30_deepleaning-and-chainer
PDF
Multi reference training with pseudo-references for neural translation and te...
PDF
Recurrent Neural Networks
PDF
ディープラーニング最近の発展とビジネス応用への課題
PDF
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
PDF
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
PPTX
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
PDF
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
PDF
Adversarial Multi-task Learning for Text Classification
[DL輪読会]One Model To Learn Them All
RNN-based Translation Models (Japanese)
ChainerによるRNN翻訳モデルの実装+@
20171128分散深層学習とChainerMNについて
Transformer メタサーベイ
NIP2015読み会「End-To-End Memory Networks」
Memory Networks (End-to-End Memory Networks の Chainer 実装)
attention_is_all_you_need_nips17_論文紹介
EMNLP2018 Overview
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
全力解説!Transformer
2017-05-30_deepleaning-and-chainer
Multi reference training with pseudo-references for neural translation and te...
Recurrent Neural Networks
ディープラーニング最近の発展とビジネス応用への課題
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Adversarial Multi-task Learning for Text Classification

EMNLP2016読み会@黒橋研