SlideShare a Scribd company logo
Memory-enhanced Decoder for
Neural Machine Translation
Mingxuan Wang, Zhengdong Lu, Hang Li and Qun Liu
2/22 EMNLP読み会
紹介: B4 山岸駿秀
Introduction
• Attention-based NMT (RNNsearch) の成功 [Bahdanau+ 2015, ICLR]
• 入力文全体を保存し、部分的に用いて出力することは有用である
• Neural Turing Machine (NTM) [Graves+ 2014, arXivにのみ投稿]
• ベクトルを格納する数個のメモリと、重みベクトルによるヘッドを持つ
• 入力時にメモリの状態を読み込み、出力
• 出力と同時にメモリを書き換える
• どのメモリをどれだけ読む/書くのかをヘッドの重みを用いて決定
• ヘッドの重みを学習する
• これらを組み合わせ、外部メモリを持つRNNsearchを提案
• MEMDECと呼ぶ
• 生成の後半で使うような情報を保存できる可能性がある
1
※ デコーダ側のみ
2
NMT with improved attention
• 入力x (xの文長はTx) がある
• Encoderの単語jの隠れ層hjは、メ
モリMsとして格納
• (1)を導出したい
• (2): Decoderの時刻tでの隠れ層
• g()にはGRUを使用
• (3): Attentionベクトル
• Wa、Uaは重み行列
3
NMT with improved attention
• Groundhog (BahdanauらによるRNNsearchの実装) では、αt,jの計算
に前の出力yt-1が用いられていない
• 前の出力を用いることは有用なのではないだろうか
• 今回は、以下の計算式で計算した
• H() = tanh() (GRUの方が性能がよいが、簡略化のためtanhを使用)
• eはyt-1のembedding
4
5
Updating
• MBは今回新たに追加する外部メモリ
• Wはそれぞれ重み行列
• メモリも更新
6
Prediction
• Bahdanauらの提案した手法によって単語を予測する
• “ωy is the parameters associated with the word y.”
7
Reading Memory-state
• MBはn (メモリセルの数) * m (セルの次元数)の行列
• wR
tはn次元、rtはm次元のベクトル
• wR
tは以下のようにして更新
• 、
• wR
gはm次元のベクトル
• vはm次元のベクトル、W、Uはm*m次元の行列
8
Writing to Memory-states
• ERASEとADDの操作をすることでMBを更新
• 初めにERASE処理
• wW
t、μERS
tはm次元のベクトル、WERSはm*mの行列
• 次にADD処理
• μADD
tはm次元のベクトル、WADDはm*mの行列
• wRとwWに同じ重みを用いると性能が良かった 9
Setting
• 中英翻訳
• 学習データ: LDC corpus
• 1.25M 文対 (中国語の単語数: 27.9M、英語の単語数: 34.5M)
• 50単語以上の文はNMTでは不使用 (Mosesでは使用)
• NMTでは、語彙数を30,000語に制限
• テストデータ: NIST2002 〜 2006 (MT02 〜 06と記述)
• embedding: 512、hidden size: 512
• メモリセルの数n = 8、メモリセルの次元m = 1024
• Adadelta (ε = 10-6、ρ = 0.95)で最適化、batch size = 80
• 確率0.5でDropout
10
Pre-training
• パラメータ数がとても多いので、pre-trainingを行う
1. 外部メモリなしのRNNsearchを学習させる
2. 1を元に、EncoderとMEMDECのパラメータを学習させる
• 以下の、メモリ状態に関係あるパラメータは学習させない
3. 全てのパラメータを用いてfine-tuningを行う
11
Comparison system
• Moses (state-of-the-art SMT)
• Groundhog (Baseline)
• BahdanauらのAttention-based NMT (RNNsearch) の実装
• RNNsearch* (strong Baseline)
• 一つ前の出力をAttentionベクトルCtの計算に用いるシステムを追加
• dropoutも追加
• coverage (state-of-the-art NMT, Tu+, ACL2016)
• 入力の表現のカバレッジを用いる
• MEMDEC (提案手法)
12
Result 1
• 前の出力を用いてAttentionを計算するだけでもBLEUが上がる
• Mosesと比較して最大で5.28、Groundhogと比較して最大で4.78の改善
13
Result 2
• Pre-trainingするだけで+1.11
• しなくとも、RNNSearch*に比べて+1.04
• メモリセルの数にrobustである
14
Result 3
15
Conclusion
• RNN Decoderを外部メモリを用いて拡張した
• メモリの数は大きく影響しない
• 結果、中英翻訳のスコアを大きく改善できた
• アテンションの計算に前の出力を用いることも有用である
16

More Related Content

PDF
OSとWindowsとMicrosoft
PPTX
WebGLで浮動小数点テクスチャを扱う話
PDF
JubaQLご紹介
PPTX
"アレ"からJubatusを使う
PPTX
FPGAでmrubyを動かす
PDF
Jubatus 新機能ハイライト
PDF
蛇を埋葬する(PythonをEmbedする)
PPTX
EC2クラスタインスタンス使ってみました!
OSとWindowsとMicrosoft
WebGLで浮動小数点テクスチャを扱う話
JubaQLご紹介
"アレ"からJubatusを使う
FPGAでmrubyを動かす
Jubatus 新機能ハイライト
蛇を埋葬する(PythonをEmbedする)
EC2クラスタインスタンス使ってみました!

What's hot (7)

PDF
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
PPTX
CPUをちょっと
PPTX
脱! 俺たちは雰囲気でBPをいじっている
PPTX
無印Pentium debian install memo
ODP
札幌シムトラ学会 発表資料
PDF
ML Studio / CNTK ハンズオン資料の紹介と開発環境の構築手順
PDF
Introducing mroonga 20111129
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
CPUをちょっと
脱! 俺たちは雰囲気でBPをいじっている
無印Pentium debian install memo
札幌シムトラ学会 発表資料
ML Studio / CNTK ハンズオン資料の紹介と開発環境の構築手順
Introducing mroonga 20111129
Ad

Viewers also liked (14)

PPTX
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
PDF
Chainerの使い方と 自然言語処理への応用
PDF
EDI Certificates for Diploma
PDF
AL SARABI CV
PPTX
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
DOCX
PDF
CV_WeifnegLi_2016
DOC
Nicolette Ure_Curriculum Vitae (2)
PDF
Seo проектирование сайта
PPTX
Serm управление репутацией в поисковых системах
PPT
Peritonitis Linda Fajardo
PPT
Peritonitis linda fajardo
PPTX
Projet Presentation
[ACL2016] Achieving Open Vocabulary Neural Machine Translation with Hybrid Wo...
Chainerの使い方と 自然言語処理への応用
EDI Certificates for Diploma
AL SARABI CV
BIOCOMBUSTIBLES - biología general 16 (letras- san marcos)
CV_WeifnegLi_2016
Nicolette Ure_Curriculum Vitae (2)
Seo проектирование сайта
Serm управление репутацией в поисковых системах
Peritonitis Linda Fajardo
Peritonitis linda fajardo
Projet Presentation
Ad

Similar to [EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation (20)

PDF
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
PDF
Memory-augmented Neural Machine Translation
PPTX
Attention-based NMT description
PPTX
ニューラル機械翻訳の動向@IBIS2017
PDF
Memory Networks (End-to-End Memory Networks の Chainer 実装)
PPTX
Variational Template Machine for Data-to-Text Generation
PDF
transformer解説~Chat-GPTの源流~
PPTX
A convolutional encoder model for neural machine translation
PPTX
[DL輪読会]Unsupervised Neural Machine Translation
PDF
RNN-based Translation Models (Japanese)
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PDF
Deep Learningの基礎と応用
PDF
Recurrent Neural Networks
PDF
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
PDF
Extract and edit
PDF
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
PDF
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
PDF
Deep nlp 4.2-4.3_0309
PDF
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
DOCX
レポート深層学習Day3
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
Memory-augmented Neural Machine Translation
Attention-based NMT description
ニューラル機械翻訳の動向@IBIS2017
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Variational Template Machine for Data-to-Text Generation
transformer解説~Chat-GPTの源流~
A convolutional encoder model for neural machine translation
[DL輪読会]Unsupervised Neural Machine Translation
RNN-based Translation Models (Japanese)
最近のDeep Learning (NLP) 界隈におけるAttention事情
Deep Learningの基礎と応用
Recurrent Neural Networks
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
Extract and edit
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
Deep nlp 4.2-4.3_0309
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
レポート深層学習Day3

More from Hayahide Yamagishi (15)

PPTX
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
PDF
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
PDF
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
PDF
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
PDF
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
PDF
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
PDF
[ML論文読み会資料] Teaching Machines to Read and Comprehend
PDF
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
PDF
[ML論文読み会資料] Training RNNs as Fast as CNNs
PDF
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
PDF
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
PDF
Why neural translations are the right length
PDF
A hierarchical neural autoencoder for paragraphs and documents
PDF
ニューラル論文を読む前に
PPTX
ニューラル日英翻訳における出力文の態制御
[PACLING2019] Improving Context-aware Neural Machine Translation with Target-...
[修論発表会資料] 目的言語の文書文脈を用いたニューラル機械翻訳
[論文読み会資料] Beyond Error Propagation in Neural Machine Translation: Characteris...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[NAACL2018読み会] Deep Communicating Agents for Abstractive Summarization
[論文読み会資料] Asynchronous Bidirectional Decoding for Neural Machine Translation
[ML論文読み会資料] Teaching Machines to Read and Comprehend
[EMNLP2017読み会] Efficient Attention using a Fixed-Size Memory Representation
[ML論文読み会資料] Training RNNs as Fast as CNNs
入力文への情報の付加によるNMTの出力文の変化についてのエラー分析
[ACL2017読み会] What do Neural Machine Translation Models Learn about Morphology?
Why neural translations are the right length
A hierarchical neural autoencoder for paragraphs and documents
ニューラル論文を読む前に
ニューラル日英翻訳における出力文の態制御

Recently uploaded (10)

PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略

[EMNLP2016読み会] Memory-enhanced Decoder for Neural Machine Translation

  • 1. Memory-enhanced Decoder for Neural Machine Translation Mingxuan Wang, Zhengdong Lu, Hang Li and Qun Liu 2/22 EMNLP読み会 紹介: B4 山岸駿秀
  • 2. Introduction • Attention-based NMT (RNNsearch) の成功 [Bahdanau+ 2015, ICLR] • 入力文全体を保存し、部分的に用いて出力することは有用である • Neural Turing Machine (NTM) [Graves+ 2014, arXivにのみ投稿] • ベクトルを格納する数個のメモリと、重みベクトルによるヘッドを持つ • 入力時にメモリの状態を読み込み、出力 • 出力と同時にメモリを書き換える • どのメモリをどれだけ読む/書くのかをヘッドの重みを用いて決定 • ヘッドの重みを学習する • これらを組み合わせ、外部メモリを持つRNNsearchを提案 • MEMDECと呼ぶ • 生成の後半で使うような情報を保存できる可能性がある 1
  • 4. NMT with improved attention • 入力x (xの文長はTx) がある • Encoderの単語jの隠れ層hjは、メ モリMsとして格納 • (1)を導出したい • (2): Decoderの時刻tでの隠れ層 • g()にはGRUを使用 • (3): Attentionベクトル • Wa、Uaは重み行列 3
  • 5. NMT with improved attention • Groundhog (BahdanauらによるRNNsearchの実装) では、αt,jの計算 に前の出力yt-1が用いられていない • 前の出力を用いることは有用なのではないだろうか • 今回は、以下の計算式で計算した • H() = tanh() (GRUの方が性能がよいが、簡略化のためtanhを使用) • eはyt-1のembedding 4
  • 6. 5
  • 9. Reading Memory-state • MBはn (メモリセルの数) * m (セルの次元数)の行列 • wR tはn次元、rtはm次元のベクトル • wR tは以下のようにして更新 • 、 • wR gはm次元のベクトル • vはm次元のベクトル、W、Uはm*m次元の行列 8
  • 10. Writing to Memory-states • ERASEとADDの操作をすることでMBを更新 • 初めにERASE処理 • wW t、μERS tはm次元のベクトル、WERSはm*mの行列 • 次にADD処理 • μADD tはm次元のベクトル、WADDはm*mの行列 • wRとwWに同じ重みを用いると性能が良かった 9
  • 11. Setting • 中英翻訳 • 学習データ: LDC corpus • 1.25M 文対 (中国語の単語数: 27.9M、英語の単語数: 34.5M) • 50単語以上の文はNMTでは不使用 (Mosesでは使用) • NMTでは、語彙数を30,000語に制限 • テストデータ: NIST2002 〜 2006 (MT02 〜 06と記述) • embedding: 512、hidden size: 512 • メモリセルの数n = 8、メモリセルの次元m = 1024 • Adadelta (ε = 10-6、ρ = 0.95)で最適化、batch size = 80 • 確率0.5でDropout 10
  • 12. Pre-training • パラメータ数がとても多いので、pre-trainingを行う 1. 外部メモリなしのRNNsearchを学習させる 2. 1を元に、EncoderとMEMDECのパラメータを学習させる • 以下の、メモリ状態に関係あるパラメータは学習させない 3. 全てのパラメータを用いてfine-tuningを行う 11
  • 13. Comparison system • Moses (state-of-the-art SMT) • Groundhog (Baseline) • BahdanauらのAttention-based NMT (RNNsearch) の実装 • RNNsearch* (strong Baseline) • 一つ前の出力をAttentionベクトルCtの計算に用いるシステムを追加 • dropoutも追加 • coverage (state-of-the-art NMT, Tu+, ACL2016) • 入力の表現のカバレッジを用いる • MEMDEC (提案手法) 12
  • 14. Result 1 • 前の出力を用いてAttentionを計算するだけでもBLEUが上がる • Mosesと比較して最大で5.28、Groundhogと比較して最大で4.78の改善 13
  • 15. Result 2 • Pre-trainingするだけで+1.11 • しなくとも、RNNSearch*に比べて+1.04 • メモリセルの数にrobustである 14
  • 17. Conclusion • RNN Decoderを外部メモリを用いて拡張した • メモリの数は大きく影響しない • 結果、中英翻訳のスコアを大きく改善できた • アテンションの計算に前の出力を用いることも有用である 16

Editor's Notes

  • #8: Stの計算時には、それらをcombineする?