SlideShare a Scribd company logo
Improving Neural Machine Translation
by Incorporating
Hierarchical Subword Features
Makoto Morishita, Jun Suzuki and Masaaki Nagata
論文紹介 B4 本間
導入
• NMTのOOVの問題の解決策にサブワード化がある
• 3つの層でサブワード化
• 最適なサブワード単位はそれぞれの層で異なる
この論文ではBPEを用いる
デコーダ RNNエンコーダ RNN
エンコーダ埋め込み層 デコーダ埋め込み層
出力層
1 2
3
仮説
導入
• 複数の語彙数のサブワードを同時に扱うモデルを用意
• 大きなサブワード語彙は小さなサブワード語彙の上位集合
• 小さなサブワード語彙を埋め込み層の追加特徴として使用
サ,ブ,ワ,ー,ド,サブ
ード,ワード,サブワード
サ,ブ,ワ,ー,ド
サブ,ード⊃
仮説の検証
これを「階層的なサブワード特徴」と呼ぶ
単に埋め込みの
合計を用いる
デコーダ / 注意機構
ベースラインモデル
• 注意機構付き Bi-RNN Enc-Decモデル Bahdnau 2015
詳細は省略
𝑋, 𝑌:入, 出力の one-hot ベクトルの列
𝑥𝑖, 𝑦𝑗: 𝑋, 𝑌 の 𝑖, 𝑗 番目のトークン
𝑥𝑖:𝐼, 𝑦𝑗:𝐽: one-hot ベクトルのリスト
𝐼, 𝐽: one-hot ベクトルのリストの長さ
𝑦0:BOSトークンの one-hot ベクトル
𝑦𝐽+1:EOSトークンの one-hot ベクトル
エンコーダ
テスト時は 𝐾-best
Byte-Pair Encoding に基づくサブワード単位
• Sennrich (2016) の方法を SubWBPE として参照
• 文字単位,サブワード単位,単語単位を区別せず,すべて
を サブワード単位 として扱う
1. 入力文を文字単位に分割
2. 頻繁に出現する2つの連続する文字またはサブワードを1つのサブ
ワードに結合
3. この結合操作を事前に定義された 𝑚 回だけ繰り返す
𝑚 = 0 ⇒ 文字単位 𝑚 = ∞ ⇒ 単語単位
階層的なサブワード特徴
提案手法
階層的なサブワード特徴
提案手法
𝑸 個のエンコーダ
埋め込み行列
𝑹 個のデコーダ
埋め込み行列𝑬 𝟏
𝑬 𝟐
𝑬 𝟑
𝑭 𝟏
𝑭 𝟐
対応するバイナリベクトルを返す関数
階層的なサブワード特徴
提案手法
record
に対応するバイ
ナリベクトル
実験設定 使用データ
• 英語(EN)と,フランス語(FR),ドイツ語(DE)の双方向翻訳
• データセット:TEDの話に基づくIWSLT
• 前処理:Moses tokenizer, truecaser
• 学習データから50語を削除
英語フランス語 ドイツ語
前処理後のIWSLT
実験設定 NMTフレームワーク
• NMTフレームワークとして,提案する埋め込み層以外はLuongら (2015)
と同じ構造を使用
• 40 エポックまで学習
• 30 エポック以降は学習率を 0.8 がけ
• ビームサーチのビームサイズ:20
• 短文の出力を防ぐために,文長で負の対数尤度を除算し長さを正規化
• multi-bleu.perl を使用し,BLEU スコアで評価
Cromieres 2016
Morishita 2017
NMTの詳細な構成
実験設定 予備分析
• 実験設定を決定するため文長と語彙数の関係を見つける予備分析をした
• 長い文はより多くの計算コストを必要とし,時間がかかる
• ベースラインシステムの語彙サイズ(マージ数)を16,000に設定
DE-EN学習データ
における
語彙数と平均文長
の関係
実験設定 +実験で答える質問
階層的なサブワード特徴
はモデルを改善するか
エンコーダ側とデコーダ
側どちらを使うべきか
翻訳結果にはどの
ような影響があるか
実験結果
すべて独立して学習した
4つのモデルの平均のBLEU
() 内はベース
ラインとの差
少しだけ良くなっているが,
文長が長すぎて計算時間も延びる
より少ないマージ数
(=少ない語彙数)
を用いたモデル
実験結果
論文で言及されていなかったため省略
EN⇔DEと同じような結果
実験結果
階層的なサブワード特徴がモデルを改善
システム (f) はBPE (m=1k) と (m=300) の両方を使用し,片方だけよりも改善
これらはBPE (m=16k) を単位として使用するため,計算コストは (a) とほぼ同じ
エンコーダ側に階層的なサブワード特徴
を追加したモデル
実験結果
システム (g) は予想通り下がっているが,階層的なサブワード特徴を追加すること
でBPEのシステムと同じレベルで精度が向上
階層的なサブワード特徴はモデルの低頻度語を正しく符号化し精度向上を補助
システム (h) では,おそらく大きなサブワード単位 (m=16k) が単語単位に似てい
るため,あまり上がらなかったと思われる
エンコーダ側をBPE (m=16k) ではなく
単語単位 (m=∞) で学習したモデル
サブワード
の出現頻度
とランクの
関係
Zipf’s law
結果
エンコーダ側ほどの改善は見られなかった。これは本手法がモデルの正則化として
働き,デコーダの言語モデリング能力を低下させているからかもしれない
デコーダ側に階層的なサブワード特徴
を追加したモデル
結果
システム (f) および (k) からわずかに改善しているが,有用性は限られる
エンコーダ・デコーダ両側に階層的なサブワード特徴を使用したモデル
結果
この結果は以下のことを示唆している
(1)階層的なサブワード特徴をエンコーダ側だけに追加
(2)より少ないマージ数,例えば m=300, 1k を使用
するのがよい。
パラメータ数と学習時間
• 単語レベルの特徴を追加する
とモデルパラメータ数が大幅
に増加
• サブワードレベルの特徴を追
加してもパラメータ数はあま
り増加しない
• 階層的なサブワード特徴を使
用した学習時間はベースライ
ンNMTと同等
NVIDIA
GeForce
GTX 1080
Ti GPU
使用
パラメータ数および
1エポックあたりに必要な学習時間
本手法は追加の計算コストが不要
既存のシステムに容易に適用可能
モデルアンサンブルの結果
階層的なサブワード機能は,アンサンブルであってもBLEUスコアを一貫して改善
➝ 本手法はWMTに提出されるような高度に調整されたシステムにも適用可能
独立して訓練された
4つのモデルを
アンサンブル
改善した翻訳の例
FR→ENで改善された翻訳の例
低頻度の固有名詞
“Britney Spears” のサブワード
ベースラインで翻訳できていない「Britney
Spears」を正しく翻訳
大きなマージ数によるサブワードの埋め込み
層が十分に学習されていないため
提案モデルでは大小両方の特徴を利用するこ
とでこのような低頻度語を正しく翻訳可能
関連研究
• SennrichとHaddow (2016) : 言語的特徴を埋め込み層に追加
• 形態素解析器か係り受け解析器が必要で,適用可能な言語が限定
• これに対して提案手法はすべての言語に適用可能
• Kudo (2018) : 分割確率に基づいて異なるサブワード分割を
使用するサブワード正則化法
• オープンドメインの設定で効果的
• 今後の研究で調査(組み合わせた効果の検証等)
• いくつかの研究では,文字,サブワード,形態素レベルの
情報を符号化するためにRNNやCNNを埋め込み層に組込み
• これに対して提案手法は高速計算の点で大きな利点
まとめ
• 階層的なサブワード特徴を用いてNMTの実験を実行
• エンコーダ側に階層的なサブワード特徴を追加するとBLEU
スコアが一貫して向上することを確認
• サブワード単位のモデルに適用するのが非常に簡単
• 将来的にデファクトスタンダードになる可能性
• 今後の課題
1. RNNベース以外の新しいNMTモデルを用いて本手法を試し,有効
かどうかを確認
2. より大きなデータセットに本手法を適用

More Related Content

PPTX
Paper: seq2seq 20190320
PPTX
勉強会 - 2
PDF
読解支援@2015 07-13
PDF
Bi-Directional Block Self-Attention for Fast and Memory-Efficient Sequence Mo...
PDF
Reusing weights in subword aware neural language models
PDF
A scalable probablistic classifier for language modeling: ACL 2011 読み会
PPTX
ニューラル機械翻訳の動向@IBIS2017
PPTX
Agreement for rnn
Paper: seq2seq 20190320
勉強会 - 2
読解支援@2015 07-13
Bi-Directional Block Self-Attention for Fast and Memory-Efficient Sequence Mo...
Reusing weights in subword aware neural language models
A scalable probablistic classifier for language modeling: ACL 2011 読み会
ニューラル機械翻訳の動向@IBIS2017
Agreement for rnn

More from 広樹 本間 (14)

PDF
論文紹介: Improving grammatical error correction models with purpose built advers...
PDF
Infusing sequential information into conditional masked translation model wit...
PDF
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
PPTX
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
PDF
2020 03 05_mar_revenshtein_transformer_tmu_homma
PDF
EMNLP 2019 parallel iterative edit models for local sequence transduction
PDF
2019 Levenshtein Transformer
PDF
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
PDF
論文紹介 Star-Transformer (NAACL 2019)
PDF
2019年度チュートリアルBPE
PDF
Unsupervised multilingual word embeddings
PDF
A deep relevance model for zero shot document filtering
PDF
最終発表
PDF
企画書 VirtualDarts v2
論文紹介: Improving grammatical error correction models with purpose built advers...
Infusing sequential information into conditional masked translation model wit...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
2020 03 05_mar_revenshtein_transformer_tmu_homma
EMNLP 2019 parallel iterative edit models for local sequence transduction
2019 Levenshtein Transformer
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
論文紹介 Star-Transformer (NAACL 2019)
2019年度チュートリアルBPE
Unsupervised multilingual word embeddings
A deep relevance model for zero shot document filtering
最終発表
企画書 VirtualDarts v2
Ad

Improving neural machine translation by incorporating hierarchical subword features