Submit Search
Improving neural machine translation by incorporating hierarchical subword features
0 likes
269 views
広
広樹 本間
論文紹介 B4本間 COLING 2018
Engineering
Read more
1 of 24
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
More Related Content
PPTX
Paper: seq2seq 20190320
Yusuke Fujimoto
PPTX
勉強会 - 2
KenjiYamasaki5
PDF
読解支援@2015 07-13
sekizawayuuki
PDF
Bi-Directional Block Self-Attention for Fast and Memory-Efficient Sequence Mo...
Satoru Katsumata
PDF
Reusing weights in subword aware neural language models
広樹 本間
PDF
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
PPTX
ニューラル機械翻訳の動向@IBIS2017
Toshiaki Nakazawa
PPTX
Agreement for rnn
Aizhan Imankulova
Paper: seq2seq 20190320
Yusuke Fujimoto
勉強会 - 2
KenjiYamasaki5
読解支援@2015 07-13
sekizawayuuki
Bi-Directional Block Self-Attention for Fast and Memory-Efficient Sequence Mo...
Satoru Katsumata
Reusing weights in subword aware neural language models
広樹 本間
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
ニューラル機械翻訳の動向@IBIS2017
Toshiaki Nakazawa
Agreement for rnn
Aizhan Imankulova
More from 広樹 本間
(14)
PDF
論文紹介: Improving grammatical error correction models with purpose built advers...
広樹 本間
PDF
Infusing sequential information into conditional masked translation model wit...
広樹 本間
PDF
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
広樹 本間
PPTX
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
広樹 本間
PDF
2020 03 05_mar_revenshtein_transformer_tmu_homma
広樹 本間
PDF
EMNLP 2019 parallel iterative edit models for local sequence transduction
広樹 本間
PDF
2019 Levenshtein Transformer
広樹 本間
PDF
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
広樹 本間
PDF
論文紹介 Star-Transformer (NAACL 2019)
広樹 本間
PDF
2019年度チュートリアルBPE
広樹 本間
PDF
Unsupervised multilingual word embeddings
広樹 本間
PDF
A deep relevance model for zero shot document filtering
広樹 本間
PDF
最終発表
広樹 本間
PDF
企画書 VirtualDarts v2
広樹 本間
論文紹介: Improving grammatical error correction models with purpose built advers...
広樹 本間
Infusing sequential information into conditional masked translation model wit...
広樹 本間
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
広樹 本間
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
広樹 本間
2020 03 05_mar_revenshtein_transformer_tmu_homma
広樹 本間
EMNLP 2019 parallel iterative edit models for local sequence transduction
広樹 本間
2019 Levenshtein Transformer
広樹 本間
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
広樹 本間
論文紹介 Star-Transformer (NAACL 2019)
広樹 本間
2019年度チュートリアルBPE
広樹 本間
Unsupervised multilingual word embeddings
広樹 本間
A deep relevance model for zero shot document filtering
広樹 本間
最終発表
広樹 本間
企画書 VirtualDarts v2
広樹 本間
Ad
Improving neural machine translation by incorporating hierarchical subword features
1.
Improving Neural Machine
Translation by Incorporating Hierarchical Subword Features Makoto Morishita, Jun Suzuki and Masaaki Nagata 論文紹介 B4 本間
2.
導入 • NMTのOOVの問題の解決策にサブワード化がある • 3つの層でサブワード化 •
最適なサブワード単位はそれぞれの層で異なる この論文ではBPEを用いる デコーダ RNNエンコーダ RNN エンコーダ埋め込み層 デコーダ埋め込み層 出力層 1 2 3 仮説
3.
導入 • 複数の語彙数のサブワードを同時に扱うモデルを用意 • 大きなサブワード語彙は小さなサブワード語彙の上位集合 •
小さなサブワード語彙を埋め込み層の追加特徴として使用 サ,ブ,ワ,ー,ド,サブ ード,ワード,サブワード サ,ブ,ワ,ー,ド サブ,ード⊃ 仮説の検証 これを「階層的なサブワード特徴」と呼ぶ 単に埋め込みの 合計を用いる
4.
デコーダ / 注意機構 ベースラインモデル •
注意機構付き Bi-RNN Enc-Decモデル Bahdnau 2015 詳細は省略 𝑋, 𝑌:入, 出力の one-hot ベクトルの列 𝑥𝑖, 𝑦𝑗: 𝑋, 𝑌 の 𝑖, 𝑗 番目のトークン 𝑥𝑖:𝐼, 𝑦𝑗:𝐽: one-hot ベクトルのリスト 𝐼, 𝐽: one-hot ベクトルのリストの長さ 𝑦0:BOSトークンの one-hot ベクトル 𝑦𝐽+1:EOSトークンの one-hot ベクトル エンコーダ テスト時は 𝐾-best
5.
Byte-Pair Encoding に基づくサブワード単位 •
Sennrich (2016) の方法を SubWBPE として参照 • 文字単位,サブワード単位,単語単位を区別せず,すべて を サブワード単位 として扱う 1. 入力文を文字単位に分割 2. 頻繁に出現する2つの連続する文字またはサブワードを1つのサブ ワードに結合 3. この結合操作を事前に定義された 𝑚 回だけ繰り返す 𝑚 = 0 ⇒ 文字単位 𝑚 = ∞ ⇒ 単語単位
6.
階層的なサブワード特徴 提案手法
7.
階層的なサブワード特徴 提案手法 𝑸 個のエンコーダ 埋め込み行列 𝑹 個のデコーダ 埋め込み行列𝑬
𝟏 𝑬 𝟐 𝑬 𝟑 𝑭 𝟏 𝑭 𝟐 対応するバイナリベクトルを返す関数
8.
階層的なサブワード特徴 提案手法 record に対応するバイ ナリベクトル
9.
実験設定 使用データ • 英語(EN)と,フランス語(FR),ドイツ語(DE)の双方向翻訳 •
データセット:TEDの話に基づくIWSLT • 前処理:Moses tokenizer, truecaser • 学習データから50語を削除 英語フランス語 ドイツ語 前処理後のIWSLT
10.
実験設定 NMTフレームワーク • NMTフレームワークとして,提案する埋め込み層以外はLuongら
(2015) と同じ構造を使用 • 40 エポックまで学習 • 30 エポック以降は学習率を 0.8 がけ • ビームサーチのビームサイズ:20 • 短文の出力を防ぐために,文長で負の対数尤度を除算し長さを正規化 • multi-bleu.perl を使用し,BLEU スコアで評価 Cromieres 2016 Morishita 2017 NMTの詳細な構成
11.
実験設定 予備分析 • 実験設定を決定するため文長と語彙数の関係を見つける予備分析をした •
長い文はより多くの計算コストを必要とし,時間がかかる • ベースラインシステムの語彙サイズ(マージ数)を16,000に設定 DE-EN学習データ における 語彙数と平均文長 の関係
12.
実験設定 +実験で答える質問 階層的なサブワード特徴 はモデルを改善するか エンコーダ側とデコーダ 側どちらを使うべきか 翻訳結果にはどの ような影響があるか
13.
実験結果 すべて独立して学習した 4つのモデルの平均のBLEU () 内はベース ラインとの差 少しだけ良くなっているが, 文長が長すぎて計算時間も延びる より少ないマージ数 (=少ない語彙数) を用いたモデル
14.
実験結果 論文で言及されていなかったため省略 EN⇔DEと同じような結果
15.
実験結果 階層的なサブワード特徴がモデルを改善 システム (f) はBPE
(m=1k) と (m=300) の両方を使用し,片方だけよりも改善 これらはBPE (m=16k) を単位として使用するため,計算コストは (a) とほぼ同じ エンコーダ側に階層的なサブワード特徴 を追加したモデル
16.
実験結果 システム (g) は予想通り下がっているが,階層的なサブワード特徴を追加すること でBPEのシステムと同じレベルで精度が向上 階層的なサブワード特徴はモデルの低頻度語を正しく符号化し精度向上を補助 システム
(h) では,おそらく大きなサブワード単位 (m=16k) が単語単位に似てい るため,あまり上がらなかったと思われる エンコーダ側をBPE (m=16k) ではなく 単語単位 (m=∞) で学習したモデル サブワード の出現頻度 とランクの 関係 Zipf’s law
17.
結果 エンコーダ側ほどの改善は見られなかった。これは本手法がモデルの正則化として 働き,デコーダの言語モデリング能力を低下させているからかもしれない デコーダ側に階層的なサブワード特徴 を追加したモデル
18.
結果 システム (f) および
(k) からわずかに改善しているが,有用性は限られる エンコーダ・デコーダ両側に階層的なサブワード特徴を使用したモデル
19.
結果 この結果は以下のことを示唆している (1)階層的なサブワード特徴をエンコーダ側だけに追加 (2)より少ないマージ数,例えば m=300, 1k
を使用 するのがよい。
20.
パラメータ数と学習時間 • 単語レベルの特徴を追加する とモデルパラメータ数が大幅 に増加 • サブワードレベルの特徴を追 加してもパラメータ数はあま り増加しない •
階層的なサブワード特徴を使 用した学習時間はベースライ ンNMTと同等 NVIDIA GeForce GTX 1080 Ti GPU 使用 パラメータ数および 1エポックあたりに必要な学習時間 本手法は追加の計算コストが不要 既存のシステムに容易に適用可能
21.
モデルアンサンブルの結果 階層的なサブワード機能は,アンサンブルであってもBLEUスコアを一貫して改善 ➝ 本手法はWMTに提出されるような高度に調整されたシステムにも適用可能 独立して訓練された 4つのモデルを アンサンブル
22.
改善した翻訳の例 FR→ENで改善された翻訳の例 低頻度の固有名詞 “Britney Spears” のサブワード ベースラインで翻訳できていない「Britney Spears」を正しく翻訳 大きなマージ数によるサブワードの埋め込み 層が十分に学習されていないため 提案モデルでは大小両方の特徴を利用するこ とでこのような低頻度語を正しく翻訳可能
23.
関連研究 • SennrichとHaddow (2016)
: 言語的特徴を埋め込み層に追加 • 形態素解析器か係り受け解析器が必要で,適用可能な言語が限定 • これに対して提案手法はすべての言語に適用可能 • Kudo (2018) : 分割確率に基づいて異なるサブワード分割を 使用するサブワード正則化法 • オープンドメインの設定で効果的 • 今後の研究で調査(組み合わせた効果の検証等) • いくつかの研究では,文字,サブワード,形態素レベルの 情報を符号化するためにRNNやCNNを埋め込み層に組込み • これに対して提案手法は高速計算の点で大きな利点
24.
まとめ • 階層的なサブワード特徴を用いてNMTの実験を実行 • エンコーダ側に階層的なサブワード特徴を追加するとBLEU スコアが一貫して向上することを確認 •
サブワード単位のモデルに適用するのが非常に簡単 • 将来的にデファクトスタンダードになる可能性 • 今後の課題 1. RNNベース以外の新しいNMTモデルを用いて本手法を試し,有効 かどうかを確認 2. より大きなデータセットに本手法を適用
Download