Improving neural machine translation by incorporating hierarchical subword features

Improving Neural Machine Translation
by Incorporating
Hierarchical Subword Features
Makoto Morishita, Jun Suzuki and Masaaki Nagata
論文紹介 B4 本間

導入
• NMTのOOVの問題の解決策にサブワード化がある
• 3つの層でサブワード化
• 最適なサブワード単位はそれぞれの層で異なる
この論文ではBPEを用いる
デコーダ RNNエンコーダ RNN
エンコーダ埋め込み層デコーダ埋め込み層
出力層
１２
３
仮説

導入
• 複数の語彙数のサブワードを同時に扱うモデルを用意
• 大きなサブワード語彙は小さなサブワード語彙の上位集合
• 小さなサブワード語彙を埋め込み層の追加特徴として使用
サ，ブ，ワ，ー，ド，サブ
ード，ワード，サブワード
サ，ブ，ワ，ー，ド
サブ，ード⊃
仮説の検証
これを「階層的なサブワード特徴」と呼ぶ
単に埋め込みの
合計を用いる

デコーダ / 注意機構
ベースラインモデル
• 注意機構付き Bi-RNN Enc-Decモデル Bahdnau 2015
詳細は省略
𝑋, 𝑌：入, 出力の one-hot ベクトルの列
𝑥𝑖, 𝑦𝑗： 𝑋, 𝑌 の 𝑖, 𝑗 番目のトークン
𝑥𝑖:𝐼, 𝑦𝑗:𝐽： one-hot ベクトルのリスト
𝐼, 𝐽： one-hot ベクトルのリストの長さ
𝑦0：BOSトークンの one-hot ベクトル
𝑦𝐽+1：EOSトークンの one-hot ベクトル
エンコーダ
テスト時は 𝐾-best

Byte-Pair Encoding に基づくサブワード単位
• Sennrich (2016) の方法を SubWBPE として参照
• 文字単位，サブワード単位，単語単位を区別せず，すべて
をサブワード単位として扱う
1. 入力文を文字単位に分割
2. 頻繁に出現する２つの連続する文字またはサブワードを１つのサブ
ワードに結合
3. この結合操作を事前に定義された 𝑚 回だけ繰り返す
𝑚 = 0 ⇒ 文字単位 𝑚 = ∞ ⇒ 単語単位

階層的なサブワード特徴
提案手法

提案手法
𝑸 個のエンコーダ
埋め込み行列
𝑹 個のデコーダ
埋め込み行列𝑬 𝟏
𝑬 𝟐
𝑬 𝟑
𝑭 𝟏
𝑭 𝟐
対応するバイナリベクトルを返す関数

提案手法
record
に対応するバイ
ナリベクトル

実験設定使用データ
• 英語（EN）と，フランス語（FR），ドイツ語（DE）の双方向翻訳
• データセット：TEDの話に基づくIWSLT
• 前処理：Moses tokenizer, truecaser
• 学習データから50語を削除
英語フランス語ドイツ語
前処理後のIWSLT

実験設定 NMTフレームワーク
• NMTフレームワークとして，提案する埋め込み層以外はLuongら (2015)
と同じ構造を使用
• 40 エポックまで学習
• 30 エポック以降は学習率を 0.8 がけ
• ビームサーチのビームサイズ：20
• 短文の出力を防ぐために，文長で負の対数尤度を除算し長さを正規化
• multi-bleu.perl を使用し，BLEU スコアで評価
Cromieres 2016
Morishita 2017
NMTの詳細な構成

実験設定予備分析
• 実験設定を決定するため文長と語彙数の関係を見つける予備分析をした
• 長い文はより多くの計算コストを必要とし，時間がかかる
• ベースラインシステムの語彙サイズ（マージ数）を16,000に設定
DE-EN学習データ
における
語彙数と平均文長
の関係

実験設定＋実験で答える質問
はモデルを改善するか
エンコーダ側とデコーダ
側どちらを使うべきか
翻訳結果にはどの
ような影響があるか

実験結果
すべて独立して学習した
4つのモデルの平均のBLEU
() 内はベース
ラインとの差
少しだけ良くなっているが，
文長が長すぎて計算時間も延びる
より少ないマージ数
（＝少ない語彙数）
を用いたモデル

実験結果
論文で言及されていなかったため省略
EN⇔DEと同じような結果

実験結果
階層的なサブワード特徴がモデルを改善
システム (f) はBPE (m=1k) と (m=300) の両方を使用し，片方だけよりも改善
これらはBPE (m=16k) を単位として使用するため，計算コストは (a) とほぼ同じ
エンコーダ側に階層的なサブワード特徴
を追加したモデル

実験結果
システム (g) は予想通り下がっているが，階層的なサブワード特徴を追加すること
でBPEのシステムと同じレベルで精度が向上
階層的なサブワード特徴はモデルの低頻度語を正しく符号化し精度向上を補助
システム (h) では，おそらく大きなサブワード単位 (m=16k) が単語単位に似てい
るため，あまり上がらなかったと思われる
エンコーダ側をBPE (m=16k) ではなく
単語単位 (m=∞) で学習したモデル
サブワード
の出現頻度
とランクの
関係
Zipf’s law

結果
エンコーダ側ほどの改善は見られなかった。これは本手法がモデルの正則化として
働き，デコーダの言語モデリング能力を低下させているからかもしれない
デコーダ側に階層的なサブワード特徴
を追加したモデル

結果
システム (f) および (k) からわずかに改善しているが，有用性は限られる
エンコーダ・デコーダ両側に階層的なサブワード特徴を使用したモデル

結果
この結果は以下のことを示唆している
（１）階層的なサブワード特徴をエンコーダ側だけに追加
（２）より少ないマージ数，例えば m=300, 1k を使用
するのがよい。

パラメータ数と学習時間
• 単語レベルの特徴を追加する
とモデルパラメータ数が大幅
に増加
• サブワードレベルの特徴を追
加してもパラメータ数はあま
り増加しない
• 階層的なサブワード特徴を使
用した学習時間はベースライ
ンNMTと同等
NVIDIA
GeForce
GTX 1080
Ti GPU
使用
パラメータ数および
１エポックあたりに必要な学習時間
本手法は追加の計算コストが不要
既存のシステムに容易に適用可能

モデルアンサンブルの結果
階層的なサブワード機能は，アンサンブルであってもBLEUスコアを一貫して改善
➝ 本手法はWMTに提出されるような高度に調整されたシステムにも適用可能
独立して訓練された
４つのモデルを
アンサンブル

改善した翻訳の例
FR→ENで改善された翻訳の例
低頻度の固有名詞
“Britney Spears” のサブワード
ベースラインで翻訳できていない「Britney
Spears」を正しく翻訳
大きなマージ数によるサブワードの埋め込み
層が十分に学習されていないため
提案モデルでは大小両方の特徴を利用するこ
とでこのような低頻度語を正しく翻訳可能

関連研究
• SennrichとHaddow (2016) : 言語的特徴を埋め込み層に追加
• 形態素解析器か係り受け解析器が必要で，適用可能な言語が限定
• これに対して提案手法はすべての言語に適用可能
• Kudo (2018) : 分割確率に基づいて異なるサブワード分割を
使用するサブワード正則化法
• オープンドメインの設定で効果的
• 今後の研究で調査（組み合わせた効果の検証等）
• いくつかの研究では，文字，サブワード，形態素レベルの
情報を符号化するためにRNNやCNNを埋め込み層に組込み
• これに対して提案手法は高速計算の点で大きな利点

まとめ
• 階層的なサブワード特徴を用いてNMTの実験を実行
• エンコーダ側に階層的なサブワード特徴を追加するとBLEU
スコアが一貫して向上することを確認
• サブワード単位のモデルに適用するのが非常に簡単
• 将来的にデファクトスタンダードになる可能性
• 今後の課題
1. RNNベース以外の新しいNMTモデルを用いて本手法を試し，有効
かどうかを確認
2. より大きなデータセットに本手法を適用

Improving neural machine translation by incorporating hierarchical subword features

More Related Content

More from 広樹本間 (14)