Submit Search
[論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation
0 likes
725 views
S
sekizawayuuki
NAACL2016読み会
Education
Read more
1 of 25
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
More Related Content
PPTX
ジャストシステムの形態素解析技術
JustSystems Corporation
PPTX
形態素解析器 売ってみた
JustSystems Corporation
PDF
A Machine Learning Framework for Programming by Example
Koji Matsuda
PDF
Emnlp読み会@2015 10-09
sekizawayuuki
PDF
Coling2016 pre-translation for neural machine translation
sekizawayuuki
PDF
Nlp2016 sekizawa
sekizawayuuki
PPTX
Emnlp読み会@2017 02-15
sekizawayuuki
PDF
Acl reading@2016 10-26
sekizawayuuki
ジャストシステムの形態素解析技術
JustSystems Corporation
形態素解析器 売ってみた
JustSystems Corporation
A Machine Learning Framework for Programming by Example
Koji Matsuda
Emnlp読み会@2015 10-09
sekizawayuuki
Coling2016 pre-translation for neural machine translation
sekizawayuuki
Nlp2016 sekizawa
sekizawayuuki
Emnlp読み会@2017 02-15
sekizawayuuki
Acl reading@2016 10-26
sekizawayuuki
More from sekizawayuuki
(20)
PDF
Translating phrases in neural machine translation
sekizawayuuki
PDF
Improving lexical choice in neural machine translation
sekizawayuuki
PDF
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
sekizawayuuki
PDF
Incorporating word reordering knowledge into attention-based neural machine t...
sekizawayuuki
PDF
paper introducing: Exploiting source side monolingual data in neural machine ...
sekizawayuuki
PPTX
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
sekizawayuuki
PDF
Acl読み会@2015 09-18
sekizawayuuki
PDF
読解支援@2015 08-10-6
sekizawayuuki
PDF
読解支援@2015 08-10-5
sekizawayuuki
PDF
読解支援@2015 08-10-4
sekizawayuuki
PDF
読解支援@2015 08-10-3
sekizawayuuki
PDF
読解支援@2015 08-10-2
sekizawayuuki
PDF
読解支援@2015 08-10-1
sekizawayuuki
PDF
読解支援@2015 07-24
sekizawayuuki
PDF
読解支援@2015 07-17
sekizawayuuki
PDF
読解支援@2015 07-13
sekizawayuuki
PDF
読解支援@2015 07-03
sekizawayuuki
PDF
読解支援@2015 06-26
sekizawayuuki
PDF
Naacl読み会@2015 06-24
sekizawayuuki
PDF
読解支援@2015 06-12
sekizawayuuki
Translating phrases in neural machine translation
sekizawayuuki
Improving lexical choice in neural machine translation
sekizawayuuki
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
sekizawayuuki
Incorporating word reordering knowledge into attention-based neural machine t...
sekizawayuuki
paper introducing: Exploiting source side monolingual data in neural machine ...
sekizawayuuki
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
sekizawayuuki
Acl読み会@2015 09-18
sekizawayuuki
読解支援@2015 08-10-6
sekizawayuuki
読解支援@2015 08-10-5
sekizawayuuki
読解支援@2015 08-10-4
sekizawayuuki
読解支援@2015 08-10-3
sekizawayuuki
読解支援@2015 08-10-2
sekizawayuuki
読解支援@2015 08-10-1
sekizawayuuki
読解支援@2015 07-24
sekizawayuuki
読解支援@2015 07-17
sekizawayuuki
読解支援@2015 07-13
sekizawayuuki
読解支援@2015 07-03
sekizawayuuki
読解支援@2015 06-26
sekizawayuuki
Naacl読み会@2015 06-24
sekizawayuuki
読解支援@2015 06-12
sekizawayuuki
Ad
[論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation
1.
NAACL2016 Selec.ng Syntac.c, Non-redundant Segments in Ac.ve Learning for Machine Transla.on Akiva Miura, Graham Neubig, Michael Paul, Satoshi Nakamura 紹介者 関沢祐樹 首都大学東京 16/06/23 1
2.
Selec.ng Syntac.c, Non-redundant Segments in Ac.ve Learning for Machine Transla.on • 背景 • SMTにおける能動学習はラベル無しデータから 情報性の高いデータを選択し、効率的に学習 •
選択されたものが、不変か、翻訳しやすいかが不明 • 同じような文脈から冗長なフレーズを選択 • 提案手法(2つ) • 文法的に不変であるフレーズを選択 • 冗長なフレーズを減少 Ø BLEU値が向上, 翻訳の確信度の向上 16/06/23 2
3.
Introduc.on • フレーズの選択 • 右の例だと3つ •
重なっている部分が冗長 à 効率が悪くなる • フレーズのマージを行う • フレーズ長を任意にでき、線形時間で計算可能 • フレーズの一部分を取り出す à 翻訳しづらい • 構文木を用いて、文法的に正しいものを選択 16/06/23 3
4.
アルゴリズム • SrcPool : 翻訳候補を含む原言語データ •
Translated : 翻訳されたパラレルデータ(フレーズのペア) • Oracle : 入力フレーズに対する正しい翻訳を与える • ex: human translator • Loop Un.l StopCondi.on: • TM ß TrainTransla.onModel(Translated) • NewSrc ß SelectNextPhrase(SrcPool, Translated, TM) • NewTrg ß GetTransla.on(Oracle, NewSrc) • Translated ß Translated∪{〈NewSrc, NewTrg〉} 16/06/23 4
5.
既存手法 1. Sentence Selec.on using N–Gram Frequency • カバーできていないフレーズが最も多く出現する文を選択 (上限n-gram) •
短所 : すでにパラレルデータでカバーされているフレーズ を多く含む à コスト高 2. Phrase Selec.on using N–Gram Frequency • 最も多く出現し、まだカバーされていないh-gramフレーズを 選択(少ないデータの追加になる) • 短所 : 冗長性、フレーズの重なり 16/06/23 5
6.
冗長なフレーズの削除 • Maximal substrings • フレーズpiがコーパス上に何回現れるかocc(pi) occが等しい場合、マージする マージできなくなったフレーズ : 最長単語列(p2, p3) 16/06/23
6
7.
冗長なフレーズの削除 • 利点 • 重なるフレーズを最長句のみに削減, 長さの上限無し •
最長句、その発生回数はenhanced suffix arrays によって 線形時間(文書長)で計算される • 欠点 • 先ほどの例だとp2とp3が残るがやはり冗長 à 共起回数がほぼ等しい場合は削除 16/06/23 7 λを用いる(0〜1の実数値、本研究では0.5)
8.
文法的な判断 • 原言語文を解析し、全ての部分木を走査 • 文法的に、句である部分を全て抽出 16/06/23
8
9.
simula.on experiment • データを増やすこと、それによる再トレーニングによって翻訳の accuracyがどうなるかを評価 • 人手翻訳なし、データの追加方法の良さを見る •
英仏の翻訳 • スタート : Europarl corpus (WMT2014) • 追加 : EMEA,PatTR,Wikipedia .tle(全てMedical) • 英日の翻訳 • スタート :カバレージの広い例文コーパス(英辞郎辞書) • 追加 : ASPEC科学ペーパーのアブストラクトのコーパス • 日本語のコーパスのトークン化ではKyteaを用い、60以上の長さの文は 除去 à 解析、アライメントの正確さを確実 16/06/23 9
10.
データの詳細 16/06/23 10
11.
実験設定 • フレーズベースSMT(Moses Toolkit)を使用 • 効率的再トレーニングのためにinc-giza-ppを使用、 これは、
単語アライメントを取るGIZA++で、トレーニ ングデータを増やすこと、変化できる suffix array フ レーズテーブル(Moses) を含む。 • 言語モデルは5-gram • デコーディングのパラメータ : 毎回調整は非現実的 • ベースラインのBLEU値が最大となるパラメータ 16/06/23 11
12.
8つの手法 • sent-rand: 文をランダムに選択 • 4gram-rand: n-gram :
単語列をランダムに選択、上限は4 • sent-by-4gram-freq(baseline 1): まだカバーされていないフレーズ(最長 4)を最も多く含む文を選択 4gram-freq(baseline 2): 最も多く出現する、まだカバーされていないフ レーズ(最長4)を選択 • 以下は提案 • maxsubst-freq: 最も多く出現する、まだカバーされていない 最長句を選択 • reduced-maxsubst-freq:最も多く出現する、まだカバーされていない 凖最長句を選択 • struct-freq: 部分木から抽出された句のうち、最も多く出現する、 まだカバーされていない句を選択 • reduced-struct-freq:部分木から抽出された句のうち、最も多く出現する、 まだカバーされていない凖最長句を選択 16/06/23 12
13.
result : BLEUとAdd Word 英仏 • 冗長句を除くことは良いといえる 16/06/23 13
14.
result : BLEUとAdd Word 英日 16/06/23 14
15.
result : フレーズ数とLength • 木構造を用いた方法に注目すると、他のよりも 短いフレーズを選択している 16/06/23
15
16.
result : Coverage 16/06/23 16
17.
人手による翻訳の質の評価 • 翻訳の専門家3人に依頼 16/06/23 17
18.
実験設定 • beseline : sent-by-4gram-freqと4-gram-freq • 提案手法 : reduced-struct-freq •
英日と同じ実験設定 • 目的言語モデルのトレーニングでは、SRILM を使用して集めたデータを補間 • パープレキシティが最大になるようにパラメー タ調整 16/06/23 18
19.
result : BLEUとAdd Words 16/06/23 19
20.
result: BLEUと.me 16/06/23 20
21.
result : TimeとConfidence • 収集単語数 : 10,000 3の割合 : 79% 16/06/23 21
22.
result : TimeとPhrase Length • length 1 が時間がかかる • 専門用語になりやすく、辞書を見る必要あり 16/06/23
22
23.
result : ConfidenceとPhrase Length • 1のとき低い à baselineはlength1が少ない •
提案手法はlength2以降も安定 16/06/23 23
24.
result : Accuracy(BLEU Score) • 確信度で分けて実験 • 確信度1を除いた時は総じて良くなる •
一方3のみの場合は悪くなる • データを加えない場合はBLEU : 9.37% 16/06/23 24
25.
Selec.ng Syntac.c, Non-redundant Segments in Ac.ve Learning for Machine Transla.on • 提案手法 • 文法的に不変であるフレーズを選択 •
冗長なフレーズを減少 Ø BLEU値が向上, 翻訳の確信度の向上 • 改善点 • 翻訳に時間がかかる専門用語の対処 • 未知語を対処する方法の組み合わせ • 必要な時間によって選択した単語列を最適化する • 柔軟な文法の制限による様々なフレーズの アノテーション • 例えば”one of the preceding X” 16/06/23 25
Download