SlideShare a Scribd company logo
NAACL2016	
Selec.ng	Syntac.c,	Non-redundant	Segments	
in	Ac.ve	Learning	for	Machine	Transla.on	
	
Akiva	Miura,	Graham	Neubig,	
	Michael	Paul,	Satoshi	Nakamura	
紹介者 関沢祐樹	
首都大学東京	
16/06/23	 1
Selec.ng	Syntac.c,	Non-redundant	Segments	in	
Ac.ve	Learning	for	Machine	Transla.on	
•  背景	
•  SMTにおける能動学習はラベル無しデータから
情報性の高いデータを選択し、効率的に学習	
•  選択されたものが、不変か、翻訳しやすいかが不明	
•  同じような文脈から冗長なフレーズを選択	
•  提案手法(2つ)	
•  文法的に不変であるフレーズを選択	
•  冗長なフレーズを減少	
Ø BLEU値が向上, 翻訳の確信度の向上	
16/06/23	 2
Introduc.on	
•  フレーズの選択	
•  右の例だと3つ	
	
•  重なっている部分が冗長 à	効率が悪くなる	
•  フレーズのマージを行う	
•  フレーズ長を任意にでき、線形時間で計算可能	
•  フレーズの一部分を取り出す à 翻訳しづらい	
•  構文木を用いて、文法的に正しいものを選択	
16/06/23	 3
アルゴリズム	
•  SrcPool	: 翻訳候補を含む原言語データ	
•  Translated	:	翻訳されたパラレルデータ(フレーズのペア)	
•  Oracle	:	入力フレーズに対する正しい翻訳を与える	
•  ex:	human	translator	
•  Loop	Un.l	StopCondi.on:	
•  TM		 	 	ß	TrainTransla.onModel(Translated)	
•  NewSrc		 	ß	SelectNextPhrase(SrcPool,	Translated,	TM)	
•  NewTrg	 	ß	GetTransla.on(Oracle,	NewSrc)	
•  Translated		ß	Translated∪{〈NewSrc,	NewTrg〉}	
16/06/23	 4
既存手法	
1.  Sentence	Selec.on	using	N–Gram	Frequency	
•  カバーできていないフレーズが最も多く出現する文を選択
(上限n-gram)	
•  短所	:	すでにパラレルデータでカバーされているフレーズ
を多く含む à コスト高	
2.  Phrase	Selec.on	using	N–Gram	Frequency	
•  最も多く出現し、まだカバーされていないh-gramフレーズを
選択(少ないデータの追加になる)	
•  短所	:	冗長性、フレーズの重なり	
16/06/23	 5
冗長なフレーズの削除	
•  Maximal	substrings	
•  フレーズpiがコーパス上に何回現れるかocc(pi)	
occが等しい場合、マージする	
マージできなくなったフレーズ	:	最長単語列(p2,	p3)	
16/06/23	 6
冗長なフレーズの削除	
•  利点	
•  重なるフレーズを最長句のみに削減,	長さの上限無し	
•  最長句、その発生回数はenhanced	suffix	arrays	によって
線形時間(文書長)で計算される	
•  欠点	
•  先ほどの例だとp2とp3が残るがやはり冗長	
à	共起回数がほぼ等しい場合は削除	
16/06/23	 7	
λを用いる(0〜1の実数値、本研究では0.5)
文法的な判断	
•  原言語文を解析し、全ての部分木を走査	
•  文法的に、句である部分を全て抽出	
16/06/23	 8
simula.on	experiment	
•  データを増やすこと、それによる再トレーニングによって翻訳の
accuracyがどうなるかを評価	
•  人手翻訳なし、データの追加方法の良さを見る	
•  英仏の翻訳	
•  スタート	:	Europarl	corpus	(WMT2014)	
•  追加	:	EMEA,PatTR,Wikipedia	.tle(全てMedical)	
•  英日の翻訳	
•  スタート	:カバレージの広い例文コーパス(英辞郎辞書)	
•  追加 :	ASPEC科学ペーパーのアブストラクトのコーパス	
•  日本語のコーパスのトークン化ではKyteaを用い、60以上の長さの文は	
除去 à	解析、アライメントの正確さを確実	
16/06/23	 9
データの詳細	
16/06/23	 10
実験設定	
•  フレーズベースSMT(Moses	Toolkit)を使用	
•  効率的再トレーニングのためにinc-giza-ppを使用、
これは、 単語アライメントを取るGIZA++で、トレーニ
ングデータを増やすこと、変化できる	suffix	array	フ
レーズテーブル(Moses) を含む。	
•  言語モデルは5-gram	
•  デコーディングのパラメータ : 毎回調整は非現実的	
•  ベースラインのBLEU値が最大となるパラメータ	
16/06/23	 11
8つの手法	
•  sent-rand:	文をランダムに選択	
•  4gram-rand:	n-gram	: 単語列をランダムに選択、上限は4	
•  sent-by-4gram-freq(baseline	1):	まだカバーされていないフレーズ(最長
4)を最も多く含む文を選択	
4gram-freq(baseline	2):	最も多く出現する、まだカバーされていないフ
レーズ(最長4)を選択	
•  以下は提案	
•  maxsubst-freq:	最も多く出現する、まだカバーされていない	
最長句を選択	
•  reduced-maxsubst-freq:最も多く出現する、まだカバーされていない	
凖最長句を選択	
•  struct-freq:	部分木から抽出された句のうち、最も多く出現する、	
まだカバーされていない句を選択	
•  reduced-struct-freq:部分木から抽出された句のうち、最も多く出現する、
まだカバーされていない凖最長句を選択	
16/06/23	 12
result	:	BLEUとAdd	Word	英仏	
•  冗長句を除くことは良いといえる	
16/06/23	 13
result	:	BLEUとAdd	Word	英日	
16/06/23	 14
result	: フレーズ数とLength	
•  木構造を用いた方法に注目すると、他のよりも
短いフレーズを選択している	
16/06/23	 15
result	:	Coverage	
16/06/23	 16
人手による翻訳の質の評価	
•  翻訳の専門家3人に依頼	
16/06/23	 17
実験設定	
•  beseline	:	sent-by-4gram-freqと4-gram-freq	
•  提案手法	:	reduced-struct-freq	
•  英日と同じ実験設定	
•  目的言語モデルのトレーニングでは、SRILM
を使用して集めたデータを補間	
•  パープレキシティが最大になるようにパラメー
タ調整	
16/06/23	 18
result	:	BLEUとAdd	Words	
16/06/23	 19
result:	BLEUと.me	
16/06/23	 20
result	:	TimeとConfidence	
•  収集単語数	:	10,000	
3の割合	:	79%	
16/06/23	 21
result	:	TimeとPhrase	Length	
•  length	1	が時間がかかる	
•  専門用語になりやすく、辞書を見る必要あり	
16/06/23	 22
result	:	ConfidenceとPhrase	Length	
•  1のとき低い à	baselineはlength1が少ない	
•  提案手法はlength2以降も安定	
16/06/23	 23
result	:	Accuracy(BLEU	Score)	
•  確信度で分けて実験	
•  確信度1を除いた時は総じて良くなる	
•  一方3のみの場合は悪くなる	
•  データを加えない場合はBLEU	:	9.37%	
16/06/23	 24
Selec.ng	Syntac.c,	Non-redundant	Segments	in	
Ac.ve	Learning	for	Machine	Transla.on	
•  提案手法	
•  文法的に不変であるフレーズを選択	
•  冗長なフレーズを減少	
Ø BLEU値が向上, 翻訳の確信度の向上	
•  改善点	
•  翻訳に時間がかかる専門用語の対処	
•  未知語を対処する方法の組み合わせ	
•  必要な時間によって選択した単語列を最適化する	
•  柔軟な文法の制限による様々なフレーズの	
アノテーション	
•  例えば”one	of	the	preceding	X”	16/06/23	 25

More Related Content

PPTX
ジャストシステムの形態素解析技術
PPTX
形態素解析器 売ってみた
PDF
A Machine Learning Framework for Programming by Example
PDF
Emnlp読み会@2015 10-09
PDF
Coling2016 pre-translation for neural machine translation
PDF
Nlp2016 sekizawa
PPTX
Emnlp読み会@2017 02-15
PDF
Acl reading@2016 10-26
ジャストシステムの形態素解析技術
形態素解析器 売ってみた
A Machine Learning Framework for Programming by Example
Emnlp読み会@2015 10-09
Coling2016 pre-translation for neural machine translation
Nlp2016 sekizawa
Emnlp読み会@2017 02-15
Acl reading@2016 10-26

More from sekizawayuuki (20)

PDF
Translating phrases in neural machine translation
PDF
Improving lexical choice in neural machine translation
PDF
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
PDF
Incorporating word reordering knowledge into attention-based neural machine t...
PDF
paper introducing: Exploiting source side monolingual data in neural machine ...
PPTX
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
PDF
Acl読み会@2015 09-18
PDF
読解支援@2015 08-10-6
PDF
読解支援@2015 08-10-5
PDF
読解支援@2015 08-10-4
PDF
読解支援@2015 08-10-3
PDF
読解支援@2015 08-10-2
PDF
読解支援@2015 08-10-1
PDF
読解支援@2015 07-24
PDF
読解支援@2015 07-17
PDF
読解支援@2015 07-13
PDF
読解支援@2015 07-03
PDF
読解支援@2015 06-26
PDF
Naacl読み会@2015 06-24
PDF
読解支援@2015 06-12
Translating phrases in neural machine translation
Improving lexical choice in neural machine translation
Improving Japanese-to-English Neural Machine Translation by Paraphrasing the ...
Incorporating word reordering knowledge into attention-based neural machine t...
paper introducing: Exploiting source side monolingual data in neural machine ...
目的言語の低頻度語の高頻度語への言い換えによるニューラル機械翻訳の改善
Acl読み会@2015 09-18
読解支援@2015 08-10-6
読解支援@2015 08-10-5
読解支援@2015 08-10-4
読解支援@2015 08-10-3
読解支援@2015 08-10-2
読解支援@2015 08-10-1
読解支援@2015 07-24
読解支援@2015 07-17
読解支援@2015 07-13
読解支援@2015 07-03
読解支援@2015 06-26
Naacl読み会@2015 06-24
読解支援@2015 06-12
Ad

[論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation