SlideShare a Scribd company logo
Zhu et al. ”A Monolingual Tree-based
Translation Model for Sentence
Simplification”
In Proc. of COLING, pp.1353-1361, 2010.
B4 西原 大貴
1 / 18
目次
 概要
 PWKP
 TSM
 訓練(トレーニング)
 復号(デコード)
 評価
 結論
2 / 18
概要
 Tree-based Simplification Model (TSM) で
TS (Text Simplification) した
 既存手法では別々に行われている分割・削除・並び替
え・置換を、統一的にやった
 Wiki と Simple Wiki での訓練方法も考えた
 データセット PWKP を使った
 可読性が上がった
3 / 18
PWKP
Wikipediaのデータセット
 Simple Wiki は、子供と英語学習者向け
4 / 18
PWKP:処理手順
1. 記事のペアリング
2. テキストの抽出
3. 前処理
4. モノリンガル文アライメント
5 / 18
PWKP:処理手順(1頁目)
1. 記事のペアリング
 65,133記事(のペア):管理記事は除く
2. テキストの抽出
 JWPL (Zesch et al., 2008) を用いてwikiタグ削除
6 / 18
PWKP:処理手順(2頁目)
3. 前処理
 文の境界検出やトークナイズ
◦ by Stanford Parser (Klein and Manning, 2003)
 形態素解析
◦ by TreeTagger (Schmid, 1994)
7 / 18
PWKP:処理手順(3頁目)
4. モノリンガル文アライメント
 3つの類似度みてアライメント
◦ 文レベルのTF*IDF (Nelken and Shieber, 2006)
◦ 単語の重なり (Barzilay and Elhadad, 2003)
◦ 単語の最大編集距離 (Levenshtein, 1966)
 手動で120文を評価(表1に precision と recall)
◦ Nelken et al. (2006) の recall (55.8%) に近づくよう
手動で類似度閾値調整
8 / 18
PWKP:処理手順(4頁目)
4. モノリンガル文アライメント
 文レベルの TF*IDF を使ってデータを整理した
◦ この尺度が一番優れているから
9 / 18
PWKP
文対データ完成
 108K以上
 難解(complex)from Wikipedia
 平易(simple)from Simple Wikipedia
10 / 18
TSM
 例文 c とその構文木(図1)
11 / 18
TSM
Tree-based Simplification Model
 難解な文の構文木への4つの操作
1. 分割
2. 削除
3. 並べ替え
4. 置換
12 / 18
TSM:分割/削除/並べ替え/置換
1. 分割
A) segmentation(どこで分割するか)
B) completion(分割した文を完成させる)
13 / 18
TSM:分割/削除/並べ替え/置換
A) segmentation(どこで分割するか)
 分割境界単語(split boundary word)の
構成素(syntactic constituent)で分割
◦ アルゴリズム1で決める(次頁)
 分割する確率は文の長さ依存
◦ 次式で決める(次々頁)
14 / 18
TSM:分割/削除/並べ替え/置換
アルゴリズム1
 対象の単語を最左とする最大の部分木のルート
 例えば which なら SBAR
15 / 18
TSM:分割/削除/並べ替え/置換
分割する確率は文の長さ依存(表3)

◦ comLength:難解文の長さ
◦ avgSimLength:トレーニングデータ中の平易文の平均長さ
 Prob:トレーニングで得られる確率
16 / 18
TSM:分割/削除/並べ替え/置換
分割確率が最大のものを選ぶ
 例
17 / 18
TSM:分割/削除/並べ替え/置換
1. 分割
A) segmentation(どこで分割するか)
B) completion(分割した文を完成させる)
18 / 18
TSM:分割/削除/並べ替え/置換
B) completion(分割した文を完成させる)
 the ancient Roman calendar started in 735BC
コピーして左に挿入
削除
19 / 18
TSM:分割/削除/並べ替え/置換
B) completion(分割した文を完成させる)
 必要なタスク
◦ 削除するかどうか
◦ 何をコピーして、どこに挿入するか
20 / 18
TSM:分割/削除/並べ替え/置換
削除するかどうか
21 / 18
TSM:分割/削除/並べ替え/置換
何をコピーして、どこに挿入するか
 依存関係と構成素で決まる
◦ Stanford Parser
 calendar と started の依存関係は gov nsubj
22 / 18
TSM
Tree-based Simplification Model
 難解な文の構文木への4つの操作
1. 分割
2. 削除
3. 並べ替え
4. 置換
23 / 18
TSM:分割/削除/並べ替え/置換
まず削除
次に並べ替え
 解析木の非終端ノードへ上から下に並べ替え
保持:1 削除:0
並び替えた子の順
24 / 18
TSM:分割/削除/並べ替え/置換
削除と並べ替えはそのまま
25 / 18
TSM:分割/削除/並べ替え/置換
置換
 単語
 フレーズ
◦ 非終端記号ごと置換
26 / 18
TSM
確率モデル
 ここまでに説明した内容を組み合わせる
27 / 18
訓練
P(s|c) を最大化する訓練
 グラフを使う
 EMアルゴリズム
28 / 18
訓練
P(s|c) を最大化する訓練
 長方形がデータ、丸が操作
◦ sp: 分割
◦ ro: 並べ替え
◦ mp: マッピング
◦ sub: 置換
29 / 18
訓練
EMアルゴリズム
30 / 18
訓練
Inside probablity
31 / 18
訓練
Outside Probablity
32 / 18
訓練
スピードアップ
 PWKPを1時間で訓練
 単語マッピング
 この例では which のみが(有望な)分割候補
33 / 18
訓練
 確率は一様分布で初期化とする
◦ Segmentation FT や Border Drop FT は 0.5
◦ Dropping FT や Reordering FT は 1/N!(N:子の数)
◦ Copy FT は 0.25
◦ Substitution FT は 1.0
34 / 18
復号
復号木
 mp操作なし
 1つの ro res に複数の子ノード
 ルートは難解な文
35 / 18
復号
 内部確率と外部確率を
各ノードで計算
 トリグラム言語モデルも統合
◦ 置換操作で生成文を流暢にするため
 SRILM (Stolcke, 2002) 使う
 訓練データ 54M
◦ SimpeWiki の全記事
36 / 18
評価
評価データ
 難解な文100+平易な文131 from PWKP
37 / 18
評価
ベースラインは初めの4つ
 Moses(標準的なSMT)
 C (圧縮:削除のみ) (Filippova et al, 2008a)
 CS(圧縮+置換)
 CSS(圧縮+置換+分割)
 TSM(提案手法)
 CW(Wikiからの難解な文)
 SW(Simple Wiki からの平易な文)
38 / 18
評価:結果(基本統計)
 TokLen:トークン平均長(トークンの難易度)
◦ TSMはSWとほぼ同じ
 SenLen:文のトークン平均長(文の難易度)
◦ TSMとCSSが、SWより短い
39 / 18
評価:結果(基本統計)
 Moses は CW に近い
 #Sen:文数
◦ Moses、C、CS は分割できず、CWとほぼ同じ
40 / 18
評価:結果(例1)
CW Genetic engineering has expanded the genes
available to breeders to utilize in creating desired
germlines for new crops.
(遺伝子工学は、新規作物に欲しい生殖細胞系を作り出すた
めに育種家が利用できる遺伝子を拡大している)
SW New plants were created with genetic engineering.
(新しい植物が遺伝子工学によって作られた)
TSM Engineering has expanded the genes available to
breeders to use in making germlines for new crops.
(工学は、新規作物のための生殖細胞系を作るために育種家
が使える遺伝子を拡大している)
削除
置換
41 / 18
評価:結果(例2)
CW An umbrella term is a word that provides a
superset or grouping of related concepts, also
called a hypernym.
(an umbrella term は、 hypernym とも呼ばれる、関連概念の
上位概念やグループを提供する単語である。)
SW An umbrella term is a word that provides a
superset or grouping of related concepts.
(an umbrella term は、関連概念の上位概念やグループを提
供する単語である。)
TSM An umbrella term is a word. $ A word provides a
superset of related concepts, called a hypernym.
(an umbrella term は、単語です。単語は hypernym と呼ばれ
る関連概念の上位概念を提供する。)
削除
$
分割
42 / 18
評価:結果(翻訳の考察)
 CW がソース、SW がリファレンス
 BLEU は、TSM が 0.38 で高い
◦ が、Moses や CW の方が高い
43 / 18
評価:結果(翻訳の考察)
 Moses は、CW とほぼ同じ
 CW をソースとリファレンスにすると
◦ Moses BLEU = 0.78 / TSM BLEU = 0.55
◦ TSM は Moses より、よく書き換えようとしている
44 / 18
評価:結果(翻訳の考察)
 #Same(ソースと同じだった数)
◦ Moses は多く、TSM の方がよく書き換えてる
 BLUE, NIST が、平易化システムをどれくらいよく区別し
てるかは、分からない
45 / 18
評価:結果(翻訳の考察)
 Jurafsky et al. (2008) 「BLEUは異なる
アーキテクチャのシステムを比較し難い」
◦ TSMとCSSは両方とも、分割、削除、置換
 Moses は分割と削除が苦手で異なるアーキテクチャ
46 / 18
評価:結果(翻訳の考察)
例(スライド割愛)を見てみると、
 SW と Moses は同じ文だった
◦ BLUE と NIST が最高
 TSM は、分割・削除・置換で平易化するため、
SW 文とはかなり異なる文を出した
 が、TSM の方が平易化が優れているように見える
47 / 18
評価:結果(可読性)
 Flesch と Lix (Grade=学校の学年)
◦ TSM は BLEUが良かった Moses より良い
◦ よい翻訳がよい平易化とは限らない
48 / 18
評価:結果(可読性)
 OVV
◦ SimpleWiki の Best English 850 List に含まれていない
単語の割合
◦ TSM は2番目
49 / 18
評価:結果(可読性)
 PPL (perplexity)
◦ 言語モデルがどれくらいテキストにしっくりくるか
 PWKPの平易な文でトリグラム言語モデルを
訓練し、SRILMで計算
50 / 18
今後の課題
文の補完
 分割の際、2文目で代名詞を使うなど
訳抜け
依存関係パーサーに起因するもの
 例2のAn umbrella term は call の依存関係
◦ 誤って superset を返してる
51 / 18
おまけ:誤字
 Pがない?
 青い。(6.2節)
52 / 18

More Related Content

PDF
形態素解析の過去・現在・未来
PDF
不完全な文の構文解析に基づく同時音声翻訳
PDF
質問応答システム入門
PDF
言語資源と付き合う
PDF
やさしい日本語言い換えシステムを支える技術
PPTX
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
PDF
読解支援プレゼン 4 28
PDF
鬱くしい日本語のための形態素解析入門
形態素解析の過去・現在・未来
不完全な文の構文解析に基づく同時音声翻訳
質問応答システム入門
言語資源と付き合う
やさしい日本語言い換えシステムを支える技術
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
読解支援プレゼン 4 28
鬱くしい日本語のための形態素解析入門

Similar to A Monolingual Tree-based Translation Model for Sentence Simplification (20)

PDF
アルゴリズムのお勉強 アルゴリズムとデータ構造 [素数・文字列探索・簡単なソート]
PPT
Sotsuken final
PDF
黒い目の大きな女の子:構文から意味へ
PDF
Segmenting Sponteneous Japanese using MDL principle
PDF
スペル修正プログラムの作り方 #pronama
PPTX
Machine translation
PDF
機械翻訳の今昔物語
PDF
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
PDF
R による文書分類入門
PDF
読解支援 5 26
PDF
新しくプログラミング言語・・・Rubyでやってみた
PPTX
Approximate Scalable Bounded Space Sketch for Large Data NLP
PDF
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
PDF
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
PDF
130604 fpgax kibayos
PDF
読解支援@2015 06-05
PPTX
Perl で自然言語処理
PDF
第三回さくさくテキストマイニング勉強会 入門セッション
PPTX
自然言語処理.pptx
PDF
さくさくテキストマイニング入門セッション
アルゴリズムのお勉強 アルゴリズムとデータ構造 [素数・文字列探索・簡単なソート]
Sotsuken final
黒い目の大きな女の子:構文から意味へ
Segmenting Sponteneous Japanese using MDL principle
スペル修正プログラムの作り方 #pronama
Machine translation
機械翻訳の今昔物語
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
R による文書分類入門
読解支援 5 26
新しくプログラミング言語・・・Rubyでやってみた
Approximate Scalable Bounded Space Sketch for Large Data NLP
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
構文情報に基づく機械翻訳のための能動学習手法と人手翻訳による評価
130604 fpgax kibayos
読解支援@2015 06-05
Perl で自然言語処理
第三回さくさくテキストマイニング勉強会 入門セッション
自然言語処理.pptx
さくさくテキストマイニング入門セッション
Ad

A Monolingual Tree-based Translation Model for Sentence Simplification

Editor's Notes

  • #9: TF:よく出て来る単語ほど重要 IDF:いくつもの文書で横断的に使われている単語はそんなに重要じゃない
  • #35: SFT = Segmentation Feature Table BDFT = Border Drop Feature Table DFT = Dropping Feature Table RFT = Reordering Feature Table CFT = Copy Feature Table SubFT = Substitution Feature Table
  • #42: 置換と削除、両方できてる TSMは、utilize と creating → use と making Genetic 削除
  • #49: PE=Plain English
  • #50: perplexity(PPL)は、言語モデルによって測定され、テキスト中の単語の数によって正規化されたテキスト確率のスコアである(式6)。
  • #51: perplexity(PPL)は、言語モデルによって測定され、テキスト中の単語の数によって正規化されたテキスト確率のスコアである(式6)。 PPLを使用すると、言語モデルがテキストにどの程度ぴったり一致するかを測定できます。