A Monolingual Tree-based Translation Model for Sentence Simplification

Zhu et al. ”A Monolingual Tree-based
Translation Model for Sentence
Simplification”
In Proc. of COLING, pp.1353-1361, 2010.
B4 西原大貴
1 / 18

目次
 概要
 PWKP
 TSM
 訓練（トレーニング）
 復号（デコード）
 評価
 結論
2 / 18

概要
 Tree-based Simplification Model (TSM) で
TS (Text Simplification) した
 既存手法では別々に行われている分割・削除・並び替
え・置換を、統一的にやった
 Wiki と Simple Wiki での訓練方法も考えた
 データセット PWKP を使った
 可読性が上がった
3 / 18

PWKP
Wikipediaのデータセット
 Simple Wiki は、子供と英語学習者向け
4 / 18

PWKP：処理手順
1. 記事のペアリング
2. テキストの抽出
3. 前処理
4. モノリンガル文アライメント
5 / 18

PWKP：処理手順（１頁目）
1. 記事のペアリング
 65,133記事（のペア）：管理記事は除く
2. テキストの抽出
 JWPL (Zesch et al., 2008) を用いてwikiタグ削除
6 / 18

PWKP：処理手順（２頁目）
3. 前処理
 文の境界検出やトークナイズ
◦ by Stanford Parser (Klein and Manning, 2003)
 形態素解析
◦ by TreeTagger (Schmid, 1994)
7 / 18

PWKP：処理手順（３頁目）
 ３つの類似度みてアライメント
◦ 文レベルのTF*IDF (Nelken and Shieber, 2006)
◦ 単語の重なり (Barzilay and Elhadad, 2003)
◦ 単語の最大編集距離 (Levenshtein, 1966)
 手動で120文を評価（表1に precision と recall）
◦ Nelken et al. (2006) の recall (55.8%) に近づくよう
手動で類似度閾値調整
8 / 18

PWKP：処理手順（４頁目）
 文レベルの TF*IDF を使ってデータを整理した
◦ この尺度が一番優れているから
9 / 18

PWKP
文対データ完成
 108K以上
 難解（complex）from Wikipedia
 平易（simple）from Simple Wikipedia
10 / 18

TSM
 例文 c とその構文木（図１）
11 / 18

TSM
Tree-based Simplification Model
 難解な文の構文木への４つの操作
1. 分割
2. 削除
3. 並べ替え
4. 置換
12 / 18

TSM：分割/削除/並べ替え/置換
1. 分割
A) segmentation（どこで分割するか）
B) completion（分割した文を完成させる）
13 / 18

 分割境界単語（split boundary word）の
構成素（syntactic constituent）で分割
◦ アルゴリズム１で決める（次頁）
 分割する確率は文の長さ依存
◦ 次式で決める（次々頁）
14 / 18

アルゴリズム１
 対象の単語を最左とする最大の部分木のルート
 例えば which なら SBAR
15 / 18

分割する確率は文の長さ依存（表３）

◦ comLength：難解文の長さ
◦ avgSimLength：トレーニングデータ中の平易文の平均長さ
 Prob：トレーニングで得られる確率
16 / 18

分割確率が最大のものを選ぶ
 例
17 / 18

1. 分割
18 / 18

 the ancient Roman calendar started in 735BC
コピーして左に挿入
削除
19 / 18

 必要なタスク
◦ 削除するかどうか
◦ 何をコピーして、どこに挿入するか
20 / 18

削除するかどうか
21 / 18

何をコピーして、どこに挿入するか
 依存関係と構成素で決まる
◦ Stanford Parser
 calendar と started の依存関係は gov nsubj
22 / 18

TSM
Tree-based Simplification Model
 難解な文の構文木への４つの操作
1. 分割
2. 削除
3. 並べ替え
4. 置換
23 / 18

まず削除
次に並べ替え
 解析木の非終端ノードへ上から下に並べ替え
保持：1 削除：0
並び替えた子の順
24 / 18

削除と並べ替えはそのまま
25 / 18

置換
 単語
 フレーズ
◦ 非終端記号ごと置換
26 / 18

TSM
確率モデル
 ここまでに説明した内容を組み合わせる
27 / 18

訓練
P(s|c) を最大化する訓練
 グラフを使う
 EMアルゴリズム
28 / 18

訓練
P(s|c) を最大化する訓練
 長方形がデータ、丸が操作
◦ sp: 分割
◦ ro: 並べ替え
◦ mp: マッピング
◦ sub: 置換
29 / 18

訓練
EMアルゴリズム
30 / 18

訓練
Inside probablity
31 / 18

訓練
Outside Probablity
32 / 18

訓練
スピードアップ
 PWKPを１時間で訓練
 単語マッピング
 この例では which のみが（有望な）分割候補
33 / 18

訓練
 確率は一様分布で初期化とする
◦ Segmentation FT や Border Drop FT は 0.5
◦ Dropping FT や Reordering FT は 1/N!（N：子の数）
◦ Copy FT は 0.25
◦ Substitution FT は 1.0
34 / 18

復号
復号木
 mp操作なし
 1つの ro res に複数の子ノード
 ルートは難解な文
35 / 18

復号
 内部確率と外部確率を
各ノードで計算
 トリグラム言語モデルも統合
◦ 置換操作で生成文を流暢にするため
 SRILM (Stolcke, 2002) 使う
 訓練データ 54M
◦ SimpeWiki の全記事
36 / 18

評価
評価データ
 難解な文100＋平易な文131 from PWKP
37 / 18

評価
ベースラインは初めの４つ
 Moses（標準的なSMT）
 C (圧縮：削除のみ) (Filippova et al, 2008a)
 CS（圧縮＋置換）
 CSS（圧縮＋置換＋分割）
 TSM（提案手法）
 CW（Wikiからの難解な文）
 SW（Simple Wiki からの平易な文）
38 / 18

評価：結果（基本統計）
 TokLen：トークン平均長（トークンの難易度）
◦ TSMはSWとほぼ同じ
 SenLen：文のトークン平均長（文の難易度）
◦ TSMとCSSが、SWより短い
39 / 18

評価：結果（基本統計）
 Moses は CW に近い
 #Sen：文数
◦ Moses、C、CS は分割できず、CWとほぼ同じ
40 / 18

評価：結果（例１）
CW Genetic engineering has expanded the genes
available to breeders to utilize in creating desired
germlines for new crops.
（遺伝子工学は、新規作物に欲しい生殖細胞系を作り出すた
めに育種家が利用できる遺伝子を拡大している）
SW New plants were created with genetic engineering.
（新しい植物が遺伝子工学によって作られた）
TSM Engineering has expanded the genes available to
breeders to use in making germlines for new crops.
（工学は、新規作物のための生殖細胞系を作るために育種家
が使える遺伝子を拡大している）
削除
置換
41 / 18

評価：結果（例２）
CW An umbrella term is a word that provides a
superset or grouping of related concepts, also
called a hypernym.
（an umbrella term は、 hypernym とも呼ばれる、関連概念の
上位概念やグループを提供する単語である。）
SW An umbrella term is a word that provides a
superset or grouping of related concepts.
（an umbrella term は、関連概念の上位概念やグループを提
供する単語である。）
TSM An umbrella term is a word. $ A word provides a
superset of related concepts, called a hypernym.
（an umbrella term は、単語です。単語は hypernym と呼ばれ
る関連概念の上位概念を提供する。）
削除
$
分割
42 / 18

評価：結果（翻訳の考察）
 CW がソース、SW がリファレンス
 BLEU は、TSM が 0.38 で高い
◦ が、Moses や CW の方が高い
43 / 18

 Moses は、CW とほぼ同じ
 CW をソースとリファレンスにすると
◦ Moses BLEU = 0.78 / TSM BLEU = 0.55
◦ TSM は Moses より、よく書き換えようとしている
44 / 18

 #Same（ソースと同じだった数）
◦ Moses は多く、TSM の方がよく書き換えてる
 BLUE, NIST が、平易化システムをどれくらいよく区別し
てるかは、分からない
45 / 18

 Jurafsky et al. (2008) 「BLEUは異なる
アーキテクチャのシステムを比較し難い」
◦ TSMとCSSは両方とも、分割、削除、置換
 Moses は分割と削除が苦手で異なるアーキテクチャ
46 / 18

例（スライド割愛）を見てみると、
 SW と Moses は同じ文だった
◦ BLUE と NIST が最高
 TSM は、分割・削除・置換で平易化するため、
SW 文とはかなり異なる文を出した
 が、TSM の方が平易化が優れているように見える
47 / 18

評価：結果（可読性）
 Flesch と Lix (Grade=学校の学年)
◦ TSM は BLEUが良かった Moses より良い
◦ よい翻訳がよい平易化とは限らない
48 / 18

 OVV
◦ SimpleWiki の Best English 850 List に含まれていない
単語の割合
◦ TSM は２番目
49 / 18

 PPL (perplexity)
◦ 言語モデルがどれくらいテキストにしっくりくるか
 PWKPの平易な文でトリグラム言語モデルを
訓練し、SRILMで計算
50 / 18

今後の課題
文の補完
 分割の際、２文目で代名詞を使うなど
訳抜け
依存関係パーサーに起因するもの
 例２のAn umbrella term は call の依存関係
◦ 誤って superset を返してる
51 / 18

おまけ：誤字
 Pがない？
 青い。（6.2節）
52 / 18

A Monolingual Tree-based Translation Model for Sentence Simplification

More Related Content

Similar to A Monolingual Tree-based Translation Model for Sentence Simplification (20)

A Monolingual Tree-based Translation Model for Sentence Simplification

Editor's Notes