SlideShare a Scribd company logo
Aligning Sentences from
Standard Wikipedia to
Simple Wikipedia
William Hwang; Hannaneh Hajishirzi;

Mari Ostendorf; Wei Wu

University of Washington

Proceedings of the 2015 Conference of the North American
Chapter of the Association for Computational Linguistics: Human
Language Technologies
1
プレゼンテーション:小平 知範
Introduction
• 課題:

 英語の利用できるパラレルコーパスが小さかったり、

 ノイズ混じりのものが多い
• 手法:

 simpleとstandardのWikipediaを貪欲法で対の文を整列

 相対的に並んでいると仮定しない

 Wikitionaryベースの類似度計測を用いる
• 結果:

 先行研究の手法よりかなりよくなった
2
BackGround
• Sentence-LevelScoring

1.Wikipedia alignment(Kauchak, 2013)の、各文の単語の

 tf.idfスコアの代表ベクトル間のcos距離として類似度を計算

2.単語レベルの意味類似度のスコアに依存する手法
• Sequence-Level Search

1.(Zhu et al., 2010)simpleとstandardの記事間のアライメントは

制約なしに計算され、スコアが閾値を超えていれば文は並べられる。

2.連続てきな制約をつかって文アライメントを計算する

(Coster and Kauchak, 2011: Bazilay and Elhadad)

3
Simplification Datasets

Manually Annotated
• standard Wikipediaの記事中のすべての文にたいして
対応するsimpleの記事の文をアノテーション
4
• アノテータはネイティブの大学生(時給制)

Wikipediaからランダムに46記事のペアを選択

total67,853文(277 good, 281 good partial, 

117 partial and 67178 bad)

kappa係数0.68(13% dual annotated)
Sentence Alignment Method
Word-Level Similarity
• WikNet Similarity

WordNetのように表記し、グラフで表し、単語の定義文で共起
したもののノードを追加。また、その時ストップワードなどは
除去している。ノード数:177k、エッジ:1.15M

アノテーションデータセットに対してカバー率71.8%
• Structural Semantic Similarity

 単語レベルの類似度metricに文中の単語の係り受けと単語間
の意味類似度を考慮に入れたもの

Stanfordの解析をつかって,tw = (w, h, r)を作成し、この類似
度を用いた。h: governor r : dependency relationship
5
Sentence Alignment Method
Greedy Sequence-level Alignment
• 貪欲法をつかって、simpleとstandardの文を

一対一でマッチさせる必要が有る

 ・simple記事のすべての文Sjとstandard記事の

 すべての文Aiの文レベル類似度のスコアを計算

 ・最も類似しているペアarg max s(Sj, Ai)を選択
• 多くのsimple文がstandard文のfragmentにマッチ

・Stanfordの構文解析木からfragmentを抽出

・それから、SjとAiとを計算し、同様にAikも計算

・同じアルゴリズムを用いてsimple文と

 standard文かfragmentsを並べた。
6
Experiments: Results
• 人手でアノテーションしたデータの各記事に対し
standardとsimpleの文すべてのペアに対し提案手法、
先行研究の手法(ベースライン)を行った。

*前処理としてタイトル等を除去、stanfordCoreNLPで解析
• ベースライン

Unconstrained WordNet(Mohler and Mihalcea, 2009)

Unconstrained Vector Space(Zhu et al., 2010)

Ordered Vector Space (Coster and Kauchak, 2010)
7
Result
Comparison
to Baseline
8
Experiment:
Automatically Aligned Data
• 類似度スコアで、simple,standardの文のペアを

並べたパラレルコーパスを作成
• 22kのsimple,standardの記事から文を並べた。
• 閾値を0.45に設定した文のペアを公開

*F1(precision,recall)を元に、

 閾値0.67で、good match (150k)

 閾値0.53で、good partial match(130k)

 閾値0.45で、uncategorized match(110k)

 これ以下の51.5million potential matches はカット
9
Conclusion and

Future Work
• 新しい単語レベルの類似度(using Wikitionary and
dependency structure)と貪欲法を使った、テキスト平易化の
ための文アラインメントの方法を紹介
• 実験では、先行研究のベースラインを上回った
• 人手で並べたものと、自動で並べたデータを公開
• Future Work

作ったデータセットを使って、テキスト平易化の開発

アライメント技術の改善

フレーズアラインメント技術の改善
10

More Related Content

PPTX
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
PDF
Emnlp読み会@2015 10-09
PDF
日本語の語彙平易化評価セットの構築
PDF
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PDF
Noise or additional information? Leveraging crowdsource annotation item agree...
PDF
Simp lex rankng based on contextual and psycholinguistic features
PDF
Improving text simplification language modeling using unsimplified text data
PDF
語彙平易化システム評価のためのデータセット改良[ブースター]
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
Emnlp読み会@2015 10-09
日本語の語彙平易化評価セットの構築
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
Noise or additional information? Leveraging crowdsource annotation item agree...
Simp lex rankng based on contextual and psycholinguistic features
Improving text simplification language modeling using unsimplified text data
語彙平易化システム評価のためのデータセット改良[ブースター]

Similar to Aligning sentences from standard wikipedia to simple wikipedia (6)

PDF
日本語の語彙平易化評価セットの構築
PDF
Learning a lexical simplifier using wikipedia
PDF
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
PDF
読解支援@2015 06-09
PPTX
Simple English Wikipedia: A New Text Simplification Task
PDF
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化評価セットの構築
Learning a lexical simplifier using wikipedia
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
読解支援@2015 06-09
Simple English Wikipedia: A New Text Simplification Task
日本語の語彙平易化システムおよび評価セットの構築
Ad

More from Kodaira Tomonori (15)

PDF
Deep recurrent generative decoder for abstractive text summarization
PDF
Selective encoding for abstractive sentence summarization
PDF
Abstractive Text Summarization @Retrieva seminar
PDF
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
PDF
障害情報レポートに対する同時関連文章圧縮
PDF
Neural Summarization by Extracting Sentences and Words
PDF
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
PDF
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
PDF
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
PDF
語彙平易化システム評価のためのデータセットの改良[ポスター]
PDF
WordNet-Based Lexical Simplification of Document
PDF
文レベルの機械翻訳評価尺度に関する調査
PDF
言い換えを用いたテキスト要約の自動評価
PDF
聾者向け文章読解支援における構文的言い換えの効果について
PDF
国語辞典を使った放送ニュースの名詞の平易化
Deep recurrent generative decoder for abstractive text summarization
Selective encoding for abstractive sentence summarization
Abstractive Text Summarization @Retrieva seminar
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
障害情報レポートに対する同時関連文章圧縮
Neural Summarization by Extracting Sentences and Words
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
語彙平易化システム評価のためのデータセットの改良[ポスター]
WordNet-Based Lexical Simplification of Document
文レベルの機械翻訳評価尺度に関する調査
言い換えを用いたテキスト要約の自動評価
聾者向け文章読解支援における構文的言い換えの効果について
国語辞典を使った放送ニュースの名詞の平易化
Ad

Aligning sentences from standard wikipedia to simple wikipedia