SlideShare a Scribd company logo
Improving Text Simplification
Language Modeling
Using Unsimplified Text Data
In Proceedings of the 51st Annual Meeting of the Association
for Computational Linguistics, pp.1537‒1546, 2013.
Presented by Kodaira Tomonori
1
概要
• 研究目的:平易化されていないテキストデータを

     用いてテキスト平易化言語モデルの改善
• 実験:普通の英語と平易な英語のテキストで

   学習したモデルを比較
• 結果:平易な英語データでの学習より、perplexityが

 2種類の英語の共同の言語モデルでは23%

 モデル学習では、語彙平易化タスクにおいて24%向上
2
使用コーパス
• English Wikipedia と Simple English Wikipedia

*Simple English Wikipediaから60Kの記事

*English Wikipediaから60Kの共通記事を抽出
simple normal
sentences 385K 2540K
words 7.15M 64.7M
vocab size 78K 307K
3
言語モデル評価:Perplexity
• 実験設定:SRILMを用いてtrigramモデルを学習
4
言語モデル評価:Perplexity
5
Language Model
Adaptation
• 線形補完による領域適応の手法を用いる
• 線形補完モデルは2つの言語モデルの

 確率を加重和として、合わせた
6
Language Model Adaptation
7
• 学習した言語モデルを用いて、SemEval2012
のデータセットの候補をランキング
• システムが出力したランキングを評価するために

Cohen s kappa coefficientを用いた。
8
言語モデル評価:語彙平易化
Word:      tight

Context: With the physical market as tight as it has been …

Candidates: constricted, pressurised, low, high-strung, tight
Human ranking: tight, low, constricted, pressurised, high-strung
言語モデル評価:語彙平易化
9
10
言語モデル評価:語彙平易化
kappa rank scores
11
まとめ
• perplexyタスクにおいて、混合モデルは23%

語彙平易化タスクに於いては24%向上
• 言語モデル適応において、ノーマルデータの役割は、
部分的なタスクに依存している
• 少ないデータしかない英語じゃない言語において、
テキスト平易化やテキスト圧縮などで使える
12
simple language model
に関する研究課題
• 膨大なノーマルデータを使った実験では、

分野外のデータを加える限界を理解する必要性
• wiki以外のソースデータやサイズと分野の影響を

調べなければならない
• どのように言語モデルの性能は文レベル、

文平易化章レベルの平易化に影響を与えるかつきとめる
• 線形補完言語モデル以外の分野適応技術

より良いものがあるかもしれない。
13

More Related Content

PDF
文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて
PPTX
Text simplification for reading assistance
PDF
WordNet-Based Lexical Simplification of Document
KEY
コーディングが上達するコツ
PDF
単語の分散表現と構成性の計算モデルの発展
PDF
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
PDF
Learning a lexical simplifier using wikipedia
PPTX
Simple English Wikipedia: A New Text Simplification Task
文献紹介:SemEval(SENSEVAL)におけるWSDタスクについて
Text simplification for reading assistance
WordNet-Based Lexical Simplification of Document
コーディングが上達するコツ
単語の分散表現と構成性の計算モデルの発展
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
Learning a lexical simplifier using wikipedia
Simple English Wikipedia: A New Text Simplification Task

Similar to Improving text simplification language modeling using unsimplified text data (15)

PDF
日本語の語彙平易化評価セットの構築
PDF
日本語の語彙平易化システムの構築
PDF
読解支援@2015 06-09
PPTX
Translating from Complex to Simplified Sentences
PDF
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
PDF
文章読解支援のための語彙平易化
PDF
日本語の語彙平易化システムおよび評価セットの構築
PDF
読解支援7 10
PDF
joint_seminar
PDF
R による文書分類入門
PPTX
A Monolingual Tree-based Translation Model for Sentence Simplification
PDF
Reassessing PCA of Acceptability Rating Data for Japanese (ARDJ) using kernel...
PDF
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
PDF
tmu_science_cafe02
PDF
Generalized data augmentation for low resource translation
日本語の語彙平易化評価セットの構築
日本語の語彙平易化システムの構築
読解支援@2015 06-09
Translating from Complex to Simplified Sentences
文法誤り訂正モデルは訂正に必要な文法を学習しているか(NLP2021)
文章読解支援のための語彙平易化
日本語の語彙平易化システムおよび評価セットの構築
読解支援7 10
joint_seminar
R による文書分類入門
A Monolingual Tree-based Translation Model for Sentence Simplification
Reassessing PCA of Acceptability Rating Data for Japanese (ARDJ) using kernel...
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
tmu_science_cafe02
Generalized data augmentation for low resource translation
Ad

More from Kodaira Tomonori (20)

PDF
Deep recurrent generative decoder for abstractive text summarization
PDF
Selective encoding for abstractive sentence summarization
PDF
Abstractive Text Summarization @Retrieva seminar
PDF
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
PDF
障害情報レポートに対する同時関連文章圧縮
PDF
Neural Summarization by Extracting Sentences and Words
PDF
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
PDF
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
PDF
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
PDF
Noise or additional information? Leveraging crowdsource annotation item agree...
PDF
語彙平易化システム評価のためのデータセット改良[ブースター]
PDF
語彙平易化システム評価のためのデータセットの改良[ポスター]
PDF
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PDF
文レベルの機械翻訳評価尺度に関する調査
PDF
Simp lex rankng based on contextual and psycholinguistic features
PDF
Aligning sentences from standard wikipedia to simple wikipedia
PDF
日本語の語彙平易化評価セットの構築
PDF
言い換えを用いたテキスト要約の自動評価
PDF
聾者向け文章読解支援における構文的言い換えの効果について
PDF
国語辞典を使った放送ニュースの名詞の平易化
Deep recurrent generative decoder for abstractive text summarization
Selective encoding for abstractive sentence summarization
Abstractive Text Summarization @Retrieva seminar
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
障害情報レポートに対する同時関連文章圧縮
Neural Summarization by Extracting Sentences and Words
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
Noise or additional information? Leveraging crowdsource annotation item agree...
語彙平易化システム評価のためのデータセット改良[ブースター]
語彙平易化システム評価のためのデータセットの改良[ポスター]
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
文レベルの機械翻訳評価尺度に関する調査
Simp lex rankng based on contextual and psycholinguistic features
Aligning sentences from standard wikipedia to simple wikipedia
日本語の語彙平易化評価セットの構築
言い換えを用いたテキスト要約の自動評価
聾者向け文章読解支援における構文的言い換えの効果について
国語辞典を使った放送ニュースの名詞の平易化
Ad

Improving text simplification language modeling using unsimplified text data