SlideShare a Scribd company logo
UOW-SHEF:

SimpLex - Lexical Simplicity Ranking 

based on 

Contextual and Psycholinguistic Features
Sujay Kumar Jauhar, Lucia Specia
In Proceedings of the 6th International Workshop
on Semantic Evaluation, pp.477-481, 2012.
1
プレゼンテーション:小平 知範
Introduction
• 課題:

 語彙平易化タスク(SemEval:2012)
• 提案手法:

訓練データを使った評価で最も有望に思える3つを選び、

平易な文との潜在的つながりを予測した幾つかの素性を用いた
• 結果:

SimpLexというシステムで、ベースラインに勝つことができた
2
Task Setup
• SemEval-2012のEnglish Lexical Simplification
• 前もって用意された換言候補を、与えられた文で語
法の平易な順に並べるシステム
• 同点は許され、すべての候補をランキングに含める
Context
During the siege , George Robertson had appointed Shuja-ul-
Mulk , who was a [ ] boy only 12 years old and the youngest
surviving son of Aman-ul Mulk, as the ruler of Chitral.
Candidates {clever} {smart} {intelligent} {bright]
System {intelligent} {bright} {clever, smart}
3
The SimpLex Lexical
Simplification System
• Lexical Substitutionに使うHassanらのアプローチに似たも
ので、SimpLexで候補を加重線形スコアを用いてランク付ける
• cは候補のスコア、rは単独のランキング関数

このスコアをもとに、降順でランク付け
4
•語長、文節数、2ステップクラスタのスコア、構造、

潜在意味解析、文中で候補と、隣り合う単語の自己相互情報量
を素性として使い実験
•これらは、単純頻度のベースラインに勝ち、テストデータで

優秀な性能を持つ素性を選んだ
Adapted N-Gram Model
• NgramはWSD(語義曖昧性)を解消できる可能性を含む
• SemEvalでは、最適ではない結果を生み出す

 1. 不安定にレンマ化された候補

 2. 文法的にあっていないものを置き換えている
• 1.の解決策:品詞解析をソーステキストで行い目的の単語の品詞
を記録し、その品詞を元に、他の候補の正しい語形変化
• 2の解決策:換言位置と近い単語を消去し、すべての組み合わせ
に対してNgram(Google Web IT)サーチを行った。
5
going はそのまま
leaving は文法的に

away入らないので消去できる
(Ngram頻度サーチの結果)
Bag-of-words Model
• Google Web It corpusでは、性能に限界がある
• 難点を克服するために

 ngram列の組み合わせをとるbag-of-words

 モデルを真似る。
• この際に、不適格なクエリも現れるが、同時に良いクエリ
も現れる。
• そして、すべての確率の和をとり(その際、Ngramの

長さに対して重みを加える)クエリ数で標準化する
6
Psycholinguistic Feature
Model
• The MRC Psycholinguistic Database(Wilson, 1988)と

The Bristol Norms(Stadthagen-Gonzalez and Davis, 2006)

の二つのデータでは、下記の心理学的素性を元にスコア
を関連づけている
• Concreteness, Imageability, Familiarity, Age of Acquisition
• この二つのデータベースを少なくとも1回はどちらにも出現する

すべての単語で構成する単一corpusを合わせて作る。

これらから得られた素性のスコアは同じスケールで標準化した。
7
Result
• 表はカッパ係数を用いている。
• それぞれ単独の素性ではベースラインには勝てなかったが、複数の素
性を用いた、simplexでは勝った
• 訓練データの量についても調べたが、ある一定を越えるとそれ以上増
やしても改善が見られなかった。

 ー共通のデータセットの範囲には限りがあるためである
8
base-line

simple frequency
simpLex
Trial
0.398
Test
0.471 0.496
Conclusion
• 9つのシステムで、SemEval 2012の語彙平易化タ
スクでSimpLexを用いてランク付けた
• 限られたトレーニングデータにもかかわらず、心理
言語的素性で人間らしい文脈認識をの相互作用でい
い結果が出た。
9

More Related Content

PDF
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
PDF
Aligning sentences from standard wikipedia to simple wikipedia
PDF
Improving text simplification language modeling using unsimplified text data
PDF
語彙平易化システム評価のためのデータセット改良[ブースター]
PDF
Noise or additional information? Leveraging crowdsource annotation item agree...
PDF
日本語の語彙平易化評価セットの構築
PDF
文レベルの機械翻訳評価尺度に関する調査
PDF
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...
PPDB 2.0: Better paraphrase ranking, 
fine-grained entailment relations,
word...
Aligning sentences from standard wikipedia to simple wikipedia
Improving text simplification language modeling using unsimplified text data
語彙平易化システム評価のためのデータセット改良[ブースター]
Noise or additional information? Leveraging crowdsource annotation item agree...
日本語の語彙平易化評価セットの構築
文レベルの機械翻訳評価尺度に関する調査
[Introduction] Neural Network-Based Abstract Generation for Opinions and Argu...

More from Kodaira Tomonori (13)

PDF
Deep recurrent generative decoder for abstractive text summarization
PDF
Selective encoding for abstractive sentence summarization
PDF
Abstractive Text Summarization @Retrieva seminar
PDF
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
PDF
障害情報レポートに対する同時関連文章圧縮
PDF
Neural Summarization by Extracting Sentences and Words
PDF
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
PDF
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
PDF
語彙平易化システム評価のためのデータセットの改良[ポスター]
PDF
WordNet-Based Lexical Simplification of Document
PDF
言い換えを用いたテキスト要約の自動評価
PDF
聾者向け文章読解支援における構文的言い換えの効果について
PDF
国語辞典を使った放送ニュースの名詞の平易化
Deep recurrent generative decoder for abstractive text summarization
Selective encoding for abstractive sentence summarization
Abstractive Text Summarization @Retrieva seminar
AttSum: Joint Learning of Focusing and Summarization with Neural Attention
障害情報レポートに対する同時関連文章圧縮
Neural Summarization by Extracting Sentences and Words
Poster: Controlled and Balanced Dataset for Japanese Lexical Simplification
[ポスター]均衡コーパスを用いた語彙平易化データセットの構築
語彙平易化システム評価のためのデータセットの改良[ポスター]
WordNet-Based Lexical Simplification of Document
言い換えを用いたテキスト要約の自動評価
聾者向け文章読解支援における構文的言い換えの効果について
国語辞典を使った放送ニュースの名詞の平易化
Ad

Simp lex rankng based on contextual and psycholinguistic features

  • 1. UOW-SHEF:
 SimpLex - Lexical Simplicity Ranking 
 based on 
 Contextual and Psycholinguistic Features Sujay Kumar Jauhar, Lucia Specia In Proceedings of the 6th International Workshop on Semantic Evaluation, pp.477-481, 2012. 1 プレゼンテーション:小平 知範
  • 3. Task Setup • SemEval-2012のEnglish Lexical Simplification • 前もって用意された換言候補を、与えられた文で語 法の平易な順に並べるシステム • 同点は許され、すべての候補をランキングに含める Context During the siege , George Robertson had appointed Shuja-ul- Mulk , who was a [ ] boy only 12 years old and the youngest surviving son of Aman-ul Mulk, as the ruler of Chitral. Candidates {clever} {smart} {intelligent} {bright] System {intelligent} {bright} {clever, smart} 3
  • 4. The SimpLex Lexical Simplification System • Lexical Substitutionに使うHassanらのアプローチに似たも ので、SimpLexで候補を加重線形スコアを用いてランク付ける • cは候補のスコア、rは単独のランキング関数
 このスコアをもとに、降順でランク付け 4 •語長、文節数、2ステップクラスタのスコア、構造、
 潜在意味解析、文中で候補と、隣り合う単語の自己相互情報量 を素性として使い実験 •これらは、単純頻度のベースラインに勝ち、テストデータで
 優秀な性能を持つ素性を選んだ
  • 5. Adapted N-Gram Model • NgramはWSD(語義曖昧性)を解消できる可能性を含む • SemEvalでは、最適ではない結果を生み出す
  1. 不安定にレンマ化された候補
  2. 文法的にあっていないものを置き換えている • 1.の解決策:品詞解析をソーステキストで行い目的の単語の品詞 を記録し、その品詞を元に、他の候補の正しい語形変化 • 2の解決策:換言位置と近い単語を消去し、すべての組み合わせ に対してNgram(Google Web IT)サーチを行った。 5 going はそのまま leaving は文法的に
 away入らないので消去できる (Ngram頻度サーチの結果)
  • 6. Bag-of-words Model • Google Web It corpusでは、性能に限界がある • 難点を克服するために
  ngram列の組み合わせをとるbag-of-words
  モデルを真似る。 • この際に、不適格なクエリも現れるが、同時に良いクエリ も現れる。 • そして、すべての確率の和をとり(その際、Ngramの
 長さに対して重みを加える)クエリ数で標準化する 6
  • 7. Psycholinguistic Feature Model • The MRC Psycholinguistic Database(Wilson, 1988)と
 The Bristol Norms(Stadthagen-Gonzalez and Davis, 2006)
 の二つのデータでは、下記の心理学的素性を元にスコア を関連づけている • Concreteness, Imageability, Familiarity, Age of Acquisition • この二つのデータベースを少なくとも1回はどちらにも出現する
 すべての単語で構成する単一corpusを合わせて作る。
 これらから得られた素性のスコアは同じスケールで標準化した。 7
  • 8. Result • 表はカッパ係数を用いている。 • それぞれ単独の素性ではベースラインには勝てなかったが、複数の素 性を用いた、simplexでは勝った • 訓練データの量についても調べたが、ある一定を越えるとそれ以上増 やしても改善が見られなかった。
  ー共通のデータセットの範囲には限りがあるためである 8 base-line
 simple frequency simpLex Trial 0.398 Test 0.471 0.496
  • 9. Conclusion • 9つのシステムで、SemEval 2012の語彙平易化タ スクでSimpLexを用いてランク付けた • 限られたトレーニングデータにもかかわらず、心理 言語的素性で人間らしい文脈認識をの相互作用でい い結果が出た。 9