Simp lex rankng based on contextual and psycholinguistic features
1. UOW-SHEF:
SimpLex - Lexical Simplicity Ranking
based on
Contextual and Psycholinguistic Features
Sujay Kumar Jauhar, Lucia Specia
In Proceedings of the 6th International Workshop
on Semantic Evaluation, pp.477-481, 2012.
1
プレゼンテーション:小平 知範
3. Task Setup
• SemEval-2012のEnglish Lexical Simplification
• 前もって用意された換言候補を、与えられた文で語
法の平易な順に並べるシステム
• 同点は許され、すべての候補をランキングに含める
Context
During the siege , George Robertson had appointed Shuja-ul-
Mulk , who was a [ ] boy only 12 years old and the youngest
surviving son of Aman-ul Mulk, as the ruler of Chitral.
Candidates {clever} {smart} {intelligent} {bright]
System {intelligent} {bright} {clever, smart}
3
4. The SimpLex Lexical
Simplification System
• Lexical Substitutionに使うHassanらのアプローチに似たも
ので、SimpLexで候補を加重線形スコアを用いてランク付ける
• cは候補のスコア、rは単独のランキング関数
このスコアをもとに、降順でランク付け
4
•語長、文節数、2ステップクラスタのスコア、構造、
潜在意味解析、文中で候補と、隣り合う単語の自己相互情報量
を素性として使い実験
•これらは、単純頻度のベースラインに勝ち、テストデータで
優秀な性能を持つ素性を選んだ
6. Bag-of-words Model
• Google Web It corpusでは、性能に限界がある
• 難点を克服するために
ngram列の組み合わせをとるbag-of-words
モデルを真似る。
• この際に、不適格なクエリも現れるが、同時に良いクエリ
も現れる。
• そして、すべての確率の和をとり(その際、Ngramの
長さに対して重みを加える)クエリ数で標準化する
6
7. Psycholinguistic Feature
Model
• The MRC Psycholinguistic Database(Wilson, 1988)と
The Bristol Norms(Stadthagen-Gonzalez and Davis, 2006)
の二つのデータでは、下記の心理学的素性を元にスコア
を関連づけている
• Concreteness, Imageability, Familiarity, Age of Acquisition
• この二つのデータベースを少なくとも1回はどちらにも出現する
すべての単語で構成する単一corpusを合わせて作る。
これらから得られた素性のスコアは同じスケールで標準化した。
7