Heady news headline abstraction through event pattern clustering

Enrique Alfonseca, Daniele Pighin, Guillermo Garrido
ACL2013
HEADY: News headline abstraction through
event pattern clustering
id:skozawa
論文輪読会

Headline Generation
● 同じニュースが複数の媒体、
複数の観点で書かれる
○ 要約
○ ヘッドライン
● 右の例の場合
○ Carmelo Anthony … がヘッ
ドラインとして妥当

Goal
● 研究目的
○ オープンドメインなヘッドライン生成
■ コストの高い学習データを必要としない教師なし手法
○ 同じイベントを参照する類似表現を汎化
○ 要約的なアプローチをとる
■ 抜粋的(extractive)
■ 要約的(abstractive)

Headline Generation
● HEADY
○ 入力：同じ話題のニュースコレクション
○ 出力：ニュースコレクションのヘッドライン
○ パターン抽出
■ 固有表現を1つ以上含む構文木
○ 学習
■ Noisy-OR Baysian Network
■ パターン(観測変数)、イベント(隠れ変数)
○ 推論
■ パターン抽出
■ 隠れイベント変数の事後確率推定
■ ヘッドライン生成のために最尤のパターンを選択

Pattern Extraction (CollectionToPatterns)
● PreProcessData
○ トークン化、文境界解析
○ 形態素解析
○ 構文解析
○ 照応解析
○ 固有表現抽出
■ Wikipedia, Freebase
■ Freebaseのclassを付与

Pattern Extraction (CollectionToPatterns)
● GetRelevantEntities
○ ニュースコレクションからよく言
及されている固有表現Eを取
得
● Combinations
○ 固有表現の組み合わせ
○ 3単語以下
● ExtractPatterns
○ 固有表現を含むイベントパ
ターンを抽出

Pattern Extraction (ExtractPatterns)
● タイトルと本文1文目のみ
● GetMentionNodes
○ 固有表現であるノードMを識
別
■ 固有表現を含むまない文
は無視
● GetMinimumSpaningTree
○ ノードMを含む最小の構文木
を取得

Pattern Extraction (ExtractPatterns)
● ApplyHeuristics
○ 高い確率で構文木は非文法
的、もしくは、非有用
○ 例のe1とe2のペア(2)は良い概
要ではない
○ 意味がわかる最小限の集合を
目的とした変換を後処理とし
ておこなう
■ rootや主部を含む
■ conjunctionsを含む
● CombineEntityTypes
○ e1, e2をclassに置き換えて個
別のパターンを生成

Training
● 抽出したパターンを使ってNosiy-ORで学習
● パターンが1つ以上のイベントを活性化する確率を推定
● 隠れ変数(イベント)と観測変数(パターン)
● 全パターンにはノイズイベントがリンクされる
○ 言語背景によって生成されるイベント(ノイズ)を許容
● パターンが与えられたときのイベントeiの条件付確率
● 学習プロセスを100,000ニュースコレクションで初期化し、重みを
40EMで最適化
qij = P(ei=1|pj=1) : パターンpjからイベント
eiの確率
qi0 : ノイズパターンからイベントeiの確率
未観測パターンからのイベント生起

Inference (generation of news headlines)
● HEADY
○ 入力：ニュースコレクションN
○ 出力：ヘッドライン
● 仮定：NのヘッドラインはNに関連する固有表現Eの重要なイベ
ントについて述べなければならない
● Nに関連する1つのイベント-パターン対 p* が必要
● p*のプレースホルダーを、Nで観測された固有表現の表層形で
埋める

Inference (Inference(n, E))
● Inference(n, E)
○ 基本的な推論アルゴリズムは2段階ランダムウォーク
○ n: ニュース記事
○ E: 固有表現集合
○ パターン抽出
■ ExtractPatterns(n, E)
○ 観測変数の確率分布の取得
■ 抽出したパターンの頻度を正規化

Inference (extraction of p*)
1. 固有表現サブセットEiの確率分布wiの計算
○ ニュースコレクション内の固有表現Eから3つまで取得
○ サブセットEiに対して、Inference(n, Ei)を実行し、Eiを含むパターン
の単語分布を計算
2. 確率分布wの計算
○ 全ての固有表現のサブセットに対してInference(n, Ei)を実行
3. 確率分布wiの選択
○ 全体の分布wと各固有表現のサブセットEiの分布wiを比較
○ 最も類似するwiを選択
4. パターンp*の選択
○ w*に最も大きい重みをつけるパターンを選択

Experiment settings
● 実験データ
○ Noisy-ORモデルには大規模データが必要
○ 2008年～2012年のWebデータをクロール
■ 時間とコサイン類似度を使ってクラスタリング
■ 5文書以下のクラスタは削除
■ 最大50文書以内に
○ 1700万文書集合、うち、数百万文書集合はテスト用
● Nosiy-OR
○ 100,000の潜在イベント
○ 40のEM
● パターン抽出
○ CollectionToPatternsアルゴリズムにより2.3億のイベントパターンを
生成
○ 同じコレクションから生成されたものをまとめると1700万

System Used (Method for picking one)
● Latest headline
○ 最新の記事のタイトルを利用
● Most frequest headline
○ ニュースコレクション内の最頻のタイトルを利用
● TopicSum
○ 3層(background, content, doc-specific)のトピックモデル
○ コレクションのunigramモデルとのカルバックライブラー情報量が最
小のタイトルを利用

System Used (Generate Headline)
● Multi-Sentence Compression (MSC)
○ 1文書からの要約手法
○ 単語グラフを生成
○ 最短パスを取得
● Most frequest pattern
○ 提案手法のNoisy-ORなしバージョン
■ Noisy-ORの有効性を示すためのベースライン
○ 生成したパターンの中から最頻のパターンを利用

Results
● 8人の評価者により以下の指標をアノテーション
○ Readability：文法的かを5段階評価
○ Informativeness：情報量を5段階評価
● すべてのシステムがタイトルを生成できた50文書集合をランダム
に取得
● HEADYとMSCは有意差あり
● HEADYとMost freq. patternは有意差なし

Other Results
● 1つ目
○ 噂を否定したニュース
● 2つ目
○ HEADYがFrequent patternを改
善
● 3つ目
○ HEADYがノイズの多いコレク
ションから正しくヘッドラインを
生成
● 自動評価
○ 従来はROUGE
○ TopicSumが利用できるかも

Conclusion
● HEADY
○ Noisy-OR Bayesian Network
○ 要約的ヘッドライン生成手法
○ 人手のアノテーションデータは不要で、Webサイズのコーパスに効
率的にスケールできる
● 従来手法(MSC)より高い性能

Heady news headline abstraction through event pattern clustering

More Related Content

Featured (20)

Heady news headline abstraction through event pattern clustering