SlideShare a Scribd company logo
Enrique Alfonseca, Daniele Pighin, Guillermo Garrido
ACL2013
HEADY: News headline abstraction through
event pattern clustering
id:skozawa
論文輪読会
Headline Generation
● 同じニュースが複数の媒体、
複数の観点で書かれる
○ 要約
○ ヘッドライン
● 右の例の場合
○ Carmelo Anthony … がヘッ
ドラインとして妥当
Goal
● 研究目的
○ オープンドメインなヘッドライン生成
■ コストの高い学習データを必要としない教師なし手法
○ 同じイベントを参照する類似表現を汎化
○ 要約的なアプローチをとる
■ 抜粋的(extractive)
■ 要約的(abstractive)
Headline Generation
● HEADY
○ 入力:同じ話題のニュースコレクション
○ 出力:ニュースコレクションのヘッドライン
○ パターン抽出
■ 固有表現を1つ以上含む構文木
○ 学習
■ Noisy-OR Baysian Network
■ パターン(観測変数)、イベント(隠れ変数)
○ 推論
■ パターン抽出
■ 隠れイベント変数の事後確率推定
■ ヘッドライン生成のために最尤のパターンを選択
Pattern Extraction (CollectionToPatterns)
● PreProcessData
○ トークン化、文境界解析
○ 形態素解析
○ 構文解析
○ 照応解析
○ 固有表現抽出
■ Wikipedia, Freebase
■ Freebaseのclassを付与
Pattern Extraction (CollectionToPatterns)
● GetRelevantEntities
○ ニュースコレクションからよく言
及されている固有表現Eを取
得
● Combinations
○ 固有表現の組み合わせ
○ 3単語以下
● ExtractPatterns
○ 固有表現を含むイベントパ
ターンを抽出
Pattern Extraction (ExtractPatterns)
● タイトルと本文1文目のみ
● GetMentionNodes
○ 固有表現であるノードMを識
別
■ 固有表現を含むまない文
は無視
● GetMinimumSpaningTree
○ ノードMを含む最小の構文木
を取得
Pattern Extraction (ExtractPatterns)
● ApplyHeuristics
○ 高い確率で構文木は非文法
的、もしくは、非有用
○ 例のe1とe2のペア(2)は良い概
要ではない
○ 意味がわかる最小限の集合を
目的とした変換を後処理とし
ておこなう
■ rootや主部を含む
■ conjunctionsを含む
● CombineEntityTypes
○ e1, e2をclassに置き換えて個
別のパターンを生成
Training
● 抽出したパターンを使ってNosiy-ORで学習
● パターンが1つ以上のイベントを活性化する確率を推定
● 隠れ変数(イベント)と観測変数(パターン)
● 全パターンにはノイズイベントがリンクされる
○ 言語背景によって生成されるイベント(ノイズ)を許容
● パターンが与えられたときのイベントeiの条件付確率
● 学習プロセスを100,000ニュースコレクションで初期化し、重みを
40EMで最適化
qij = P(ei=1|pj=1) : パターンpjからイベント
eiの確率
qi0 : ノイズパターンからイベントeiの確率
未観測パターンからのイベント生起
Inference (generation of news headlines)
● HEADY
○ 入力:ニュースコレクションN
○ 出力:ヘッドライン
● 仮定:NのヘッドラインはNに関連する固有表現Eの重要なイベ
ントについて述べなければならない
● Nに関連する1つのイベント-パターン対 p* が必要
● p*のプレースホルダーを、Nで観測された固有表現の表層形で
埋める
Inference (Inference(n, E))
● Inference(n, E)
○ 基本的な推論アルゴリズムは2段階ランダムウォーク
○ n: ニュース記事
○ E: 固有表現集合
○ パターン抽出
■ ExtractPatterns(n, E)
○ 観測変数の確率分布の取得
■ 抽出したパターンの頻度を正規化
Inference (extraction of p*)
1. 固有表現サブセットEiの確率分布wiの計算
○ ニュースコレクション内の固有表現Eから3つまで取得
○ サブセットEiに対して、Inference(n, Ei)を実行し、Eiを含むパターン
の単語分布を計算
2. 確率分布wの計算
○ 全ての固有表現のサブセットに対してInference(n, Ei)を実行
3. 確率分布wiの選択
○ 全体の分布wと各固有表現のサブセットEiの分布wiを比較
○ 最も類似するwiを選択
4. パターンp*の選択
○ w*に最も大きい重みをつけるパターンを選択
Experiment settings
● 実験データ
○ Noisy-ORモデルには大規模データが必要
○ 2008年~2012年のWebデータをクロール
■ 時間とコサイン類似度を使ってクラスタリング
■ 5文書以下のクラスタは削除
■ 最大50文書以内に
○ 1700万文書集合、うち、数百万文書集合はテスト用
● Nosiy-OR
○ 100,000の潜在イベント
○ 40のEM
● パターン抽出
○ CollectionToPatternsアルゴリズムにより2.3億のイベントパターンを
生成
○ 同じコレクションから生成されたものをまとめると1700万
System Used (Method for picking one)
● Latest headline
○ 最新の記事のタイトルを利用
● Most frequest headline
○ ニュースコレクション内の最頻のタイトルを利用
● TopicSum
○ 3層(background, content, doc-specific)のトピックモデル
○ コレクションのunigramモデルとのカルバックライブラー情報量が最
小のタイトルを利用
System Used (Generate Headline)
● Multi-Sentence Compression (MSC)
○ 1文書からの要約手法
○ 単語グラフを生成
○ 最短パスを取得
● Most frequest pattern
○ 提案手法のNoisy-ORなしバージョン
■ Noisy-ORの有効性を示すためのベースライン
○ 生成したパターンの中から最頻のパターンを利用
Results
● 8人の評価者により以下の指標をアノテーション
○ Readability:文法的かを5段階評価
○ Informativeness:情報量を5段階評価
● すべてのシステムがタイトルを生成できた50文書集合をランダム
に取得
● HEADYとMSCは有意差あり
● HEADYとMost freq. patternは有意差なし
Other Results
● 1つ目
○ 噂を否定したニュース
● 2つ目
○ HEADYがFrequent patternを改
善
● 3つ目
○ HEADYがノイズの多いコレク
ションから正しくヘッドラインを
生成
● 自動評価
○ 従来はROUGE
○ TopicSumが利用できるかも
Conclusion
● HEADY
○ Noisy-OR Bayesian Network
○ 要約的ヘッドライン生成手法
○ 人手のアノテーションデータは不要で、Webサイズのコーパスに効
率的にスケールできる
● 従来手法(MSC)より高い性能

More Related Content

PDF
Elasticsearchを用いたはてなブックマークのトピック生成
PDF
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
PDF
はてなブックマークに基づく関連記事レコメンドエンジンの開発
PDF
Gunosyにおけるパーソナライズシステム
PPTX
Gunosyにおける仮説検証とABテスト
PDF
Elasticsearch in hatena bookmark
PDF
はてなブックマークの新機能における自然言語処理の活用
PDF
Active learning with efficient feature weighting methods for improving data q...
Elasticsearchを用いたはてなブックマークのトピック生成
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
はてなブックマークに基づく関連記事レコメンドエンジンの開発
Gunosyにおけるパーソナライズシステム
Gunosyにおける仮説検証とABテスト
Elasticsearch in hatena bookmark
はてなブックマークの新機能における自然言語処理の活用
Active learning with efficient feature weighting methods for improving data q...
Ad

Heady news headline abstraction through event pattern clustering

  • 1. Enrique Alfonseca, Daniele Pighin, Guillermo Garrido ACL2013 HEADY: News headline abstraction through event pattern clustering id:skozawa 論文輪読会
  • 2. Headline Generation ● 同じニュースが複数の媒体、 複数の観点で書かれる ○ 要約 ○ ヘッドライン ● 右の例の場合 ○ Carmelo Anthony … がヘッ ドラインとして妥当
  • 3. Goal ● 研究目的 ○ オープンドメインなヘッドライン生成 ■ コストの高い学習データを必要としない教師なし手法 ○ 同じイベントを参照する類似表現を汎化 ○ 要約的なアプローチをとる ■ 抜粋的(extractive) ■ 要約的(abstractive)
  • 4. Headline Generation ● HEADY ○ 入力:同じ話題のニュースコレクション ○ 出力:ニュースコレクションのヘッドライン ○ パターン抽出 ■ 固有表現を1つ以上含む構文木 ○ 学習 ■ Noisy-OR Baysian Network ■ パターン(観測変数)、イベント(隠れ変数) ○ 推論 ■ パターン抽出 ■ 隠れイベント変数の事後確率推定 ■ ヘッドライン生成のために最尤のパターンを選択
  • 5. Pattern Extraction (CollectionToPatterns) ● PreProcessData ○ トークン化、文境界解析 ○ 形態素解析 ○ 構文解析 ○ 照応解析 ○ 固有表現抽出 ■ Wikipedia, Freebase ■ Freebaseのclassを付与
  • 6. Pattern Extraction (CollectionToPatterns) ● GetRelevantEntities ○ ニュースコレクションからよく言 及されている固有表現Eを取 得 ● Combinations ○ 固有表現の組み合わせ ○ 3単語以下 ● ExtractPatterns ○ 固有表現を含むイベントパ ターンを抽出
  • 7. Pattern Extraction (ExtractPatterns) ● タイトルと本文1文目のみ ● GetMentionNodes ○ 固有表現であるノードMを識 別 ■ 固有表現を含むまない文 は無視 ● GetMinimumSpaningTree ○ ノードMを含む最小の構文木 を取得
  • 8. Pattern Extraction (ExtractPatterns) ● ApplyHeuristics ○ 高い確率で構文木は非文法 的、もしくは、非有用 ○ 例のe1とe2のペア(2)は良い概 要ではない ○ 意味がわかる最小限の集合を 目的とした変換を後処理とし ておこなう ■ rootや主部を含む ■ conjunctionsを含む ● CombineEntityTypes ○ e1, e2をclassに置き換えて個 別のパターンを生成
  • 9. Training ● 抽出したパターンを使ってNosiy-ORで学習 ● パターンが1つ以上のイベントを活性化する確率を推定 ● 隠れ変数(イベント)と観測変数(パターン) ● 全パターンにはノイズイベントがリンクされる ○ 言語背景によって生成されるイベント(ノイズ)を許容 ● パターンが与えられたときのイベントeiの条件付確率 ● 学習プロセスを100,000ニュースコレクションで初期化し、重みを 40EMで最適化 qij = P(ei=1|pj=1) : パターンpjからイベント eiの確率 qi0 : ノイズパターンからイベントeiの確率 未観測パターンからのイベント生起
  • 10. Inference (generation of news headlines) ● HEADY ○ 入力:ニュースコレクションN ○ 出力:ヘッドライン ● 仮定:NのヘッドラインはNに関連する固有表現Eの重要なイベ ントについて述べなければならない ● Nに関連する1つのイベント-パターン対 p* が必要 ● p*のプレースホルダーを、Nで観測された固有表現の表層形で 埋める
  • 11. Inference (Inference(n, E)) ● Inference(n, E) ○ 基本的な推論アルゴリズムは2段階ランダムウォーク ○ n: ニュース記事 ○ E: 固有表現集合 ○ パターン抽出 ■ ExtractPatterns(n, E) ○ 観測変数の確率分布の取得 ■ 抽出したパターンの頻度を正規化
  • 12. Inference (extraction of p*) 1. 固有表現サブセットEiの確率分布wiの計算 ○ ニュースコレクション内の固有表現Eから3つまで取得 ○ サブセットEiに対して、Inference(n, Ei)を実行し、Eiを含むパターン の単語分布を計算 2. 確率分布wの計算 ○ 全ての固有表現のサブセットに対してInference(n, Ei)を実行 3. 確率分布wiの選択 ○ 全体の分布wと各固有表現のサブセットEiの分布wiを比較 ○ 最も類似するwiを選択 4. パターンp*の選択 ○ w*に最も大きい重みをつけるパターンを選択
  • 13. Experiment settings ● 実験データ ○ Noisy-ORモデルには大規模データが必要 ○ 2008年~2012年のWebデータをクロール ■ 時間とコサイン類似度を使ってクラスタリング ■ 5文書以下のクラスタは削除 ■ 最大50文書以内に ○ 1700万文書集合、うち、数百万文書集合はテスト用 ● Nosiy-OR ○ 100,000の潜在イベント ○ 40のEM ● パターン抽出 ○ CollectionToPatternsアルゴリズムにより2.3億のイベントパターンを 生成 ○ 同じコレクションから生成されたものをまとめると1700万
  • 14. System Used (Method for picking one) ● Latest headline ○ 最新の記事のタイトルを利用 ● Most frequest headline ○ ニュースコレクション内の最頻のタイトルを利用 ● TopicSum ○ 3層(background, content, doc-specific)のトピックモデル ○ コレクションのunigramモデルとのカルバックライブラー情報量が最 小のタイトルを利用
  • 15. System Used (Generate Headline) ● Multi-Sentence Compression (MSC) ○ 1文書からの要約手法 ○ 単語グラフを生成 ○ 最短パスを取得 ● Most frequest pattern ○ 提案手法のNoisy-ORなしバージョン ■ Noisy-ORの有効性を示すためのベースライン ○ 生成したパターンの中から最頻のパターンを利用
  • 16. Results ● 8人の評価者により以下の指標をアノテーション ○ Readability:文法的かを5段階評価 ○ Informativeness:情報量を5段階評価 ● すべてのシステムがタイトルを生成できた50文書集合をランダム に取得 ● HEADYとMSCは有意差あり ● HEADYとMost freq. patternは有意差なし
  • 17. Other Results ● 1つ目 ○ 噂を否定したニュース ● 2つ目 ○ HEADYがFrequent patternを改 善 ● 3つ目 ○ HEADYがノイズの多いコレク ションから正しくヘッドラインを 生成 ● 自動評価 ○ 従来はROUGE ○ TopicSumが利用できるかも
  • 18. Conclusion ● HEADY ○ Noisy-OR Bayesian Network ○ 要約的ヘッドライン生成手法 ○ 人手のアノテーションデータは不要で、Webサイズのコーパスに効 率的にスケールできる ● 従来手法(MSC)より高い性能