Submit Search
Heady news headline abstraction through event pattern clustering
1 like
1,467 views
Shunsuke Kozawa
社内輪読会で紹介した「Heady news headline abstraction through event pattern clustering」の資料
Technology
Read more
1 of 18
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
More Related Content
PDF
Elasticsearchを用いたはてなブックマークのトピック生成
Shunsuke Kozawa
PDF
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
Shunsuke Kozawa
PDF
はてなブックマークに基づく関連記事レコメンドエンジンの開発
Shunsuke Kozawa
PDF
Gunosyにおけるパーソナライズシステム
Shunsuke Kozawa
PPTX
Gunosyにおける仮説検証とABテスト
Shunsuke Kozawa
PDF
Elasticsearch in hatena bookmark
Shunsuke Kozawa
PDF
はてなブックマークの新機能における自然言語処理の活用
Shunsuke Kozawa
PDF
Active learning with efficient feature weighting methods for improving data q...
Shunsuke Kozawa
Elasticsearchを用いたはてなブックマークのトピック生成
Shunsuke Kozawa
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
Shunsuke Kozawa
はてなブックマークに基づく関連記事レコメンドエンジンの開発
Shunsuke Kozawa
Gunosyにおけるパーソナライズシステム
Shunsuke Kozawa
Gunosyにおける仮説検証とABテスト
Shunsuke Kozawa
Elasticsearch in hatena bookmark
Shunsuke Kozawa
はてなブックマークの新機能における自然言語処理の活用
Shunsuke Kozawa
Active learning with efficient feature weighting methods for improving data q...
Shunsuke Kozawa
Featured
(20)
PDF
2024 Trend Updates: What Really Works In SEO & Content Marketing
Search Engine Journal
PDF
Storytelling For The Web: Integrate Storytelling in your Design Process
Chiara Aliotta
PDF
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
OECD Directorate for Financial and Enterprise Affairs
PDF
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
SocialHRCamp
PDF
2024 State of Marketing Report – by Hubspot
Marius Sescu
PDF
Everything You Need To Know About ChatGPT
Expeed Software
PDF
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
PDF
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
PDF
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
PDF
Skeleton Culture Code
Skeleton Technologies
PDF
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
PDF
Content Methodology: A Best Practices Report (Webinar)
contently
PPTX
How to Prepare For a Successful Job Search for 2024
Albert Qian
PDF
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
PDF
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
PDF
5 Public speaking tips from TED - Visualized summary
SpeakerHub
PDF
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
PDF
Getting into the tech field. what next
Tessa Mero
PDF
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
PDF
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
2024 Trend Updates: What Really Works In SEO & Content Marketing
Search Engine Journal
Storytelling For The Web: Integrate Storytelling in your Design Process
Chiara Aliotta
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
OECD Directorate for Financial and Enterprise Affairs
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
SocialHRCamp
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Ad
Heady news headline abstraction through event pattern clustering
1.
Enrique Alfonseca, Daniele
Pighin, Guillermo Garrido ACL2013 HEADY: News headline abstraction through event pattern clustering id:skozawa 論文輪読会
2.
Headline Generation ● 同じニュースが複数の媒体、 複数の観点で書かれる ○
要約 ○ ヘッドライン ● 右の例の場合 ○ Carmelo Anthony … がヘッ ドラインとして妥当
3.
Goal ● 研究目的 ○ オープンドメインなヘッドライン生成 ■
コストの高い学習データを必要としない教師なし手法 ○ 同じイベントを参照する類似表現を汎化 ○ 要約的なアプローチをとる ■ 抜粋的(extractive) ■ 要約的(abstractive)
4.
Headline Generation ● HEADY ○
入力:同じ話題のニュースコレクション ○ 出力:ニュースコレクションのヘッドライン ○ パターン抽出 ■ 固有表現を1つ以上含む構文木 ○ 学習 ■ Noisy-OR Baysian Network ■ パターン(観測変数)、イベント(隠れ変数) ○ 推論 ■ パターン抽出 ■ 隠れイベント変数の事後確率推定 ■ ヘッドライン生成のために最尤のパターンを選択
5.
Pattern Extraction (CollectionToPatterns) ●
PreProcessData ○ トークン化、文境界解析 ○ 形態素解析 ○ 構文解析 ○ 照応解析 ○ 固有表現抽出 ■ Wikipedia, Freebase ■ Freebaseのclassを付与
6.
Pattern Extraction (CollectionToPatterns) ●
GetRelevantEntities ○ ニュースコレクションからよく言 及されている固有表現Eを取 得 ● Combinations ○ 固有表現の組み合わせ ○ 3単語以下 ● ExtractPatterns ○ 固有表現を含むイベントパ ターンを抽出
7.
Pattern Extraction (ExtractPatterns) ●
タイトルと本文1文目のみ ● GetMentionNodes ○ 固有表現であるノードMを識 別 ■ 固有表現を含むまない文 は無視 ● GetMinimumSpaningTree ○ ノードMを含む最小の構文木 を取得
8.
Pattern Extraction (ExtractPatterns) ●
ApplyHeuristics ○ 高い確率で構文木は非文法 的、もしくは、非有用 ○ 例のe1とe2のペア(2)は良い概 要ではない ○ 意味がわかる最小限の集合を 目的とした変換を後処理とし ておこなう ■ rootや主部を含む ■ conjunctionsを含む ● CombineEntityTypes ○ e1, e2をclassに置き換えて個 別のパターンを生成
9.
Training ● 抽出したパターンを使ってNosiy-ORで学習 ● パターンが1つ以上のイベントを活性化する確率を推定 ●
隠れ変数(イベント)と観測変数(パターン) ● 全パターンにはノイズイベントがリンクされる ○ 言語背景によって生成されるイベント(ノイズ)を許容 ● パターンが与えられたときのイベントeiの条件付確率 ● 学習プロセスを100,000ニュースコレクションで初期化し、重みを 40EMで最適化 qij = P(ei=1|pj=1) : パターンpjからイベント eiの確率 qi0 : ノイズパターンからイベントeiの確率 未観測パターンからのイベント生起
10.
Inference (generation of
news headlines) ● HEADY ○ 入力:ニュースコレクションN ○ 出力:ヘッドライン ● 仮定:NのヘッドラインはNに関連する固有表現Eの重要なイベ ントについて述べなければならない ● Nに関連する1つのイベント-パターン対 p* が必要 ● p*のプレースホルダーを、Nで観測された固有表現の表層形で 埋める
11.
Inference (Inference(n, E)) ●
Inference(n, E) ○ 基本的な推論アルゴリズムは2段階ランダムウォーク ○ n: ニュース記事 ○ E: 固有表現集合 ○ パターン抽出 ■ ExtractPatterns(n, E) ○ 観測変数の確率分布の取得 ■ 抽出したパターンの頻度を正規化
12.
Inference (extraction of
p*) 1. 固有表現サブセットEiの確率分布wiの計算 ○ ニュースコレクション内の固有表現Eから3つまで取得 ○ サブセットEiに対して、Inference(n, Ei)を実行し、Eiを含むパターン の単語分布を計算 2. 確率分布wの計算 ○ 全ての固有表現のサブセットに対してInference(n, Ei)を実行 3. 確率分布wiの選択 ○ 全体の分布wと各固有表現のサブセットEiの分布wiを比較 ○ 最も類似するwiを選択 4. パターンp*の選択 ○ w*に最も大きい重みをつけるパターンを選択
13.
Experiment settings ● 実験データ ○
Noisy-ORモデルには大規模データが必要 ○ 2008年~2012年のWebデータをクロール ■ 時間とコサイン類似度を使ってクラスタリング ■ 5文書以下のクラスタは削除 ■ 最大50文書以内に ○ 1700万文書集合、うち、数百万文書集合はテスト用 ● Nosiy-OR ○ 100,000の潜在イベント ○ 40のEM ● パターン抽出 ○ CollectionToPatternsアルゴリズムにより2.3億のイベントパターンを 生成 ○ 同じコレクションから生成されたものをまとめると1700万
14.
System Used (Method
for picking one) ● Latest headline ○ 最新の記事のタイトルを利用 ● Most frequest headline ○ ニュースコレクション内の最頻のタイトルを利用 ● TopicSum ○ 3層(background, content, doc-specific)のトピックモデル ○ コレクションのunigramモデルとのカルバックライブラー情報量が最 小のタイトルを利用
15.
System Used (Generate
Headline) ● Multi-Sentence Compression (MSC) ○ 1文書からの要約手法 ○ 単語グラフを生成 ○ 最短パスを取得 ● Most frequest pattern ○ 提案手法のNoisy-ORなしバージョン ■ Noisy-ORの有効性を示すためのベースライン ○ 生成したパターンの中から最頻のパターンを利用
16.
Results ● 8人の評価者により以下の指標をアノテーション ○ Readability:文法的かを5段階評価 ○
Informativeness:情報量を5段階評価 ● すべてのシステムがタイトルを生成できた50文書集合をランダム に取得 ● HEADYとMSCは有意差あり ● HEADYとMost freq. patternは有意差なし
17.
Other Results ● 1つ目 ○
噂を否定したニュース ● 2つ目 ○ HEADYがFrequent patternを改 善 ● 3つ目 ○ HEADYがノイズの多いコレク ションから正しくヘッドラインを 生成 ● 自動評価 ○ 従来はROUGE ○ TopicSumが利用できるかも
18.
Conclusion ● HEADY ○ Noisy-OR
Bayesian Network ○ 要約的ヘッドライン生成手法 ○ 人手のアノテーションデータは不要で、Webサイズのコーパスに効 率的にスケールできる ● 従来手法(MSC)より高い性能
Download