SlideShare a Scribd company logo
論文紹介
Detecting Research Topics via the
Correlation between Graphs and Texts
KDD 07 August 12-15
筑波大学CS専攻1年 北川データ工学研究室
伊藤寛祥
発表の流れ
• 概要
• 提案手法
• 実験
• 結論
2
概要
• 近年,トピック分析に関する研究は活発に行われて
いる
• この論文では,リンク情報を持つ大規模なテキスト
データからのトピック分析に焦点を当てる
• この論文では,グラフ分析を用いた新しいトピック
検出手法を提案する
3
手法のアプローチ
• この手法では
• 単語がトピックとして振る舞うときの文書集合にお
ける分布
• 引用関係のグラフの形状
から単語の トピック らしさを算出
• 単語がトピックとして振る舞うときはグ
ラフが密に結合しているはずである
4
単語と引用グラフ
5
α
α
α
α
α
α
α
α α
α
α
単語と引用関係
6
α
α
α
α
α
α
α
α
α
α
α
α
η
η
η
η
η
η
η
η
η
η
η
η
η
単語αを含む文書の引用関係 単語ηを含む文書の引用関係
単語αはトピック 単語ηはトピックではない
単語の引用関係のグラフの形状から
単語のトピックらしさを算出する
定義
• この論文で扱う 単語 は n-gram として扱う
• 例. network , for the , association rule mining
• 単語Aをもつ文書のグラフ  は,文書全体からな
る引用グラフ の部分グラフである
• 単語Aの引用グラフ は以下で定義される
7
GA
Gall
V (GA) = {d|document d contains a term A, d 2 V (Gall)}
E(GA) = {e(di, dj)|di, dj 2 G(GA), e(di, dj) 2 E(Gall)}
GA
トピックらしさの算出
• ある単語Aが与えられた時,単語Aがトピックとして振る舞うか否
かを数値として算出する
• H1  : 単語Aはトピックとして振る舞う
• H0  : 単語Aはトピックとして振る舞わない
•    :  の形状
• H1が与えられた時の    の尤度とH0が与えられた時の   
の尤度との差をTopicScore(A)とする
8
TopicScore(A)
= log(P(O(GA)|H1)) log(P(O(GA)|H0))
= log
✓
P(O(GA)|H1)
P(O(GA)|H0)
◆
O(GA)
O(GA) O(GA)
GA
単語グラフの形状が「トピックらしい」とは
•   における各ノードに関して,少なくとも一本   内のノードに
つながるリンクが存在しているか
•    :   のノードの数
•   :   のノードのうち少なくとも一本   内につながるリンクを持つノードの数
• :単語Aをトピックと過程したとき,各ノードのリンクが少なくとも一本   内に
つながる確率(1に近い値.パラメータ)
9
GA GA
log(P(O(GA)|H1))
= log
Y
i
P(Oi(GA)|H1)
!
= nc.Alog(pc) + (nA nc.A)log(1 pc)
nc.A
nA GA
GA GA
pc
トピックとして振る舞う単語
は引用元にも存在しているは
ずである
GA
トピックらしさ
• 単純なリンクの多さで トピックらしさ を算出する
ことは不可能
10
単語グラフの形状が「トピックらしくない」とは
•   における各ノードに関して少なくとも一本  
におけるノードにランダムにつながっていないか
11
GA GA
単語Aはストップワードではないか
• H0は, 単語Aはストップワードとして振る舞う
単語グラフの形状が「トピックらしくない」とは
•   における各ノードに関して少なくとも一本  
におけるノードにランダムにつながっていないか
12
GA GA
GA
GA   におけるノード i においてランダム
な選出で  内にリンクがつながる確率GA
nA 1
N 1
?
?
   におけるノード i においてランダムな選出
で  内に一本でもリンクがつながる確率
GA
GA
1
✓
1
nA 1
N 1
◆li
li :ノード i における引用リンクの総数
N :グラフ全体におけるノードの数
単語グラフの形状が「トピックらしくない」とは
•   における各ノードに関して少なくとも一本  
におけるノードにランダムにつながっていないか
13
GA GA
log(P(O|H0))
=
X
i
log(P(Oi(GA)|H0))
=
X
i2Vc(GA)
log 1
✓
1
nA 1
N 1
◆li
!
+
X
i2(V (GA) Vc(GA))
li log
✓
1
nA 1
N 1
◆
Vc(GA) : におけるノードのうち少なくとも
一本  にリンクを持つノード
GA
GA
実験 1
• 論文データベースでこの手法の有用性を検証する
• ArXiv
• 物理学が中心の論文データベース
• 1991 2006年の主要な7分野の論文を取得
• 214,546件の論文,2,165,170の引用リンクを取得
• 論文の内容は,アブストラクト,引用情報
• 137,098単語(bi-gram)に関して解析(出現頻度があまりに少ない
単語は除去)
14
ArXivにおけるトピックらしい単語ランキング:上位
15
n :   におけるノード数GA
nc :  におけるノード
のうち,少なくとも一本
  へつながるリンク
を持っているノード数
GA
GA
|E| :  におけるノードが
持つリンクの総数
GA
ArXivにおけるトピックらしい単語ランキング:下位
16
ランキング下位は
ストップワード
TopicScore = log(P(O(GA)|H1))
log(P(O(GA)|H0))
帰無仮説が優位
になったため
ArXivにおけるトピックらしい単語ランキング:中位
17
1,971位 :
two-dimensional qcd のグラフ
かなり粒度の細かい
トピックまで発見できる
グラフのノード数とランキングの関係
18
縦軸:log(グラフのノード数)
横軸:単語のランク
実験 2
• CiteSeerX
• 計算機科学に関する論文データベース
• 1994 2004年の論文を取得
• 716,771件の論文,1,740,326の引用リンクを取得
• 論文の内容は,タイトル,アブストラクト,引用情報
• 631,839単語(bi-gram)に関して解析(出現頻度があまりに少ない
単語は除去)
19
CiteSeerXにおけるトピックランキングの変遷
20
1999年までの文書
からのトピック
2000年からの文書
からのトピック
1999年までのランキングには存在
しなかった単語が上位に
トピックの発展
• 全文書における,トピックを含む文書の割合からト
ピックの流行度を算出
21
・縦軸:トピックを持つ
文書の割合
・横軸:年
トピックの発展
22
結論
• この論文では,グラフの形状と単語の分布の関係か
らトピックらしい単語を検出する手法を提案した
• トピックらしさによる単語のランキング
• ストップワードの検出
• ランキングによるトピックの粒度の算出
• 単語の流行度の算出
23

More Related Content

PDF
ShunGendo_fit2021
PDF
ShunGendo_deim2021
PDF
Similarity component analysis
PDF
C-IMAGE: city cognitive mapping through geo-tagged photos 解説
PDF
"Spectral graph reduction for efficient image and streaming video segmentatio...
PDF
Self-turning Spectral Clustering (NIPS2004)
PDF
Fast normalized cut with linear constraint (CVPR2009)
PDF
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
ShunGendo_fit2021
ShunGendo_deim2021
Similarity component analysis
C-IMAGE: city cognitive mapping through geo-tagged photos 解説
"Spectral graph reduction for efficient image and streaming video segmentatio...
Self-turning Spectral Clustering (NIPS2004)
Fast normalized cut with linear constraint (CVPR2009)
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

Viewers also liked (8)

PDF
【2016.01】(2/3)cvpaper.challenge2016
PDF
【2016.01】(1/3)cvpaper.challenge2016
PDF
【2016.02】cvpaper.challenge2016
PDF
【2016.04】cvpaper.challenge2016
PDF
【2016.05】cvpaper.challenge2016
PDF
【2016.01】(3/3)cvpaper.challenge2016
PDF
【2016.03】cvpaper.challenge2016
PDF
Robust Large-Scale Machine Learning in the Cloud
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
【2016.02】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016
【2016.03】cvpaper.challenge2016
Robust Large-Scale Machine Learning in the Cloud
Ad

Similar to Detecting Research Topics via the Correlation between Graphs and Texts (8)

PDF
Topical keyphrase extraction from twitter
PPTX
Topic discovery through data dependent and random projections
PPTX
潜在トピックとネットワーク分析
PDF
大規模常識知識ベース構築のための常識表現の自動獲得
PPTX
20151221 public
PDF
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
PPTX
M1GP: A Word at a Time
PDF
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Topical keyphrase extraction from twitter
Topic discovery through data dependent and random projections
潜在トピックとネットワーク分析
大規模常識知識ベース構築のための常識表現の自動獲得
20151221 public
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
M1GP: A Word at a Time
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Ad

More from Shunya Ueta (10)

PDF
Introducing "Challenges and research opportunities in eCommerce search and re...
PDF
Auto Content Moderation in C2C e-Commerce at OpML20
PDF
How to evaluate & manage machine learning model #daft
PDF
Introduction to argo
PDF
Introduction to TFX (TFDV+TFT+TFMA)
PDF
Kubeflowで何ができて何ができないのか #DEvFest18
PDF
How to break the machine learning system barrier ?
PDF
TFX: A tensor flow-based production-scale machine learning platform
PDF
Applied machine learning at facebook a datacenter infrastructure perspective...
PDF
コミュニティサイトを爆速で作成し、お手軽に運用する方法
Introducing "Challenges and research opportunities in eCommerce search and re...
Auto Content Moderation in C2C e-Commerce at OpML20
How to evaluate & manage machine learning model #daft
Introduction to argo
Introduction to TFX (TFDV+TFT+TFMA)
Kubeflowで何ができて何ができないのか #DEvFest18
How to break the machine learning system barrier ?
TFX: A tensor flow-based production-scale machine learning platform
Applied machine learning at facebook a datacenter infrastructure perspective...
コミュニティサイトを爆速で作成し、お手軽に運用する方法

Detecting Research Topics via the Correlation between Graphs and Texts