ユーザの潜在特徴を考慮した情報拡散モデルの学習

ユーザの潜在特徴を考慮した
情報拡散モデルの学習

吉川友也 (奈良先端科学技術大学院大学)
岩田具治 (NTTコミュニケーション科学基礎研究所)
澤田宏 (NTTコミュニケーション科学基礎研究所)

2012-11-20 @ WebDB Forum 2012

ソーシャルメディアの興隆に伴い 2

クチコミ現象が注目を集めている
現実の
ソーシャル
ネットワーク

反映ニュース，
新商品のレビュー，
デマ等が広がる
予測

分析

最も影響力のあるユーザ話題の広がるスピード
話題の広がりやすさ

ソーシャルメディアの興隆に伴い 3

クチコミ現象が注目を集めている
現実の
ソーシャル
ネットワーク

反映ニュース，
新商品のレビュー，
デマ等が広がる
予測

分析クチコミ現象を表した
情報拡散モデルが利用される
最も影響力のあるユーザ話題の広がるスピード
話題の広がりやすさ

4
情報拡散モデルは，ネットワークにおける情報
の伝達を表現した数理モデル
*  独立カスケードモデル [Kempe+, ’03]

*  各リンクの拡散確率に従って，他の試行とは独立に情報
を伝える試行を行うモデル

5


拡散確率
B 0.1

C

A
0.3

E
D
0.1

6


生成された情報拡散のログ

情報発信者 B 0.1 ノード名伝わった時刻
A 11/20 18:00
C

A
0.3

E
D
0.1

7



B 0.1 ノード名伝わった時刻
A 11/20 18:00
C

A
0.3

E
D
0.1

8



A 11/20 18:00
C

A
0.3

E
D
0.1

9



A 11/20 18:00
C B 11/20 18:10

A
0.3

E
D
0.1

10



A 11/20 18:00
C B 11/20 18:10

A
0.3

E
D
0.1

11



A 11/20 18:00
C B 11/20 18:10

A
0.3

E
D
0.1

12



A 11/20 18:00
C B 11/20 18:10
C 11/20 18:19
A
0.3

E
D
0.1

13
目的: 未知の拡散確率をより正確に推定
*  「拡散確率は既知」が前提の研究
*  影響最大化問題
*  どのX人を情報源として選ぶと影響を最大化出来るか
*  汚染最小化問題
*  どのX人をネットワークから除去すると影響を最小化
出来るか
*  現実的には，ユーザ間の拡散確率は未知
*  情報拡散モデルを動かすには拡散確率が必要
*  本研究で行うこと
*  独立カスケードモデルの拡散確率を正確に推定する方法
の構築

14
先行研究: リンクの拡散確率を直接推定
[Gruhl+ 04, Saito+ 09]

1.  情報拡散の経路を推定(Eステップ)

A A A
？ C ？ C ？ C
・・・
B B B
1回⽬目の試⾏行行 2回⽬目の試⾏行行 n回⽬目の試⾏行行
ノードCが誰から情報を受け取ったのかは隠れ状態
推定
A A A
C C C
・・・
B B B

15

2.  拡散確率を最尤推定(Mステップ)

A A A A A
C C C C C
B B B B B
1回⽬目の試⾏行行 2回⽬目の試⾏行行 3回⽬目の試⾏行行 4回⽬目の試⾏行行 5回⽬目の試⾏行行

ノードAからノードCへの拡散確率は 2/5
ノードBからノードCへの拡散確率は 3/5

16

2.  拡散確率を最尤推定(Mステップ)

A A A A A
C C C C C
B B B B B
1回⽬目の試⾏行行 2回⽬目の試⾏行行 3回⽬目の試⾏行行 4回⽬目の試⾏行行 5回⽬目の試⾏行行

ノードAからノードCへの拡散確率は 2/5
ノードBからノードCへの拡散確率は 3/5
問題点
観測する試行数に対してリンク数が多すぎるため
正確に拡散確率を推定できない

17
どういう時に推定が難しいのか？
*  先行研究の得意な状況
*  情報拡散のログ(観測データ)が大量にある

250 90 拡散成功回数
1000 250 拡散試行の回数
A D G
200 85 30
1000 250 90
60 70
200 145
B E H
80 40 25
200 145 100
40 15
80 80
C F I

18
どういう時に推定が難しいのか？
*  先行研究の苦手な状況
*  情報拡散のログが少数 ▶▶▶ 汎化性能が低い

4 1
10 4
A D G
5 1 1
10 4 1
1 0
5 2
B E H
2 2 1
5 2 1
0 1
2 2
C F I

19
ユーザの特徴によって伝わりやすさが決まる
ことを仮定したモデルを提案
*  各ユーザは二種類の特徴を持つと仮定
*  ただし，特徴は陽に観測する必要はない（未知）

影響の与えやすさを影響の受けやすさを
表す特徴ベクトル表す特徴ベクトル
x = [x1 , x2 , · · · , xK ]> y = [y1 , y2 , · · · , yK ]>

20
ユーザの特徴によって伝わりやすさが決まる
ことを仮定したモデルを提案
*  各ユーザは二種類の特徴を持つと仮定
*  ただし，特徴は陽に観測する必要はない（未知）

影響の与えやすさを影響の受けやすさを
表す特徴ベクトル表す特徴ベクトル
x = [x1 , x2 , · · · , xK ]> y = [y1 , y2 , · · · , yK ]>

*  拡散確率はユーザの特徴の内積に基づいて決まる
*  A B の拡散確率の計算はシグモイド関数:
⇣ ⌘ 1
1 + exp( x> yB
A )

21
推定するパラメータの比較

パラメータの種類パラメータ数

各リンクの 2
先行研究
拡散確率 O(V )
ユーザの潜在特徴
提案法
ベクトル O(V K)
Note: V=ノード数，K=特徴ベクトルの次元数

22
提案法: 各ユーザの潜在特徴ベクトルを推定
して，間接的に拡散確率を計算
1.  情報拡散の経路を推定(Eステップ)
*  先行研究と同じ手続きによって行う

A A A
？ C ？ C ？ C
・・・
B B B

ノードCが誰から情報を受け取ったのかは隠れ状態
推定
A A A
C C C
・・・
B B B

23
2.  各ユーザの潜在特徴ベクトルを推定(Mステップ)

y x x y x y
1.0 1.0 ? ？ 0.0 0.5
0.5 0.0 ? ？ 1.0 0.1
A C B
ここに注目

24

xを推定
y x x y x y
1.0 1.0 ? ？ 0.0 0.5
0.5 0.0 ? ？ 1.0 0.1
A C B

25

y x x y x y
1.0 1.0 ? ？ 0.0 0.5
0.5 0.0 ? ？ 1.0 0.1
A C B
⇣ ⌘ 1 ⇣ ⌘ 1
1 + exp( x> yA
C ) ⇡ 0.2 1 + exp( x> yB
C ) ⇡ 0.15

データから計算される拡散確率に近づくように x を最適化

26

y x x y x y
1.0 1.0 0.1 ？ 0.0 0.5
0.5 0.0 0.5 ？ 1.0 0.1
A C B
⇣ ⌘ 1 ⇣ ⌘ 1
1 + exp( x> yA
C ) ⇡ 0.2 1 + exp( x> yB
C ) ⇡ 0.15

データから計算される拡散確率に近づくように x を最適化

27

yを推定
y x x y x y
1.0 1.0 0.1 ？ 0.0 0.5
0.5 0.0 0.5 ？ 1.0 0.1
A C B

28

y x x y x y
1.0 1.0 0.1 ？ 0.0 0.5
0.5 0.0 0.5 ？ 1.0 0.1
A C B
⇣ ⌘ 1 ⇣ ⌘ 1
1 + exp( x> yC
A ) ⇡ 0.2 1 + exp( x> yC
B ) ⇡ 0.4

データから計算される拡散確率に近づくように y を最適化

29

y x x y x y
1.0 1.0 0.1 0.3 0.0 0.5
0.5 0.0 0.5 0.6 1.0 0.1
A C B
⇣ ⌘ 1 ⇣ ⌘ 1
1 + exp( x> yC
A ) ⇡ 0.2 1 + exp( x> yC
B ) ⇡ 0.4

データから計算される拡散確率に近づくように y を最適化

30
3.  各リンクの拡散確率を計算
y x x y x y
1.0 1.0 0.1 0.3 0.0 0.5
0.5 0.0 0.5 0.6 1.0 0.1
A C B

具体例: A C の拡散確率の計算
⇣ ⌘ 1 推定したバイアスパラメータ
A,C = 1 + exp( x> yC
A ) = 1.5
⇣ ⌘ 1
= 1 + exp( 1.0 ⇥ 0.1 0.0 ⇥ 0.5 + 1.5) = 0.198

31
先行研究の苦手な状況を克服
*  ノードに情報伝達の特徴を割り当てることによって
汎化性能の高い確率推定を実現する
4 1
10 4
A D G
5 1 1
10 4 1
1 0
5 2
B E H
2 2 1
5 2 1
0 1
2 2
C F I

32
4 1
10 4
A D G
5 1 1
10 4 B D 1
1 からの影響の
0

B
5
E 受けやすさを潜在特徴
2
H
2
ベクトルyに集約
2 1
5 2 1
0 1
2 2
C F I

33
4 1
10 4
A D G
5 1 1
H への影響の強さを
F 10
1
4
0
1

潜在特徴ベクトルxに
5 2
B E H
集約
2 2 1
5 2 1
0 1
2 2
C F I

34
実験: 現実のネットワークデータと人工の情報拡散の
ログを使って，提案手法の有効性を検証

*  提案手法と既存手法
*  提案手法: ユーザの潜在特徴から間接的に推定
*  既存手法１: 各リンクの拡散確率を直接推定 [Saito+ ‘09]
*  既存手法２: 全リンクの拡散確率が共通として直接推定

*  ２種類の実験
*  拡散確率推定精度
*  真の拡散確率と各手法で推定した拡散確率を比較
*  影響度推定精度
*  真の拡散確率と推定した拡散確率を使った影響度を比較

35
データ: 実ネットワーク+人工の情報拡散のログ
*  ネットワークデータ
*  Karate, Blog, Enron, Mixiの４種類で実験
ノード数リンク数ログ数平均ログ⻑⾧長

*  人工で生成した情報拡散のログ
*  提案モデルによって計算した拡散確率を使い，
独立カスケードモデルに基づいてログを生成

情報の内容，ユーザ名，時間の三つ組

36
データ: 実ネットワーク+人工の情報拡散のログ
*  ネットワークデータ
*  Karate, Blog, Enron, Mixiの４種類で実験
ノード数リンク数ログ数平均ログ⻑⾧長

観測データが
少ない状況

*  人工で生成した情報拡散のログ
*  提案モデルによって計算した拡散確率を使い，
独立カスケードモデルに基づいてログを生成

情報の内容，ユーザ名，時間の三つ組

37
【拡散確率の推定精度】
既存手法より良い精度(小さい誤差)で推定

提案⼿手法

良良い

38
【拡散確率の推定精度】
既存手法より良い精度(小さい誤差)で推定

39
情報拡散モデルに基づく影響度推定への応用

*  「ユーザXの影響度」の定義
*  ユーザXから発信される情報によって影響を受ける
ユーザの総数
*  既存の影響度推定法に提案手法を組み込む
*  真の影響度と推定した影響度の相関を計る
⼊入⼒力力出⼒力力

情報拡散拡散確率率率情報拡散
シミュレーション影響度度
のログ推定

真の・提案⼿手法
⽐比較・既存⼿手法1
拡散確率率率・既存⼿手法2

40
提案手法を利用して推定した影響度は，
真の影響度と最も近い振る舞いをしている

提案手法既存手法1 既存手法2

0.6 0.9

0.45 0.675

0.3 0.45

0.15 0.225

0 0
Karate Blog Enron Mixi Karate Blog Enron Mixi
ケンドールの順位相関係数ピアソン積率相関係数

41
*  Karate(上段)とBlog(下段)の結果
提案手法既存手法１既存手法２

42
*  Enron(上段)とMixi(下段)の結果
提案手法既存手法１既存手法２

図2 各ノードの影響度の散布図．縦軸は推定した影響度．横軸は真の影響度．(一段目)Karate

43
まとめと今後の課題
*  独立カスケードモデルの拡散確率をより正確に推定
する方法を提案
*  情報の伝え方と受け取り方に関する潜在特徴を仮定

*  人工データでは，提案手法が良い精度でパラメータ
推定可能を示した
*  その結果，影響度推定でも良い精度に繋がる

*  今後の課題
*  実データを使って提案モデルの有用性を検証
*  推定した潜在特徴から情報拡散における特徴を発見する

ユーザの潜在特徴を考慮した情報拡散モデルの学習

More Related Content

Viewers also liked (19)

ユーザの潜在特徴を考慮した情報拡散モデルの学習