SlideShare a Scribd company logo
リンク予測の話
 2012/03/07
  @y_benjo
今日話すのは

• リンク予測のチュートリアル
• 識別モデルベース
• ランダムウォークベース
• Supervised Random Walks:Predicting
  and Recommending Links in Social
  Networks
リンク予測
• グラフにおいて,2ノード間にリンクが
    あるかどうかを予測する
    • 時刻tのグラフから時刻t のグラフを予測   B
     する
              ???
          X         Y


A
何が嬉しいか


• SNSにおける友人関係の予測
• PPI(Protein-Protein Interaction)
 • タンパク質間の反応予測
定番のアプローチ

• 識別モデルベース
• グラフ構造から特徴量を構築し,分類
 器に突っ込む
• 2ノードu, vに関する特徴量を構築し,u,
  v間にエッジがあるかどうかを予測する

• 代表的な特徴量を紹介
ローカルな特徴量
•   をxの隣接ノードとすると
• Common neighbors

• Jaccard

• Adamic/Adar

• Preferential attachment
Adamic/Adar

  X        Y


           Z2
      Z1
グローバルな特徴量
• Katz
                    closed




• rooted PageRank
 • xから開始したランダムウォークがyに留
   まる確率

• Hitting time
 • xからyへ到達するのにかかる平均時間
 • [Mei, 2008]のとは違うっぽい
• SimRank
行列分解系



• 隣接行列をSVDで低次元行列に
• ノイズが減って良い
その他の特徴量
• t→t での予測であることを考える
 •   グラフに時間情報があるとした場合

• Recency [Potgieter+, 07]
 • 最後につながってからの経過時間
• activeness [Huang, 10]
 • tにおいてつながったノード数
• Interplay [Qiu, 11]
 • ノード間のjoint probabilityを求めるとか
コンペティション
• IJCNN Social Network Challenge
• ノード情報なしのグラフーデータが与えら
 れてリンクがあるかどうかを予測するコン
 ペティション

 • 1133547ノード,7237983エッジ
 • ソースはFlickrであることがアナウンスさ
   れる

• 大多数のチームはグラフから特徴量を工夫
 しながら生成し識別モデルで解く
de-anonymize
• 優勝チームが取ったアプローチは全く異
 なる
 • そもそも匿名化の専門家がチームにいる
• Flickr100万idをクロールし,コンペ用
 のデータと突き合わせて匿名化されたid
 を特定(de-anonymize)
 • 80%ほど特定できたとか
ランダムウォークベース
• PropFlow [Lichtenwalter+, 10]
• Lステップで打ち切るランダムウォーク
    でスコアを振る
    • ベンチマーク
•   https://github.com/TrainingCamp2012/
    seiyu_prediction/blob/master/scripts/
    link_prediction.rb
Supervised RW
• ここまではグラフ構造からのみ予測す
 る論文

• ノード/エッジの特徴量も使って予測す
 る
• ノード: 性別,年齢,趣味
• エッジ: どういう関係か,同じ写真に何度
  登場したか
そもそもの問題点
• グラフがスパースな事
• fbで友達になるのは外的要因がある
• 同じパーティに参加した,とか
• アプローチとして
• 識別ベース: 特徴量作るのがめんどくさ
  い,そもそもimbalance

• RWベース: 楽,隣接ノードを辿るのでス
  パースに対応できる.が,どうやって特徴
  量を利用する?
SRW
• ノード対(u, v)について,ランダム
 ウォーク後の定常確率pを予測する問題
 を解く

• 具体的には遷移確率をa_{u,v} = f_w
 (ψ_{u,v})として,このwの重みを予測
 する

• これ以上はホワイトボードで
References
•   [Kleinberg, 03] The link prediction problem for social networks,
    David Liben-Nowell and Jon Kleinberg, CIKM 2003

•   [Potgieter+, 07] Temporality in Link Prediction: Understanding Social
    Complexity, A. Potgieter, Kurt April, R.J.E. Cooke, I.O. Osunmakinde,
    Sprouts: Working Papers on Info. Sys 2007

•   [Huang, 10] The Time-Series Link Prediction Problem with
    Applications in Communication Surveillance, Zan Huang, Dennis K J
    Lin, INFORMS2010

•   [Qiu+, 11] Evolution of Node Behavior in Link Prediction, Baojun Qiu,
    Qi He, and John Ye, AAAI'2011

•   [Lichtenwalter+, 10] New Perspectives and Methods in Link
    Prediction, Ryan N. Lichtenwalter, Jake T. Lussier, and Nitesh V.
    Chawla, KDD 2010

•   [Backstorm, 11] Supervised Random Walks: Predicting and
    Recommending Links in Social Networks, Lars Backstrom and Jure
    Leskovec, WSDM'2011

•   de-anonymizeの話 → http://d.hatena.ne.jp/repose/
    20110125/1295929405

More Related Content

PPTX
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PDF
生成モデルの Deep Learning
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PPTX
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
PDF
Variational AutoEncoder
PPTX
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
生成モデルの Deep Learning
【論文紹介】How Powerful are Graph Neural Networks?
【DL輪読会】時系列予測 Transfomers の精度向上手法
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Variational AutoEncoder
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition

What's hot (20)

PDF
時系列問題に対するCNNの有用性検証
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PPTX
Graph Neural Networks
PPTX
Triplet Loss 徹底解説
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PPTX
ResNetの仕組み
PDF
最適輸送の計算アルゴリズムの研究動向
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PDF
【メタサーベイ】Video Transformer
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
CVPR2018のPointCloudのCNN論文とSPLATNet
PDF
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PDF
PRML学習者から入る深層生成モデル入門
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
時系列問題に対するCNNの有用性検証
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Graph Neural Networks
Triplet Loss 徹底解説
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
ResNetの仕組み
最適輸送の計算アルゴリズムの研究動向
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
【メタサーベイ】Video Transformer
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
[DL輪読会]相互情報量最大化による表現学習
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
CVPR2018のPointCloudのCNN論文とSPLATNet
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PRML学習者から入る深層生成モデル入門
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
Ad

More from ybenjo (17)

PDF
Modeling intransitivity in matchup and comparison data (WSDM 2016)
PDF
Nonlinear latent factorization by embedding multiple user interests(Recsys 2013)
PDF
Personalized next-song recommendation in online karaokes(Recsys 2013)
PDF
Predicting Cancel Users in Offline Events
PDF
首都圏における帰宅困難者のモデリング 最終報告
PDF
首都圏における帰宅困難者のモデリング 中間報告
PDF
Topic Model Survey (wsdm2012)
PDF
Overcoming browser cookie churn with clustering in wsdm2012 reading
KEY
anohana
KEY
Preserving Personalized Pagerank in Subgraphs(ICML 2011)
PDF
AJACS HONGO8 (mining in DBCLS)
PDF
patent analysis(LDA) and spotfire
KEY
Query Suggestion @ tokyotextmining#2
KEY
useR!2010 matome
PDF
AJACS17
PDF
R's anti sparseness
PDF
とあるサイトの禁書目録(アクセスログ)
Modeling intransitivity in matchup and comparison data (WSDM 2016)
Nonlinear latent factorization by embedding multiple user interests(Recsys 2013)
Personalized next-song recommendation in online karaokes(Recsys 2013)
Predicting Cancel Users in Offline Events
首都圏における帰宅困難者のモデリング 最終報告
首都圏における帰宅困難者のモデリング 中間報告
Topic Model Survey (wsdm2012)
Overcoming browser cookie churn with clustering in wsdm2012 reading
anohana
Preserving Personalized Pagerank in Subgraphs(ICML 2011)
AJACS HONGO8 (mining in DBCLS)
patent analysis(LDA) and spotfire
Query Suggestion @ tokyotextmining#2
useR!2010 matome
AJACS17
R's anti sparseness
とあるサイトの禁書目録(アクセスログ)
Ad

Link prediction

Editor's Notes