SlideShare a Scribd company logo
RankCompete:
Simultaneous ranking and clustering
of information networks
[Neurocomputing (2012)]
Liangliang Caod, Xin Jinb, Zhijun Yinb , AndreyDel Pozoa,
Jiebo Luoc, Jiawei Hanb, Thomas S.Huangaa
aBeckman Institute and Coordinated Science Laboratory, University of Illinois at Urbana-Champaign, USA
bDepartment of Computer Science, University of Illinois at Urbana-Champaign, USA
cKodak Research Laboratories, Rochester, USA
dIBM T. J. Watson Research Center, USA
筑波大学 大学院 システム情報工学研究科
北川・天笠 データ工学研究室
山崎 耕太郎
1
Paper Introduction
目次
• 背景
• 提案手法
• 実験
- 書誌ネットワークに対する実験
- 視覚情報ネットワークに対する実験
• 結論
2
グラフ
3
ノード(頂点)とエッジ(辺)で構成される代表的なデータ構造の一つ
例 ) 学会-著者ネットワーク
著者学会 論文を
出版したor された 共著関係
クラスタリングとランキング
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
ICDT
EDBT
ECDL
TREC
学会 著者
VLDBI
PODSI
SIGIR
ECIR JCDL
SIGMOD
ICDT
EDBT
ECDL TREC
SIGMOD
VLDBI
EDBT
SIGIR
PODSI
TREC
ECIR
ICDT
JCDL
ECDL
1
2
3
4
5
6
7
8
9
10
ランキング
クラスタリング
4
5
𝑇 =
1
2
1
4
0
1
2
1
2
1
2
0
1
4
1
2
, 𝑝 =
1
2
,
1
2
, 0
𝑇
𝑝 = 1,0,0 𝑇
𝟏
𝟐
𝟏
𝟐
①
②
③
ページの重要性をランダムウォーカー𝒑によって反復的に更新
関連研究:PageRank
T … 遷移行列
ページの重要性をランダムウォーカー𝒑によって反復的に更新
関連研究:PageRank
6
𝑇 =
1
2
1
4
0
1
2
1
2
1
2
0
1
4
1
2
,
𝑝 =
3
8
,
1
2
,
1
8
𝑇
𝟏
𝟒
𝟏
𝟒
𝟏
𝟐
𝟏
𝟐
𝟏
𝟐
𝑝 =
1
2
,
1
2
, 0
𝑇
𝑝 = 1,0,0 𝑇
①
②
③
T … 遷移行列
関連研究: RankClus [Sun et al., EDBT’09]
7
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD VLDBI
SIGMOD
SIGIR PODS
ECIR
JCDL
クラスタ数 2
クラスタリング
ランキング
学会
1 SIGMOD
2 VLDB
3 SIGIR
学会
1 ECIR
2 JCDL
3 PODS
学会
1 SIGMOD
2 VLDB
3 PODS
学会
1 SIGIR
2 JCDL
3 ECIR
収束ランキング関数
VLDBI
SIGMOD
PODS
ECIR
JCDL
SIGIR
• 目的
- グラフに対してランキングとクラスタリングを同時に行う
• アプローチ
- K個の初期クラスタを与え、クラスタに対する各K次元のランキング
を行う。そして新たな特徴ベクトルを作りクラスタリングを行う。
提案手法: RankCompete
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
• 目的
- グラフに対してランキングとクラスタリングを同時に行う
• アプローチ
- グラフ内で複数のランダムウォーカーを用いてランキング、
クラスタリングに利用する
提案手法: Rankcompete
9
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
VLDBI
PODSI
SIGIR
ECIR
JCDL
SIGMOD
• 目的
- グラフに対してランキングとクラスタリングを同時に行う
• アプローチ
- グラフ内で複数のランダムウォーカーを用いてランキング、
クラスタリングに利用する
目次
• 背景
• 提案手法
• 実験
- 書誌ネットワークに対する実験
- 視覚情報ネットワークに対する実験
• 結論
10
問題設定: Information Network
Subject Type Attribute Type
学会-著者ネットワーク 学会 著者、論文タイトル、キーワード
視覚情報ネットワーク 画像 ローカルパッチ、タグ、メタデータ
Subject TypeとAttribute Typeのノードを持つグラフ
 Subject typeノードに対してランキング、クラスタリングを行う
例)
11
問題設定: ランダムウォークスコア
• ランダムウォークスコア: 𝒑 𝒌 𝒖
 K番目のランダムウォーカーがノードuに遷移する確率。
 ただし 𝒖=𝟏
𝑵
𝒑 𝒌 𝒖 = 𝟏
• スコア更新式
• ただし𝐓(𝐮, 𝐯) =
𝐒 𝐮,𝐯
𝒗′ 𝑺(𝒖,𝒗′)
12
𝑇 =
1
2
1
4
0
1
2
1
2
1
3
0
1
4
2
3
𝑝1 = 1,0,0 𝑇
𝑝2 = 0,0,1 𝑇
𝑝1 =
1
2
,
1
2
, 0
𝑇
𝑝2 = 0,
1
3
,
2
3
𝑇
Compet
e
𝟏
𝟐
𝟏
𝟐
𝟐
𝟑
𝟏
𝟑
問題設定: Competing
ランダムウォークスコア: {𝒑 𝒌} 𝟏 ≤ 𝒌 ≤ 𝑲 について
以下の制約を満たす
13
𝑝1 = 1,0,0 𝑇
𝑝2 = 0,0,1 𝑇
𝑝1 =
1
2
,
1
2
, 0
𝑇
𝑝2 = 0,
1
3
,
2
3
𝑇
Compet
e
𝟏
𝟐
𝟏
𝟐
𝟐
𝟑
𝟏
𝟑
𝒑 𝒌 𝒖 = 𝟎 𝒊𝒇 𝒌 ≠ 𝒂𝒓𝒈 𝒎𝒂𝒙 𝒌 𝒑 𝒌(𝒖)
𝟏
𝟐
𝟏
𝟐
𝟐
𝟑
0 𝑝1 =
1
2
,
1
2
, 0
𝑇
𝑝2 = 0, 𝟎,
2
3
𝑇
• 目的
- グラフに対してランキングとクラスタリングを同時に行う
• アプローチ
- グラフ内で複数のランダムウォーカーを用いてランキング、
クラスタリングに利用する
RankCompete
14
提案手法: 概要
Competing step
収束判定
初期化
Walking step
初期ノードの選択
ランダムウォーク
競合の処理
反復 or 収束
15
入力と出力
Competing step
収束判定
OUTPUT:
初期化
Walking step
INPUT: クラスタ数K
𝒑 ∈ ℝ 𝑵∗𝑲 ,
ランダムウォークスコアとクラスタインデックス 16
初期化
• K個のsubject nodesの選択
ランダムウォーカーの出発点
初期スコアは1とする
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
17
Walking Step
スコアベクトル 𝒑 𝒌 の更新
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
18
Competing Step
• 競合の処理
• 正規化
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
19
収束判定
Pの収束
or
反復回数が事前設定数を超える
Competing step
収束判定
OUTPUT
初期化
Walking step
INPUT
20
目次
• 背景
• 提案手法
• 実験
- 書誌ネットワークに対する実験
- 視覚情報ネットワークに対する実験
• 結論
21
書誌ネットワークに対する実験
• データセット
- 書誌データ: DBLP, Cora
• 比較手法
- Normalized cut(NC)
- NetPLSA
- RankClus
- iTopicModel
• クラスタリング評価指標
- NMI( Normalized Mutual Information)
22
書誌データ
• データセット
- DBLP
- Cora
Type Subject Attribute
ノード 学会 著者
ノード数 20 28,702
備考 4つの分野(DM,DB,ML,IR)に関連する学会 Subjectタイプのいずれかの学会に論
文を出した著者
Type Subject Attribute
ノード クラスラベル 論文とその引用リスト
ノード数 70 19,396
備考 論文間で引用関係があればエッジを張
る
23
精度
• Cora
• DBLP
24
階層型クラスタリング結果
25
対象データ:DBLPデータセット
ランキング結果
• 対象データ
- DBLPデータ
• 比較手法
- PageRank
26
視覚情報ネットワークに対する実験
• データセット
- Kodak consumer データセット
17のフォトコレクションと1,394のフォト
• 比較手法
- Normalized Cut (NC)
- Spectral clustering (SC)
• 評価指標
- NMI
Ground truthはフォトを撮った人が設定
27
クラスタリング精度
28
• 対象データセット
• Kodak consumer データセット
• 比較手法
• Normalized cut
• Spectral clustering
実験結果
29
代表画像クラスタ
目次
• 背景
• 提案手法
• 実験
- 書誌ネットワークに対する実験
- 視覚情報ネットワークに対する実験
• 結論
30
結論
• RankCompete
- 情報ネットワークに対して複数のランダムウォー
カーを用いることでランキングとクラスタリングを
同時に行うことを実現した。
• 実験結果
- 書誌ネットワーク、視覚情報ネットワークに対して
実験を行い有効であることを確認した
• 今後の課題
- より大きなネットワークに対する適用を可能にする
31

More Related Content

PDF
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
PDF
[第2版] Python機械学習プログラミング 第4章
PDF
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
PDF
[第2版] Python機械学習プログラミング 第5章
PDF
SVM実践ガイド (A Practical Guide to Support Vector Classification)
PPTX
Pythonとdeep learningで手書き文字認識
PPTX
Olearning-prml1
PDF
協調フィルタリングを利用した推薦システム構築
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
[第2版] Python機械学習プログラミング 第4章
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
[第2版] Python機械学習プログラミング 第5章
SVM実践ガイド (A Practical Guide to Support Vector Classification)
Pythonとdeep learningで手書き文字認識
Olearning-prml1
協調フィルタリングを利用した推薦システム構築

What's hot (15)

PDF
データ解析12 k平均法
PPTX
Statistical machine learning forecasting methods concerns and ways forward
PPTX
20190725 taguchi decision_tree_for_pubshare
PPTX
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
PDF
データ解析1 ベクトルの復習
PDF
人工知能10 サポートベクトルマシン
PDF
Automated ML (Azure) で始める機械学習の民主化
PDF
normalized online learning
PDF
Active Learning 入門
PDF
Pythonによる機械学習
PPTX
A3C解説
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
NL20161222invited
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
PDF
Pythonによる機械学習入門 ~Deep Learningに挑戦~
データ解析12 k平均法
Statistical machine learning forecasting methods concerns and ways forward
20190725 taguchi decision_tree_for_pubshare
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
データ解析1 ベクトルの復習
人工知能10 サポートベクトルマシン
Automated ML (Azure) で始める機械学習の民主化
normalized online learning
Active Learning 入門
Pythonによる機械学習
A3C解説
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
NL20161222invited
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Ad

Similar to Paper Introduction "RankCompete: Simultaneous ranking and clustering of information networks" (20)

PDF
Top-K Off-Policy Correction for a REINFORCE Recommender System
PDF
Deep learning実装の基礎と実践
PDF
グラフデータベースにおけるWorst-case optimal joinの最適化_DEIM2024.pdf
PDF
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
PDF
第64回情報科学談話会(滝沢 寛之 准教授)
PPTX
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
PPTX
Road damge ai
PDF
コンピューターの整列処理におけるデータ操作の時間的共起分析
PDF
SIGIR2012勉強会 23 Learning to Rank
PDF
能動学習による多関係データセットの構築
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PDF
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
PPTX
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
PDF
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
PPTX
Long-Tailed Classificationの最新動向について
PDF
各言語の k-means 比較
PDF
プロパティグラフに対するDISTINCT句を含む問合せ処理の高速化_IPSJ2024.pdf
PDF
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
PDF
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
PDF
Jubatusにおける大規模分散オンライン機械学習
Top-K Off-Policy Correction for a REINFORCE Recommender System
Deep learning実装の基礎と実践
グラフデータベースにおけるWorst-case optimal joinの最適化_DEIM2024.pdf
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
第64回情報科学談話会(滝沢 寛之 准教授)
検索評価ツールキットNTCIREVALを用いた様々な情報アクセス技術の評価方法
Road damge ai
コンピューターの整列処理におけるデータ操作の時間的共起分析
SIGIR2012勉強会 23 Learning to Rank
能動学習による多関係データセットの構築
[DL輪読会]GQNと関連研究,世界モデルとの関係について
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Long-Tailed Classificationの最新動向について
各言語の k-means 比較
プロパティグラフに対するDISTINCT句を含む問合せ処理の高速化_IPSJ2024.pdf
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
Jubatusにおける大規模分散オンライン機械学習
Ad

Recently uploaded (10)

PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
細胞培養用バイオリアクターおよび発酵槽市場規模の成長見通し:2031年には2823百万米ドルに到達へ
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介

Paper Introduction "RankCompete: Simultaneous ranking and clustering of information networks"

Editor's Notes

  • #2: WWW10にポスター発表されたもの 2012にジャーナル
  • #4: グラフ構造として表されます。
  • #5: rankingu 例わるい
  • #8: このような問題を解決する手法に RankClusがあります RankCLusグラフデータに対してランキング、クラスタチングを組み合わせた手法です 実際に先程のネットワークに対しRankClusを適用する例を考えます。 このようにグラフで表現される時、クラスタリング、ランキングを繰り返し処理を行います。 例えばこの図のクラスタのようにDB学会の中にIR学会が混ざっているクラスタがあった時、ランキング結果はクラスタの分野でない学会に対しては低くなってしまいます。 RankClusではこのランキング結果を用いよりノードが正しいクラスタに高いランク値を持つ良いクラスタになるように学会を再びクラスタリングし、そしてそのクラスタリング結果を基によりよいランキングを導出します。 クラスタが収束するまでこの反復処理を行い、結果としてRankClusはノード自動的に正しいクラスタで適切なランキングを得られます。 === どれくらいクリアに説明できるか おかしな問題、つながりがカタコト なにを最適化してえいるかわからない。 どうやってランキング計算してる ランククラスの有用性 目的ゴールを明示的に
  • #12: パッチ対象画像を部分的に切り出したもののこと。
  • #13: 図必須 突っ込まれそう
  • #14: 図必須 突っ込まれそう
  • #15: 複数のランダム・ウォーカーだけでクラスタリングとランキング 遷移確率?が なんでうまい具合でランキングクラスタリングが実現できるか。
  • #19: 数うめる
  • #21: Tが重要 インダイレクトな確率行列
  • #28: Kodak Dataset http://www.ifp.illinois.edu/~cao4/papers/MM08_propagation.pdf shift特徴量