SlideShare a Scribd company logo
SIGIR2013
Retrieval Models and Ranking I
@uchumik(Denso IT Lab)
title list
 H. Wang et al. Personalized ranking model
adaptation for web search
 F. Raiber et al. Ranking document clusters
using markov random fields
 J. H. Paik, A novel TF-IDF weighting
scheme for effective ranking
 S. Kamali et al. Retrieving Documents with
mathematical content
title list
 H. Wang et al. Personalized ranking model
adaptation for web search
 F. Raiber et al. Ranking document clusters
using markov random fields
 J. H. Paik, A novel TF-IDF weighting
scheme for effective ranking
 S. Kamali et al. Retrieving Documents with
mathematical content
やたら複雑なTF-IDFやMathMLとか出てきて正直面白くなさそ
う..
Personalized Ranking Model
Adaptation for Web Search
 概要
従来のパーソナライズ手法は各ユーザごとにリッチな履歴を必要としていて,
ユーザの興味の変化に対応できなかった.また,クエリとURLの間の関係を直
接学習するためにカバー率が低い,多くの手法がPRFベースのためにそもそも
1段目の検索で上位に来ない物はリランキング結果に出てこない等という問題
があった.そこで著者らはグローバルランキングモデルをパーソナライズする
手法を提案.加えて,ユーザの興味の変化の早さに追随するために適応効率に
ついても考慮している.
提案手法では,グローバルランキングモデルのパラメータに線形変換を掛ける
ことでパーソナライズモデルを作る.ユーザごとに変換行列を密で持つのは上
長なため,各素性ごとにスケーリングとバイアスの2つの項だけを持つような
行列とすることで空間オーダーを下げている.また,パーソナライズのデータ
が尐ない場合に観測できる素性が疎になってしまい,パラメータが適切に更新
できなくなる問題を,素性をグルーピングしてしまい,観測できた素性につい
ての更新を観測できなかった素性の重みにも伝搬させるという方法で対処して
いる.注目すべきはグローバルランキングモデルのパラメータとパーソナライ
ズランキングモデルの構造が同じ(両方共線形モデル)であるならば,ランキ
ングの学習アルゴリズムが異なっていても良く,グローバルモデルの再学習の
必要はない作りとなっている.
従来手法の問題点
1. Personalizationにリッチな履歴が必要
 ユーザの好みやその変化への適用が遅い
2. メモリベースの場合にはカバー率が低い
 Query-URLの間の関係を直接学習するため
3. PRFの場合はランキングに影響を与える余地が尐ない
 1段目の検索結果の上位のみをリランキングするため
グローバルランキングモデルに線形変換を掛けることでパーソナライズ
提案
従来 vs 提案
リッチな情報が必要 素性のグルーピングによって
スパースネスの問題に対処
効率的なadaptation
カバー率の問題
(メモリベース,PRF)
グローバルランキングモデル
を線形変換でパーソナライズ
することで対処
提案手法のフレームワーク
パーソナライズドランキング関数
グローバルランキングモデルに
バイアス項のための項を追加
線形変換で
各ユーザに
パーソナライズ
document の素性ベクトル
は密で持つと冗長.
素性の各要素に対するスケーリングとバイアスのみ持つ
ユーザの好みの変化の早さに対処するには尐量のデータで
adaptationができなければいけない
尐量データでは疎な素性に対する重みが適切に更新できない
素性をグルーピングして,観測可能な素性の重みの更新を
観測できなかった素性の重みに伝搬させる
パラメータ推定
 目的関数
: ユーザのクエリセット
: 正則化項
:ランキング学習のアルゴリズムに合わせて選ぶ目的関数
Cross-entropi in RankNet
Hinge loss in RankSVM
 RankNet の目的関数を変更
 として目的関数を書換える
 を正則化項に追加
 LambdaRank の目的関数を変更
 RankNetの導関数に評価尺度のゲインを追加するのみ
 RankSVM の目的関数を変更
 正則化項を に変更
 に変更
 その他
 目的関数が線形モデルであれば w を書換えるのみ
利点
 グローバルランキングモデルが線形モデルで
あるならば,再学習せずにパーソナライズが
できる
 グローバルランキングモデルとアダプテー
ションモデルでアルゴリズムが違っていても
良い
Feature Grouping
 Name
 素性の名前でまとめあげるパターンを人手で用意し
てグルーピング
 SVD
 特異値分解で低次元に圧縮した後にk-meansでクラ
スタリング
 Cross
 学習データをN分割して各データごとにモデルを学
習.モデルパラメータをまとめたV×N行列を作り,
k-means クラスタリング
評価
 データセット
 bing.com の検索ログ(2012/5/27-2012/5/31)
 ユーザはランダムにサンプル
 ユーザID, query, timestamp, top10 document lists, clicks
 queryをtimestampでソート
 document listsも検索エンジンが返した元の順番に戻している
 ユーザ非依存のアノテーション済みデータ
 5段階のrelevance scoreが付けられている
 1,830 ranking features
 BM25, LM score, PageRank 等のよく使われる素性も含む
Analysis of feature grouping
 Kの値は一番良い値の周
りではそんなにMAPに
影響しない
 MAPはCrossが最も高い
 ドキュメントのラン
キングに類似した影
響を与えてる素性を
グルーピングしてい
るため
Analysis of feature grouping
 Kに対するパラメータ
の平均更新回数
 Kが小さいと関連の薄
い素性も一緒に更新さ
せてしまい,パフォー
マンスが悪化する
Adaptation performance
ベースライン
Adaptation performance
ベースライン素性が観測できない場合の更新はやはり問題(
Tar-*)
Global Model で back-off する(RA)よりも,観
測できた素性の更新を伝搬させる方が良い.
Adaptation performance
Global model のみだとパーソナライズできない(Source-Only)
ユーザデータと統合した手法ではMAPが10ポイント以上UP
ベースライン(IW-*, Trans*,CL*)のために全ユーザの適用データを
収集したため,sparsityの問題は無いが,各ユーザの好みが収集
した他のユーザのclicksで打ち消されてしまった(そもそもこれらは
ドメインアダプテーションを対象に作られている).
提案手法は各ユーザごとにパーソナライズできている.
Adaptation performance
クエリは繰り返し入力される現象があるので,テストセットを
リピートされるクエリとそれ以外とで分けてテスト.
Repeated ではグローバルモデルからの改善はどちらも
無かったが,Non-repeated では Cross だけ改善が見られた.
RA はメモリベースなので観測が無いと素性を適切に更新できないが,
Cross は観測が無くても素性のグルーピングで更新を伝搬させるため
Non-repeated なクエリに強い.
Adaptation performance
 どのタイプのクエリに効果があるのか
 主にナビゲーショナルクエリに対して効果が見
られた
 global model の44.9%のナビゲーショナルク
エリでMAPが向上
 MAPが下がったのは10.2%のみだった
 “HowTo,”, “Health”, “Q&A”はランキングが悪
化した
 これらのインフォメーショナルクエリは調査目的
 クリックがばらけている
 ユーザが明確な答えを持っていない
Adaptation performance
 どんなユーザに対して提案手法は効果的か
 Heavy(10↑adaptation query), medium(5-10
ap), light(5↓ap)
Adaptation performance
 global model からのMAPの
上昇をプロット
 1,2クエリで15%以上の向上
 Cross-LambaRankは3クエ
リで25%アップ
 RAは10クエリで23%アップ
 素性のグルーピングでデータ
のsparsityに対処しているの
が効いている
Adaptation performance
 オンライン学習での比較
 バッチ学習だとデータ集計が
必要で実用的ではない
 Tarはベースラインからの向
上が無い
 観測できない素性をアップデート
できない
 RAもグローバルモデルから
の向上のカーブが鈍い
 1つ前のiterationのモデルが
正則化項として入っているた
め
 提案手法はオンライン学習で
も効果的
Conclusions
 パーソナライズのためのgeneral ranking model
adaptation frameworkを提案
 全体のランキングモデルの線形変換でパーソナライズ
モデルを作る
 適応効率だけではなく,性能でも従来手法を上回った
 future work
 feature grouping と線形変換を同時に推定
 線形変換にユーザの興味をより反映させるuser-specific
な素性を追加する
title list
 H. Wang et al. Personalized ranking model
adaptation for web search
 F. Raiber et al. Ranking document clusters
using markov random fields
 J. H. Paik, A novel TF-IDF weighting
scheme for effective ranking
 S. Kamali et al. Retrieving Documents with
mathematical content
Ranking Document Clusters
Using Markov Random Fields
 概要
クラスタランキングはクエリとクラスタを比較
する.いくつかの手法はクラスタ間やクラスタ
とドキュメントの類似度等の情報を追加してい
るが,様々なクラスタとクエリの関係を表す情
報を効率的に統合可能にする抜本的なフレーム
ワークはまだない.そこでMRFを用いて様々な
情報を取り込むことが可能なクラスタランキン
グ手法を提案している.
Dinit
初期のランキング
d1
d2
d3
.
.
.
クラスタリング
c1 c2 c3
Retrieval Framework
Cl(Dinit)
c1
c3
c2
ランキン
グ
ドキュメントの重複あり
クラスタとクエリの
類似度でランキング
ドキュメント
ランキング
d2
d1
d3
d4
クラスタ間のドキュ
メントの重複を削除
ランキン
グ
Dinit
初期のランキング
d1
d2
d3
.
.
.
クラスタリング
c1 c2 c3
Retrieval Framework
Cl(Dinit)
c1
c3
c2
ドキュメントの重複あり
クラスタとクエリの
類似度でランキング
(研究対象)
ドキュメント
ランキング
d2
d1
d3
d4
クラスタ間のドキュ
メントの重複を削除
MRF によるクラスタランキング
 クエリに対するクラスタの関連度
 をMRFでモデル化
 分配関数Zの計算はランキング時には不要
クリーク集合L(G)に含まれる
クリークlに対する素性関数
MRFの利点
 ポテンシャルの計算の素性設計が自由になる
1. グラフGの構造(クリークの集合L(G))
2. クリークの素性関数
クラスタ内のドキュメント
とクエリの類似度を見る
ドキュメントとクエリの類
似度の間の関係
類似度の最小値,最大値,
標準偏差
クエリ非依存の素性
クラスタの重要度等を見る
PageRank, ストップワー
ド比等
評価
 Dinit はMRF with SDM,DocMRF,LMの3パターンで評価
 SDM の free parameter
 既存研究にある値を使用
 train data を使った交差検定で決定
 DocMRF: クエリ比依存のドキュメント素性を加えたSDM
 LM: Unigram language model
 クラスタリングにはNNを使用
 各クラスタはk個のドキュメントを持つ(k={5,10,20}からCVで決定)
 提案手法(ClustMRF)の free parameter もCVで学習
 評価データ
ランキングの評価
init: MRF’s SDM
TunedMRF: MRF’s SDM
のパラメータをCVで決定
ClustMRF: パラメータはCVで決定
素性の分析
SVMrankで学習した
時のパラメータの重み
を使って寄与の大きい
物を取り出し,各素性
のみでランキングした
場合を比較.
他のcluster-based methods との比較
 Inter はクエリとドキュメントの類似度とクエリとクラスの類似度の線
形補完(State-of-the-art)
Dinit のアルゴリズムの比較
 省略
 DocMRFを使ってもLMを使ってもClustMRFが
良い結果
クラスタリング手法の比較
 階層凝集型クラスタリング(HAC)とNNを比較
Dinitの数を変化させて評価
Diversifying search で評価
 MRF, ClustMRF, Qclustの出力したランキン
グをDiversification methodsの入力として使
用
CONCLUSIONS
 新しいcluster ranking手法を提案
 MRFを使うことで様々なタイプの情報を扱える
 様々な実験で提案手法のパフォーマンスを評価
 diversification methods のパフォーマンス向
上にも使える

More Related Content

PPTX
Vanishing Component Analysisの試作(補足)
PDF
Windows Store アプリをuniversal にして申請する手順
PPT
Information extraction 1
PDF
Stochastic Process Overview (hypothesis)
PPT
Notes on the low rank matrix approximation of kernel
PPTX
Windows HPC Server 講習会 第1回 導入編 1/2
PPTX
Windows HPC Server 講習会 第2回 開発編
PDF
Hpc server講習会第3回応用編
Vanishing Component Analysisの試作(補足)
Windows Store アプリをuniversal にして申請する手順
Information extraction 1
Stochastic Process Overview (hypothesis)
Notes on the low rank matrix approximation of kernel
Windows HPC Server 講習会 第1回 導入編 1/2
Windows HPC Server 講習会 第2回 開発編
Hpc server講習会第3回応用編

Viewers also liked (18)

PDF
On the eigenstructure of dft matrices(in japanese only)
PDF
Variational Kalman Filter
PDF
マーク付き点過程
PDF
Gitのすすめ
PDF
DSIRNLP06 Nested Pitman-Yor Language Model
PDF
Holonomic Gradient Descent
PPTX
KeyGraph Analysis on NIPS2013 Papers
PPTX
Vanishing Component Analysisの試作と簡単な実験
PDF
Swift 2 (& lldb) シンポジウム
PDF
Kernel entropy component analysis
PPTX
Pylm public
PDF
Dsirnlp#7
PPTX
Sparse Isotropic Hashing
PPTX
Gamglm
PPTX
Go-ICP: グローバル最適(Globally optimal) なICPの解説
PPTX
FLAT CAM: Replacing Lenses with Masks and Computationの解説
PDF
Deep Learning Chapter12
PDF
情報検索における評価指標の最新動向と新たな提案
On the eigenstructure of dft matrices(in japanese only)
Variational Kalman Filter
マーク付き点過程
Gitのすすめ
DSIRNLP06 Nested Pitman-Yor Language Model
Holonomic Gradient Descent
KeyGraph Analysis on NIPS2013 Papers
Vanishing Component Analysisの試作と簡単な実験
Swift 2 (& lldb) シンポジウム
Kernel entropy component analysis
Pylm public
Dsirnlp#7
Sparse Isotropic Hashing
Gamglm
Go-ICP: グローバル最適(Globally optimal) なICPの解説
FLAT CAM: Replacing Lenses with Masks and Computationの解説
Deep Learning Chapter12
情報検索における評価指標の最新動向と新たな提案
Ad

Similar to Sigir2013 retrieval models-and_ranking_i_pub (20)

PPTX
Coling読み会 2014
PDF
Panel Discussion@WebDB forum 2014
PDF
CAジャーナルクラブ Dremel: Interactive Analysis of Web-Scale Datasets
PDF
MapReduceによる大規模データを利用した機械学習
PDF
ソフトウェア開発活動のデータとアナリティクスの3原則
PDF
ディープラーニング最近の発展とビジネス応用への課題
PPTX
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
PDF
2004 icse-comparison of software product line architecture design methods cop...
PDF
Wandb Monthly Meetup August 2023.pdf
PDF
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
PPTX
機械学習 - MNIST の次のステップ
PDF
20110305_Code4Lib2011参加報告会:田辺浩介参加報告
PDF
Atc15_reading_networking_session
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PDF
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用
PDF
PDF
VLDB2011勉強会 Research Session 18: MapReduce and Hadoop
PDF
20150513 legobease
PDF
第11回rest勉強会 リファクタリング(クライアント編)
PDF
Optimization and simulation with DataRobot
Coling読み会 2014
Panel Discussion@WebDB forum 2014
CAジャーナルクラブ Dremel: Interactive Analysis of Web-Scale Datasets
MapReduceによる大規模データを利用した機械学習
ソフトウェア開発活動のデータとアナリティクスの3原則
ディープラーニング最近の発展とビジネス応用への課題
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
2004 icse-comparison of software product line architecture design methods cop...
Wandb Monthly Meetup August 2023.pdf
論文紹介 Identifying Implementation Bugs in Machine Learning based Image Classifi...
機械学習 - MNIST の次のステップ
20110305_Code4Lib2011参加報告会:田辺浩介参加報告
Atc15_reading_networking_session
[DL輪読会]Deep Face Recognition: A Survey
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用
VLDB2011勉強会 Research Session 18: MapReduce and Hadoop
20150513 legobease
第11回rest勉強会 リファクタリング(クライアント編)
Optimization and simulation with DataRobot
Ad

Sigir2013 retrieval models-and_ranking_i_pub