WSDM2018Study

WSDM 2018読み会
Position Bias estimation for unbiased learning to rank in
personal search
2018/4/14 (⼟) 坪坂正志
m.tsubosaka@gmail.com

紹介する論⽂
• Position Bias estimation for unbiased learning to rank in
personal search
• 著者は全員Google
• Unbiased learning to rankというバイアスを考慮したランキング学習
の⽅法について扱っている
• 従来法で必要だった検索結果をランダマイズして出⼒するという⼯程
がいらなくなっている

⽬次
• 背景、関連研究
• Unbiased learning-to-rank
• Propensity estimation
• 実験

やりたいこと(前提)
• 与えられたクエリに対して、よりクエリと関連度の⾼い検索
結果の⽂章を上に持ってきたい
マッチしている
マッチしていない
マッチしている

関連しているかどうかの判定
• Explicit relevance judgements
• ⼈間の専⾨家がクエリと⽂章について合っているかどうかを判定する
• Learning to rankの研究でよく⽤いられるLETOR datasetなどはこの⽅
法でRelevanceが判定されている
• この⽅法でのラベル付けはコストが⾼い
• Implicit relevance judgements
• 検索エンジンのクリックログからクエリに対してクリックされた⽂章
を関連しているとみなす
• ラベル数を集めるのはトラフィックが多ければ⼤量にあつまる
• ただこの⽅法での学習は表⽰順序にbiasされることが知られている

表⽰順序によるバイアス
クリックされた
クリックされない
クリックされない
ユーザは検索結果の上の⽅にある⽂章をよ
りクリックしやすいことが知られている
左の例では2番⽬の⽂章がクリックされない
のと3番⽬の⽂章がクリックされないでは、
前者はクエリと関連がなかったからクリッ
クされなかったが後者は表⽰順序が低いた
めクリックされなかったと意味が違ってく
る
このため単純にクリックデータを正解とし
て、機械学習を⾏うと現状の検索エンジン
の結果にひきずられるという現象が発⽣す
る

Click modeling
• ユーザが⽂章をクリックするモデルを考え、⽂章の表⽰位置の
影響を除いた⽂章とクエリの関係性を推定する
• 多くの場合以下の仮定を⾏う
• ⽂章がユーザによって検討(Examine)される and ⽂章がクエリと関係
する => ユーザが⽂章をクリックする
• すなわち 𝑃(𝐶 = 1) = 𝑃 𝐸 = 1 𝑃(𝑅 = 1)
• 推定した𝑃(𝑅 = 1) の部分を学習器に⼊れる
• クリックモデリングの⽅法としてはCascade model, UBM, DBN, CCM
などが提案されている

Unbiased Learning to rank
• Click modelingではバイアスを除いたクエリと⽂章の関連度を
推定している、クエリに対する⽂章のランキングの学習はその
後の処理で⾏う
• ⼀⽅近年出てきたUnbiased learning-to-rankという枠組みでは
バイアスがあるデータからランキング学習まで⾏うということ
を⾏っている
• 去年(2017年)のWSDMのBest paper : Unbiased learning-to-rank with
biased feedback

本論⽂について
• 先⾏研究同様にUnbiased learning to rankを扱う
• 先⾏研究ではP(E=1|k) (k番⽬に⽂章を表⽰した時にユーザに
⾒られる確率)の推定にライブテストを利⽤する必要があった
• 具体的には1番⽬の⽂章と2番⽬の⽂章を⼊れ替えた結果をA/Bテスト
して⼆つの差を⾒る
• この場合ランダムな結果を出す必要があり、ユーザ体験を悪く
する
• 本論⽂ではEMアルゴリズムを利⽤して、ランダムな結果を出
さずにunbiased learning to rankを⾏う⽅法を提案した

表記・仮定
• 𝑂* : クエリのi番⽬の⽂章の関連度が明らかになっているかどう
か, 0/1の値をとる
• 𝑟* : i番⽬の⽂章が関連しているかどうか, 0/1の値をとる
• 𝑐* : i番⽬の⽂章がクリックされたかどうか
• 𝑐* = 1 ⟷ 𝑟* = 1 𝑎𝑛𝑑 𝑜* = 1

Document level propensity
• システムのパフォーマンスの尺度として、関連する⽂章のRank
を考える
• 𝑅𝑎𝑛𝑘 = ∑ 𝑟* 𝑖*
• この値を最⼩化する
• 𝑟* はすべて観測されていないため、観測されているところに関
してだけを使いバイアスを補正した
• 𝑅𝐴𝑁𝐾 = ∑
:; *
< =;>?@;>?,:;>? = ∑ 𝑤* C 𝑖@;>?,:;>?
• を指標とする. 上の指標は観測されかつ関連してるので=>クリックさ
れた⽂章の表⽰順位のみで表される
• ここで𝑤* =
?
< =;>?
をIPW推定量という

𝑅𝐴𝑁𝐾のunbiased性の証明
𝐸[𝑅𝐴𝑁𝐾] = 𝐸@[ F
𝑖 C 𝑟*
𝑃 𝑂* = 1
@;>?
]
= F 𝐸=;
[
𝑖 C 𝑜* 𝑟*
𝑃 𝑂* = 1
]
*
= F 𝑖 C 𝑟*
*
= 𝑅𝐴𝑁𝐾

Unbiased learning algorithms
• 𝑅𝐴𝑁𝐾の最適化はSVMRankのようなペアワイズなアルゴリズム
で最適化できる。具体的には学習されたランク関数のi番⽬の⽂
章に対するスコアを𝑠*とすると𝑅𝐴𝑁𝐾の⽬的関数は下のように
なる

ようするに
• 4番⽬に表⽰された⽂章が、observeされる確率が1/4であれば、
4番⽬に表⽰された⽂章がクリックされた場合、その(クエリ,⽂
章)に関する重みを4倍にして学習をする必要がある

Position bias model
• 観測されたクリックのモデルとして以下のようなモデルを考え
る
• 𝑃 𝐶 = 1 𝑞, 𝑑, 𝑘 = 𝑃 𝐸 = 1 𝑘 𝑃(𝑅 = 1|𝑞, 𝑑)
• 𝜃K = 𝑃 𝐸 = 1 𝑘 は⽂章が⾒られる確率で、⽂章の表⽰位置のみによる
値
• 𝛾M,N = 𝑃 𝑅 = 1 𝑞, 𝑑 はクエリと⽂章の関連性のみによる値
• 上のモデルにおいてはEとOは等価となる

Result randomization
• 𝜃K = 𝑃 𝐸 = 1 𝑘 を推定する⽅法として、実際のトラフィック
で出⼒結果をランダムに配信して送る⽅法が考えられる
• Randomize TopN
• 出⼒の並びをすべてランダムに配信
• 𝜃Kはk番⽬に表⽰した⽂章のクリック率から推定可能
• Randomize Pair
•
OP
OPQR
をk番⽬の出⼒とk-1番⽬の出⼒を⼊れ替えることによって推定
•
OP
OR
=
OS
OR
OT
OS
⋯
OP
OPQR
• と𝜃?との⽐率を推定する

Result randomizationによる推定結果

Result randomizationの影響
• Result randomizationはpropensityをbiasなしで計測する⽅法
としては優れているが、実際にliveのトラフィックで結果をラ
ンダマイズして流すとユーザ体験を⼤きく損なう

EMアルゴリズムによる推定
• 本論⽂ではResult randomizationなしにポジションバイアスを推
定する⽅法について提案する
• ⽅法としてはEMアルゴリズムを⽤いる
• 与えられたデータセット𝐿 = { 𝑐, 𝑞, 𝑑, 𝑘 }に対して、尤度を最⼤化
するようなパラメータを学習する

EMアルゴリズムによる推定
• クリックログとパラメータが
与えられた元での潜在変数E,R
の分布を推定する
• 潜在変数E,Rの分布からパラ
メータを最尤推定する

Regression-based EM
• 𝛾M,N = 𝑃 𝑅 = 1 𝑞, 𝑑 の推定については新規⽂章に対応できない
ことや設定としてパーソナライズ検索を考えているため(クエリ,
⽂章)に対して⼗分な数のクリックが集まらないといった問題が
ある
• 𝛾M,N = 𝑓(𝑥M,N)とクエリと⽂章の関連度を特徴量ベクトルを使っ
て表す

Regression-based EM
通常のランク学習と⼤きく異なる点とし
ては6⾏⽬の部分でクリックされていな
いデータについてもP(R=1|c=0, q, d,k)
に従って、rをサンプリングするためク
リックされていないデータも正解の学習
データとして扱われるところ

Embedded
• EM以外の⽅法としては特徴ベクトルに⽂章の表⽰順位を⼊れ
て学習を⾏うというものがある
• また学習器としてGBDTを⽤いるが他の特徴量との⼲渉を防ぐ
ため、1番⽬の分岐のところに表⽰順位を持ってくる

データセット
• メールおよびストレージサービスの検索ログを利⽤
• 各クエリについてはたかだか1回のクリックしかないものとする
• 理由として検索結果がoverlayで出てクリックされると消えるため
• 4⽉の2週間の期間を抜き出して、1週間を訓練データ、残りの
1週間をテストデータとする
• 1週間で4M程度のクエリが存在する

評価について
• MRR (mean reciprocal rank)を評価指標として利⽤する
• MRR =
?
[
∑
?
:]K;
[
*>?
• ここで𝑟𝑎𝑛𝑘*は𝑖番⽬のクエリ中においてランキングアルゴリズムの出
⼒の何番⽬の⽂章がクリックされたかを表す
• MRR =
?
∑ ^;
_
;`R
∑ 𝑤*
?
:]K;
[
*>?
• 他同様にMRRもクリックだけを⽤いるとバイアスが⼊るため補正する

Estimated relevance
• EMアルゴリズムのほうがEmbeddedよりも性能がよかった
• 値はベースラインからの相対の差となっている
• ベースラインはポジションバイアスを考慮しない、pointwiseなGBDT
モデル

Estimated position bias
• 下の図は1位を1としてpositionによるバイアスをプロットした
もの
• RandPairがGround truthとなっている
• Empiricalは各順位ごとのCTRを出したもの (通常関連性の低い⽂章が
下にくるため、下位のポジションバイアスが過⼤評価される)

Ranking improvement
• 他同様にバイアスを補正した指標Prec
を⽤いてlambdaMARTで学習を⾏った
• バイアスの補正をしないNocorrection
に⽐べEMCorrectedは出⼒の
randomizationを⾏うRandPair同等の
性能をrandomizationなしに達成して
いる
• EMCorrectedではEMで求めた𝜃Kのみを⽤
いてpairwisedなranking学習を⾏う

Unbiased pointwise learning
• EMを利⽤してPointwiseで学習する⽅法はベースラインよりも性
能は⾼いがペアワイズの学習にはおよばない

Future work
• Pairwise algorithmを前提としているがunbiased なPointwise
algorithmへの拡張
• Binary relevanceを前提としてるが多段階評価の場合への拡張
• より洗練されたクリックモデルへの拡張

WSDM2018Study

More Related Content

What's hot (20)

More from 正志坪坂 (20)

WSDM2018Study

WSDM2018Study

More Related Content

What's hot (20)

More from 正志 坪坂 (20)

WSDM2018Study

More from 正志坪坂 (20)