UCPhrase: Unsupervised Context-aware Quality Phrase Tagging
Fairness in Ranking under Uncertainty
A. Singh (Cornell Univ.), D. Kempe (USC), T. Joachims (Cornell Univ.)
2022-01-25
Reader: Tatsuya Shirakawa
LINE Developer Meetup: NeurIPS2021 論文読み会
2
Beatrustにおける、データの利活用にまつわるすべて。
人と組織のdynamicsを理解して、データ駆動の社会科学を実現したい。ついでに社会貢献したい。
Interview https://note.com/beatrust/n/ne63297b9c546
最近のお仕事
● ローンチ前の Tag Suggestion 機能を機械学習で作る
● 日本語辞書ありキーワード抽出器からの多言語辞書なしキーワード抽出器の Distillation
昔のお仕事
● 機は熟した!グラフ構造に対するDeep Learning、Graph Convolutionのご紹介
● 異空間への埋め込み!Poincare Embeddingsが拓く表現学習の新展開
● Retail Face Analysis Inside-Out
Beatrust Ex ABEJA Ex NTT Data 数理システム ML Data Science
NLP
Steve Reich J. S. Bach 犬飼いたい カジュアル面談お待ちしています
Data Scientist募集中
We are hiring! https://careers.beatrust.com/
s_tat1204
数理最適化
3
Ranking under Uncertainty
Movie a Movie b … Movie z
User 1
★★★☆
☆
★★★★
☆
User 2
★☆☆☆
☆
★★☆☆
☆
User N
★★☆☆
☆
★★★★
★
post. dist.
or merit
真の価値は、間接的な観測から事後分布
として推定される
estimation
of merit
0.31 0.22 0.42
optimal
ranking #3944 #284
#7502
真の価値の期待値
真の価値の期待値に基づくランキング(ソート)
…
対象の価値(merit, e.g. レーティング)は
間接的・不完全に観測される
…
4
Fairness in Ranking under Uncertainty
Movie a Movie b … Movie z
User 1
★★★☆
☆
★★★★
☆
User 2
★☆☆☆
☆
★★☆☆
☆
User N
★★☆☆
☆
★★★★
★
post. dist.
or merit
真の価値は、間接的な観測から事後分布として
推定される
対象の価値(merit, e.g. レーティング)は間接的・
不完全に観測される
fair
ranking
?
…
5
Fairness in Ranking under Uncertainty
Movie a Movie b … Movie z
User 1
★★★☆
☆
★★★★
☆
User 2
★☆☆☆
☆
★★☆☆
☆
User N
★★☆☆
☆
★★★★
★
post. dist.
or merit
fair
ranking
?
本論文では所与
(ここはドメインエキスパートが頑張る)
本論文で定義・解析
…
6
問題設定
Agent 1
Agent 2
Agent N
merit
post. dist.
utility 1.73
Meritの事後分布が与えられたもとでランキングポリシー(ランキングの分布)の
Fairnessを定義し、Fairなランキングポリシーとはどんなものか解析したい
Principal ランキングエンジン
(ランキング分布にしたがいランキングを生成)
Agent ランキング対象
Merit (Agentの)価値
Utility (ランキングの)効用
仮定: factability
ランキングσ、価値vの効用は価値のランクごとの重み
和の形式
utility
of
ranking σ
merit
of k-th agent
〜 post. dist.
non-increasingな重み
DCG: w_k = 1 / log_2(1 + k)
Average Reciprocal Rank: w_k = 1/k,
Precision@k = w_k = 1[1<=K] / K
所与
#13
0.56
#21
0.42
#4
0.75
#18
0.51
#34
0.27
#7
0.72
#20
0.44
#17
0.50
#2
0.92
…
2.48 1.97
Principal /
ランキングポリシー
π
…
7
ランキングポリシー π^*
Agent 1
Agent 2
Agent N
merit
post. dist.
つねに期待価値が大きい順にagentをソートしてかえすポリシー
所与
#13
#21
#4
#18
#34
#7
#20
#17
#2
…
Principal /
ランキングポリシー
π^*
est. merit
0.47
0.32
0.58
#18
#34
#7
ranking
Fact
π^*は期待効用 を最大化する
…
8
ランキングポリシーπ^TS
Agent 1
Agent 2
Agent N
merit
post. dist.
utility 1.73
所与
#13
0.56
#21
0.42
#4
0.75
#18
0.51
#34
0.27
#7
0.72
#20
0.44
#17
0.50
#2
0.92
…
2.48 1.97
Principal /
ランキングポリシー
π
Agentごとに価値をサンプリングし、それの値が大きい順にソートして返す(Thompson Sampling)ポリシー
価値は事後分布から
都度サンプリングされる
…
9
Fairなポリシーとは?
Def (φ-fair)
ランキングポリシーπがφ-fairであるとは、すべての自然数 kとエージェントAに対して、
(Aがπでtop-kに入る確率) >= φ * (価値を事後分布からサンプリングするとき Aの価値がtop-kに入る確率)
が成り立つこと
Fact
(1) π^TS は 1-fair
(2) 1-fairなポリシーの期待効用は π^TSと同じ
(3) α-fair, β-fairなポリシーπ, π’を確率φ, 1-φで選択するMixポリシーは(φα + φ(1-q))-fair
したがってとくに、π^*とπ^TSを確率φ, 1-φで選択するMixポリシー π^MIX はφ-fair
10
期待効用とFairnessのトレードオフ
Fair
期待効用
Max
Max
π^TS(1-fair)
π^*(期待効用最大)
φ
ミックスポリシー π^MIX (φ-fair)
最適トレードオフポリシー π^LP (φ-fair)
1 - φ
※ The Birkhoff-von Neumann Theoremにより、周辺分布p
が与えられると、ランキングポリシーの存在が保証される
※
確率φでπ^*、1-φでπ^TSをとるポリシー
Gap
Gap
11
実験1: MovieLens
① π^*とπ^TSのギャップは? → NDCGのギャップがそもそも 1%未満で驚くほど小さかった
設定 結果
値はNDCG
② π^LPとπ^MIXのギャップは? → LP最適化すると多少改善する
12
実験2: Paper Recommendation System @KDD2020
Figure 2 → π^*よりもfairなポリシーπ^TSのほうが露出の配分が均等になっている?
Table 1 → 論文の閲覧や聴講スケジュールのカレンダーへの登録などの行動に有意な差はない
(fairなポリシーを採用してもシステムの効用を大きく損なうことはない)
設定 結果
KDD2020の参加者の最近の論文や共著者
情報情報と論文の類似度に基づく Paper
Recommendation Systemを提供
- ユーザーに対する論文の価値 = 類似度
- ユーザーは無作為に π^*, π^TSへ振り分け
- レコメンドされた論文をスクロール
して表示したか、読んだかなどを計測
13
感想
- φ-fair の定義がとにかくエレガントだった。教科書に載りそう。
- 理論部分はとにかくシンプルだったが、何を知りたいのかが明確な論文だった。
(注釈なく経済学由来っぽい用語を出してくるあたりが不親切だったけど)
- 実験は頑張ってるけど、実験結果の説得力は弱そうなので今後に期待。結局各種ポリシー間の
ギャップは小さいとおもっていいのかイマイチわからなかった。
- 現実的には π^MIX をつかっておけばそんなに悪くなさそう?
事後分布さえあれば実装はすごく簡単。価値をサンプリングするか期待価値を使うかを確率 φで
決め、それで得られた価値の順にソートするだけ。
- 複雑な問題を綺麗に整理して、「とりあえずこれでいいや」と思わせてくれた。
14
この論文を実践するためのレシピ?(φ-fair, π^MIX )
下準備
1. ランキング対象の価値の事後分布をがんばってつくっておく( w/ ドメインエキスパート)
2. 1の事後分布から期待価値を求めておく
3. 期待するフェア度φ (0〜1)を決める
ランキングの作り方
1. 確率φで表がでるコインをフリップする
a. 表が出たら全ランキング対象にたいして価値を事後分布からサンプリングしてスコアとする
b. 裏が出たら期待価値をスコアとする
2. スコアの大きい順に並び替えて出力
15
We are hiring!
https://careers.beatrust.com
Mission
人々の経験や強みを可視化して、自由に繋がり、協業・共創できる環境を作る
https://speakerdeck.com/beatrust/we-are-hiring

More Related Content

PDF
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
PDF
ICCV2019 report
PDF
2021 10-07 kdd2021読み会 uc phrase
PDF
データに内在する構造をみるための埋め込み手法
PDF
ヒトの機械学習
PDF
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
PDF
BUGSを使うメリット
 
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
ICCV2019 report
2021 10-07 kdd2021読み会 uc phrase
データに内在する構造をみるための埋め込み手法
ヒトの機械学習
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BUGSを使うメリット
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太

What's hot (20)

PDF
【参考文献追加】20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
PDF
【メタサーベイ】Face, Gesture, and Body Pose
PDF
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
PDF
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
PDF
日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝
PDF
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
PDF
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
PDF
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
PDF
【CVPR 2020 メタサーベイ】Neural Generative Models
PDF
ECCV2020 オーラル論文完全読破 (2/2)
PDF
ICLR読み会 奥村純 20170617
PDF
Transformer メタサーベイ
PDF
NIPS2015概要資料
PDF
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
PDF
ECCV2020 Oral論文 完全読破(1/2)
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PDF
Cloud operator days tokyo 2020講演資料_少人数チームでの機械学習製品の効率的な開発と運用
PDF
ディープラーニングの産業応用とそれを支える技術
PDF
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
PPTX
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
【参考文献追加】20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
【メタサーベイ】Face, Gesture, and Body Pose
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
【CVPR 2020 メタサーベイ】Neural Generative Models
ECCV2020 オーラル論文完全読破 (2/2)
ICLR読み会 奥村純 20170617
Transformer メタサーベイ
NIPS2015概要資料
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
ECCV2020 Oral論文 完全読破(1/2)
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
Cloud operator days tokyo 2020講演資料_少人数チームでの機械学習製品の効率的な開発と運用
ディープラーニングの産業応用とそれを支える技術
DeepLearningフレームワークChainerの学習済みモデルをスマートフォンにDeployする
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Ad

Similar to NeurIPS2021読み会 Fairness in Ranking under Uncertainty (6)

PDF
Analysis of Learning from Positive and Unlabeled Data
PDF
公平性を保証したAI/機械学習
アルゴリズムの最新理論
PPTX
DNNの曖昧性に関する研究動向
PDF
[DSO]勉強会_データサイエンス講義_Chapter7
PDF
予測の不確かさのユーザー調査
PDF
[DL輪読会]A Simple Unified Framework for Detecting Out-of-Distribution Samples a...
Analysis of Learning from Positive and Unlabeled Data
公平性を保証したAI/機械学習
アルゴリズムの最新理論
DNNの曖昧性に関する研究動向
[DSO]勉強会_データサイエンス講義_Chapter7
予測の不確かさのユーザー調査
[DL輪読会]A Simple Unified Framework for Detecting Out-of-Distribution Samples a...
Ad

More from Tatsuya Shirakawa (8)

PDF
Retail Face Analysis Inside-Out
PDF
Taskonomy: Disentangling Task Transfer Learning -- Scouty Meetup 2018 Feb., ...
PDF
Hyperbolic Neural Networks
PDF
Learning to Compose Domain-Specific Transformations for Data Augmentation
PDF
Icml2017 overview
PPTX
Poincare embeddings for Learning Hierarchical Representations
PDF
Dynamic filter networks
PDF
Improving Variational Inference with Inverse Autoregressive Flow
Retail Face Analysis Inside-Out
Taskonomy: Disentangling Task Transfer Learning -- Scouty Meetup 2018 Feb., ...
Hyperbolic Neural Networks
Learning to Compose Domain-Specific Transformations for Data Augmentation
Icml2017 overview
Poincare embeddings for Learning Hierarchical Representations
Dynamic filter networks
Improving Variational Inference with Inverse Autoregressive Flow

Recently uploaded (6)

PDF
高所作業プラットフォーム業界の上位メーカーランキング2025:市場シェアと売上推移の分析レポート
PDF
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
PPTX
20250819 Qlik Tips AI assistants (SQLアシスタントとデータモデルリレーションシップ)
PDF
LEDビジョンレンタル市場規模の成長見通し:2031年には1934百万米ドルに到達へ
PPTX
QlikTips_20250819_Qlik Automate Update.pptx
PDF
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
高所作業プラットフォーム業界の上位メーカーランキング2025:市場シェアと売上推移の分析レポート
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
20250819 Qlik Tips AI assistants (SQLアシスタントとデータモデルリレーションシップ)
LEDビジョンレンタル市場規模の成長見通し:2031年には1934百万米ドルに到達へ
QlikTips_20250819_Qlik Automate Update.pptx
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~

NeurIPS2021読み会 Fairness in Ranking under Uncertainty

  • 1. UCPhrase: Unsupervised Context-aware Quality Phrase Tagging Fairness in Ranking under Uncertainty A. Singh (Cornell Univ.), D. Kempe (USC), T. Joachims (Cornell Univ.) 2022-01-25 Reader: Tatsuya Shirakawa LINE Developer Meetup: NeurIPS2021 論文読み会
  • 2. 2 Beatrustにおける、データの利活用にまつわるすべて。 人と組織のdynamicsを理解して、データ駆動の社会科学を実現したい。ついでに社会貢献したい。 Interview https://note.com/beatrust/n/ne63297b9c546 最近のお仕事 ● ローンチ前の Tag Suggestion 機能を機械学習で作る ● 日本語辞書ありキーワード抽出器からの多言語辞書なしキーワード抽出器の Distillation 昔のお仕事 ● 機は熟した!グラフ構造に対するDeep Learning、Graph Convolutionのご紹介 ● 異空間への埋め込み!Poincare Embeddingsが拓く表現学習の新展開 ● Retail Face Analysis Inside-Out Beatrust Ex ABEJA Ex NTT Data 数理システム ML Data Science NLP Steve Reich J. S. Bach 犬飼いたい カジュアル面談お待ちしています Data Scientist募集中 We are hiring! https://careers.beatrust.com/ s_tat1204 数理最適化
  • 3. 3 Ranking under Uncertainty Movie a Movie b … Movie z User 1 ★★★☆ ☆ ★★★★ ☆ User 2 ★☆☆☆ ☆ ★★☆☆ ☆ User N ★★☆☆ ☆ ★★★★ ★ post. dist. or merit 真の価値は、間接的な観測から事後分布 として推定される estimation of merit 0.31 0.22 0.42 optimal ranking #3944 #284 #7502 真の価値の期待値 真の価値の期待値に基づくランキング(ソート) … 対象の価値(merit, e.g. レーティング)は 間接的・不完全に観測される …
  • 4. 4 Fairness in Ranking under Uncertainty Movie a Movie b … Movie z User 1 ★★★☆ ☆ ★★★★ ☆ User 2 ★☆☆☆ ☆ ★★☆☆ ☆ User N ★★☆☆ ☆ ★★★★ ★ post. dist. or merit 真の価値は、間接的な観測から事後分布として 推定される 対象の価値(merit, e.g. レーティング)は間接的・ 不完全に観測される fair ranking ? …
  • 5. 5 Fairness in Ranking under Uncertainty Movie a Movie b … Movie z User 1 ★★★☆ ☆ ★★★★ ☆ User 2 ★☆☆☆ ☆ ★★☆☆ ☆ User N ★★☆☆ ☆ ★★★★ ★ post. dist. or merit fair ranking ? 本論文では所与 (ここはドメインエキスパートが頑張る) 本論文で定義・解析 …
  • 6. 6 問題設定 Agent 1 Agent 2 Agent N merit post. dist. utility 1.73 Meritの事後分布が与えられたもとでランキングポリシー(ランキングの分布)の Fairnessを定義し、Fairなランキングポリシーとはどんなものか解析したい Principal ランキングエンジン (ランキング分布にしたがいランキングを生成) Agent ランキング対象 Merit (Agentの)価値 Utility (ランキングの)効用 仮定: factability ランキングσ、価値vの効用は価値のランクごとの重み 和の形式 utility of ranking σ merit of k-th agent 〜 post. dist. non-increasingな重み DCG: w_k = 1 / log_2(1 + k) Average Reciprocal Rank: w_k = 1/k, Precision@k = w_k = 1[1<=K] / K 所与 #13 0.56 #21 0.42 #4 0.75 #18 0.51 #34 0.27 #7 0.72 #20 0.44 #17 0.50 #2 0.92 … 2.48 1.97 Principal / ランキングポリシー π …
  • 7. 7 ランキングポリシー π^* Agent 1 Agent 2 Agent N merit post. dist. つねに期待価値が大きい順にagentをソートしてかえすポリシー 所与 #13 #21 #4 #18 #34 #7 #20 #17 #2 … Principal / ランキングポリシー π^* est. merit 0.47 0.32 0.58 #18 #34 #7 ranking Fact π^*は期待効用 を最大化する …
  • 8. 8 ランキングポリシーπ^TS Agent 1 Agent 2 Agent N merit post. dist. utility 1.73 所与 #13 0.56 #21 0.42 #4 0.75 #18 0.51 #34 0.27 #7 0.72 #20 0.44 #17 0.50 #2 0.92 … 2.48 1.97 Principal / ランキングポリシー π Agentごとに価値をサンプリングし、それの値が大きい順にソートして返す(Thompson Sampling)ポリシー 価値は事後分布から 都度サンプリングされる …
  • 9. 9 Fairなポリシーとは? Def (φ-fair) ランキングポリシーπがφ-fairであるとは、すべての自然数 kとエージェントAに対して、 (Aがπでtop-kに入る確率) >= φ * (価値を事後分布からサンプリングするとき Aの価値がtop-kに入る確率) が成り立つこと Fact (1) π^TS は 1-fair (2) 1-fairなポリシーの期待効用は π^TSと同じ (3) α-fair, β-fairなポリシーπ, π’を確率φ, 1-φで選択するMixポリシーは(φα + φ(1-q))-fair したがってとくに、π^*とπ^TSを確率φ, 1-φで選択するMixポリシー π^MIX はφ-fair
  • 10. 10 期待効用とFairnessのトレードオフ Fair 期待効用 Max Max π^TS(1-fair) π^*(期待効用最大) φ ミックスポリシー π^MIX (φ-fair) 最適トレードオフポリシー π^LP (φ-fair) 1 - φ ※ The Birkhoff-von Neumann Theoremにより、周辺分布p が与えられると、ランキングポリシーの存在が保証される ※ 確率φでπ^*、1-φでπ^TSをとるポリシー Gap Gap
  • 11. 11 実験1: MovieLens ① π^*とπ^TSのギャップは? → NDCGのギャップがそもそも 1%未満で驚くほど小さかった 設定 結果 値はNDCG ② π^LPとπ^MIXのギャップは? → LP最適化すると多少改善する
  • 12. 12 実験2: Paper Recommendation System @KDD2020 Figure 2 → π^*よりもfairなポリシーπ^TSのほうが露出の配分が均等になっている? Table 1 → 論文の閲覧や聴講スケジュールのカレンダーへの登録などの行動に有意な差はない (fairなポリシーを採用してもシステムの効用を大きく損なうことはない) 設定 結果 KDD2020の参加者の最近の論文や共著者 情報情報と論文の類似度に基づく Paper Recommendation Systemを提供 - ユーザーに対する論文の価値 = 類似度 - ユーザーは無作為に π^*, π^TSへ振り分け - レコメンドされた論文をスクロール して表示したか、読んだかなどを計測
  • 13. 13 感想 - φ-fair の定義がとにかくエレガントだった。教科書に載りそう。 - 理論部分はとにかくシンプルだったが、何を知りたいのかが明確な論文だった。 (注釈なく経済学由来っぽい用語を出してくるあたりが不親切だったけど) - 実験は頑張ってるけど、実験結果の説得力は弱そうなので今後に期待。結局各種ポリシー間の ギャップは小さいとおもっていいのかイマイチわからなかった。 - 現実的には π^MIX をつかっておけばそんなに悪くなさそう? 事後分布さえあれば実装はすごく簡単。価値をサンプリングするか期待価値を使うかを確率 φで 決め、それで得られた価値の順にソートするだけ。 - 複雑な問題を綺麗に整理して、「とりあえずこれでいいや」と思わせてくれた。
  • 14. 14 この論文を実践するためのレシピ?(φ-fair, π^MIX ) 下準備 1. ランキング対象の価値の事後分布をがんばってつくっておく( w/ ドメインエキスパート) 2. 1の事後分布から期待価値を求めておく 3. 期待するフェア度φ (0〜1)を決める ランキングの作り方 1. 確率φで表がでるコインをフリップする a. 表が出たら全ランキング対象にたいして価値を事後分布からサンプリングしてスコアとする b. 裏が出たら期待価値をスコアとする 2. スコアの大きい順に並び替えて出力