SlideShare a Scribd company logo
Bandit Algorithm
And Causal Inference
/ /
Shota Yasui
Who are you?
Shota Yasui( )
@housecat
経歴
2013 新卒総合職⼊社(広告事業本部)
2015 アドテクスタジオへ異動

DMP/DSP/SSPで分析
AILabスタート
ADEconチームスタート
!2
.Bandit Algorithmとは?
.Causal Inference + Bandit
.Off-Policy Evaluation
.Future Work + まとめ
!3
Banditとは何か?
Bandit Problem?
• 広告画像の選択肢がM個ある(ex. M = )
• ユーザーアクセス毎に選択肢を選ぶ
• 広告画像を⾒たユーザーがClickするか決める
• この操作をT回のアクセス分だけ繰り返す
• 最もClickを稼げる選び⽅は何か?
!5
Bandit Algorithmの概要
arm_a
arm_b
Request
!6
Bandit Algorithmの概要
arm_a
E[r|A = a]
V[r|A = a]
arm_b
E[r|A = b]
V[r|A = b]
Request
!7
Bandit Algorithmの概要
arm_a
E[r|A = a]
V[r|A = a]
arm_b
E[r|A = b]
V[r|A = b]
Decision Rule

(UCB/Thompson Sampling)
Request
arm_b Selected Arm
!8
Bandit Algorithmの概要
arm_a
E[r|A = a]
V[r|A = a]
arm_b
E[r|A = b]
V[r|A = b]
Decision Rule

(UCB/Thompson Sampling)
Request
arm_b Selected Arm
Feedback

+Update
!9
Banditの良いところ
• 古典的にはAB-test(RCT)が使われていたタスク
前半AB-testして、後半は良かったのを使う。
代理店とかでよくやる。

• Banditだと得られるclick数がより多くなる
armのモデルを更新しつつ
モデルに従って選ぶ
!10
Bandit Algorithmの概要
arm_a
E[r|A = a]
V[r|A = a]
arm_b
E[r|A = b]
V[r|A = b]
Decision Rule

(UCB/Thompson Sampling)
Request
arm_b Selected Arm
Storage
Feedback
Batched Bandit Setting/interactive machine learning
!11
Bandit Algorithmの概要
arm_a
E[r|A = a]
V[r|A = a]
arm_b
E[r|A = b]
V[r|A = b]
Decision Rule

(UCB/Thompson Sampling)
Request
arm_b Selected Arm
Storage
Feedback
Update
Batched Bandit Setting/interactive machine learning
!12
Bandit Algorithmの概要
arm_a
E[r|A = a,X]
V[r|A = a,X]
arm_b
E[r|A = b,X]
V[r|A = b,X]
Decision Rule

(UCB/Thompson Sampling)
Request
arm_b Selected Arm
Storage
Feedback
Update
Batched Bandit Setting/interactive machine learning Contextual Bandit Case
!13
Policyと呼ばれる部分
arm_a
E[r|A = a,X]
V[r|A = a,X]
arm_b
E[r|A = b,X]
V[r|A = b,X]
Decision Rule

(UCB/Thompson Sampling)
Request
arm_b Selected Arm
Storage
Feedback
!14
Thompson + Batch
arm_a
E[r|A = a,X]
V[r|A = a,X]
arm_b
E[r|A = b,X]
V[r|A = b,X]
Decision Rule

(UCB/Thompson Sampling)
Request
arm_b Selected Arm
!15
腕の選択を複数回繰り返せば、

あるバッチでの真の確率を得られる。
⼊ってくるリクエストに対して、
選択肢の選択確率が決まる。
バンディットのログで
因果推論(CI)
AD Template Selection
• 広告のテンプレートを選ぶ問題(アイテムは独⽴した別の機構で決定される)
• ユーザーの情報Xを得て、選択肢{a,b,c,d}に対してCTRの予測を⾏う
• 予測値が最⼤の選択肢を選ぶ(上の例ではb)
• Clickを観測する(Y)
• モデル更新は1⽇1回
Policy
!17
よくある依頼
どちらのテンプレートが
どのくらいCTRが⾼いか?
!18
Golden Standard Research Design
!19
因果推論による情報の復元
• 選択肢bのCTRを評価したい
• バンディットの選択がbの場合にはYの値がわかる
• 観測できたYだけで評価をするべきか?
• 分布が全体のデータの分布と同じなら問題ない
• バンディットがbを選んだというバイアスが存在
→観測できたデータから全体での結果を推測する
→因果推論の出番!
!20
IPW(Inverse Probability Weighting)
• ex)ある学校で平均⾝⻑を知りたい
• 体重だけはなぜか知っている
たまたまラグビー部が試合で⽋席
体重が60kg以上の⼈の50%がラグビー部
• 本当の平均⾝⻑(⻘線)
• ラグビー部不在の⾝⻑(⾚線)
• ⾚線は⻘線よりも下がっている
⾼⾝⻑のデータが⽋損しているから
!21
⾝⻑
体重
IPW
• ⾼⾝⻑が不在という情報はある
体重60kg以上の50%がラグビー部
いない分データを⽔増しする
• 体重/出席率すると…
kg以上の観測データを2倍に⽔増し
kg以下は1倍
• このデータで平均を算出(緑線)
• ⻘線に近くなった!
!22
⾝⻑
体重
データが⽋損していて、
!23
得られたデータの

観測確率が分かっていれば、
= Propensity Score
!24
データを⽔増しして、
元の平均を推定することが可能。
!25
因果推論による情報の復元
•黒のデータは⽋損(ラグビー部)
•⽋損の理由はバンディットでbが選
ばれないから
•では観測確率は?
→Policyがbを選ぶ確率
!26
True Propensity Score
arm_a
E[r|A = a,X]
V[r|A = a,X]
arm_b
E[r|A = b,X]
V[r|A = b,X]
Decision Rule

(UCB/Thompson Sampling)
Request
arm_b Selected Arm
Storage
Feedback
Batched Bandit Setting/interactive machine learning
!27
Estimator
CTRnaive = N−1
N
∑
i
clicki CTRIPW = K−1
K
∑
j
Dj clickj
pj
選択が⼀致したデータ
全てのデータ
選択が⼀致すると1

しない場合は0
腕の選択確率
!28
Biased Result
• Contextual Banditのログから集計
• ログからそのままCTRを集計したもの
• 事業責任者やコンサルの⽅が⾒るよう
なデータの結果。
• template_ が最も良い結果
26以外必要ないのか?
CTRnaive = N−1
N
∑
i
clicki
!29
IPW Result
• バンディットのバイアスを取り除く
ためにIPWを利⽤。
• どのテンプレートも優劣無し。
CTRIPW = K−1
K
∑
j
Dj clickj
pj
!30
Heterogeneity
• GRFを使う
• 条件別の因果効果を推定する
• CV的な操作を⾏いRobust性を担保
• GRFで因果効果の傾向が変わる変数を
探索する。
!31
IPW by Interstitial
Interstitial ad
Not Interstitial ad Interstitial ad
!32
Banditのログでバイアスの少ない
事後的な分析が出来る。
!33
Off-Policy Evaluation
(OPE)
ADTemplate Selection
• 広告のテンプレートを選ぶ問題(アイテムは独⽴した別の機構で決定される)
• ユーザーの情報Xを得て、選択肢{a,b,c,d}に対してCTRの予測を⾏う
• 予測値が最⼤の選択肢を選ぶ(上の例ではb)
• Clickを観測する(Y)
Bandit Algorithm
再掲
!35
!36
Counterfactual Policyを考える
Counterfactual Policy
Research Question
How to compare two AI Systems?
!37
Golden Standard Research Design
!38
RCT is costly
• RCTの為にモデルの実装が必要
• ⼤量のアイデアを同時に試すのは不可能
• ハイパーパラメーターなどの調整での利⽤は⾮現実的
• CF Policyがダメダメだと損失のリスクもある‧‧‧
→なるべくRCTせずに評価を⾏いたい
!39
OPE(Off-policy Evaluation)
• 既存のPolicyは全てのサンプルでYが観測できている
• Yの平均が評価になる。
• 新規のPolicyは既存のPolicyと選択が同じ時だけYがわかる
• Yの⾚字の平均が評価になる?
• ⾚字のデータが黒字のデータのランダムサンプルである場合
• ⾚字のデータは全データと同⼀の分布
• 実際にはPolicyの決定に依存しているのでこれはない
• どちらかがランダム選択であれば違う
→全部のデータに対する評価を得たい
!40
そうだ、IPWを使おう。
!41
データが⽋損していて、
再掲
!42
得られたデータの

観測確率が分かっていれば、
= Propensity Score
再掲
!43
データを⽔増しして、
元の平均を推定することが可能。
再掲
!44
True Propensity Score
arm_a
E[r|A = a,X]
V[r|A = a,X]
arm_b
E[r|A = b,X]
V[r|A = b,X]
Decision Rule

(UCB/Thompson Sampling)
Request
arm_b Selected Arm
Storage
Feedback
Batched Bandit Setting/interactive machine learning
再掲
!45
因果推論とOPEの差
• 因果推論
常に⼀つの選択肢を選ぶpolicyの評価
• Off-Policy Evaluation
状況によって選択が変化するpolicyの評価
因果推論はむしろOPEの特殊な形
CTRIPW = K−1
K
∑
j
Dj clickj
pj
CTROPE = K−1
K
∑
j
m
∑
a
clickj Dj,a
π(a|Xj)
pj
腕aが⼀致した選択か?
評価したいpolicyの決定
!46
Efficient CF Evaluation
• AAAI (oral + poster)
https://arxiv.org/abs/ .
• ⼤まかな内容
傾向スコアの作り⽅を変える
MLで傾向スコアを推定する
OPEでの不確実性が減少
!47
True Propensity Score
arm_a
E[r|A = a,X]
V[r|A = a,X]
arm_b
E[r|A = b,X]
V[r|A = b,X]
Decision Rule

(UCB/Thompson Sampling)
Request
arm_b Selected Arm
Storage
Feedback
Batched Bandit Setting/interactive machine learning
再掲
!48
True Propensity Score
arm_a
E[r|A = a,X]
V[r|A = a,X]
arm_b
E[r|A = b,X]
V[r|A = b,X]
Decision Rule

(UCB/Thompson Sampling)
Request
arm_b Selected Arm
Storage
Feedback
Batched Bandit Setting/interactive machine learning
提案:選択確率をMLで推定してしまう。
•TPS= %でも実際のデータ上では55%だったりする。
•IPWではデータ上の割り振りを修正したい
•ML/nonparametric-modelでデータ上の割り振りを学習する
!49
実験結果
• DSPのデータでの実験
• 新しいアイデアを使ったPolicyを作ってOPE
• TPSとEPSで評価
• 縦軸:報酬性能の推定値
• 横軸:PSの種類
• EPSだと信頼区間が⼩さい
!50
True Propensity Score Case Estimated Propensity Score Case
!51
Banditのログでバイアスの少ない
Policy評価ができた。
(しかも統計的に効率的に。)
!52
まとめ
分析(not予測)環境の変化
• 機械学習を利⽤した意思決定の⾃動化が進んできた
RTB/Recommend/Ad Selection/Ranking/etc
この6年間肩⾝が狭くなる⼀⽅

• ⼀⽅で)⾃動意思決定によって残されたデータを分析する必要性
What is good policy? / Causal effect of some items
→プロダクトとして⾃動意思決定と事後分析をセットで考える必要性
• バンディットはたまたまこの流れが早かった
他の機械学習タスクでもこの流れになる
!54
分析者(not予測)が⽬指したいところ
• ⾃動意思決定をデザインする(with ML Engineer)
事後的な分析を⾒込んだデザインをする必要がある
arg maxやUCBからの卒業(報酬性能も低い)

• ⾃動意思決定のデザインに応じた分析をデザインする
MDPを仮定する強化学習のログで因果推論はどうやるか?

• 結局両⽅デザインしに⾏く必要がある
データが⽣まれるプロセスから、
事後的な分析のプロセスまでをデザインする。
!55
21世紀の分析者は、
データのゆりかごから
墓場までをデザインする。
!56
Enjoy
Your Design!

More Related Content

PDF
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
PDF
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
PDF
Fisher Vectorによる画像認識
PDF
動画認識サーベイv1(メタサーベイ )
PDF
ELBO型VAEのダメなところ
PDF
LSTM (Long short-term memory) 概要
PDF
[DL輪読会]Control as Inferenceと発展
PDF
RTBにおける機械学習の活用事例
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Fisher Vectorによる画像認識
動画認識サーベイv1(メタサーベイ )
ELBO型VAEのダメなところ
LSTM (Long short-term memory) 概要
[DL輪読会]Control as Inferenceと発展
RTBにおける機械学習の活用事例

What's hot (20)

PDF
深層学習を利用した音声強調
PDF
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
PDF
よくわかるフリストンの自由エネルギー原理
PPTX
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
PDF
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
PDF
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
PDF
RTBにおける機械学習の活用事例
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PDF
Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...
PDF
HiPPO/S4解説
PPTX
Graph convolution (スペクトルアプローチ)
PDF
探索と活用の戦略 ベイズ最適化と多腕バンディット
PPTX
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...
PDF
DQNからRainbowまで 〜深層強化学習の最新動向〜
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
深層学習を利用した音声強調
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
よくわかるフリストンの自由エネルギー原理
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
RTBにおける機械学習の活用事例
[DL輪読会]Dense Captioning分野のまとめ
Kdd 2021 読み会(clustering for private interest-based advertising & learning a l...
HiPPO/S4解説
Graph convolution (スペクトルアプローチ)
探索と活用の戦略 ベイズ最適化と多腕バンディット
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
強化学習と逆強化学習を組み合わせた模倣学習
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...
DQNからRainbowまで 〜深層強化学習の最新動向〜
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
【DL輪読会】Scaling Laws for Neural Language Models
最近のDeep Learning (NLP) 界隈におけるAttention事情
Ad

Similar to L 05 bandit with causality-公開版 (20)

PPTX
Pycon reject banditアルゴリズムを用いた自動abテスト
PDF
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
PDF
Contextual package
PPTX
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
PDF
センサーxIo tx機械学習が実現する導線分析のビジネス貢献
PPTX
Tdc 20181121
PDF
Tableau Developers Club Season2 - 外部サービス連携デモ
PDF
Paper Collection of Real-Time Bidding論文読み会~第一回~
PDF
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
PDF
Realize tokyo2019 yrglm
PPTX
700億件のリアルタイム分析の実現と運用の実態
PPTX
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
PDF
異業種でのテスト自動化の実際
PDF
USTREAM(ユーストリーム)配信セミナー
PDF
企業の中の経済学
PDF
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
PPTX
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
PDF
Retty recommendation project
PDF
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
PDF
Contexual bandit @TokyoWebMining
Pycon reject banditアルゴリズムを用いた自動abテスト
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Contextual package
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
センサーxIo tx機械学習が実現する導線分析のビジネス貢献
Tdc 20181121
Tableau Developers Club Season2 - 外部サービス連携デモ
Paper Collection of Real-Time Bidding論文読み会~第一回~
CVPR 2018 速報とその後 (CVPR 2018 完全読破チャレンジ報告会)
Realize tokyo2019 yrglm
700億件のリアルタイム分析の実現と運用の実態
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
異業種でのテスト自動化の実際
USTREAM(ユーストリーム)配信セミナー
企業の中の経済学
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
Retty recommendation project
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
Contexual bandit @TokyoWebMining
Ad

More from Shota Yasui (13)

PDF
PaperFriday: The selective labels problem
PDF
TokyoR 20180421
PDF
何故あなたの機械学習はビジネスを改善出来ないのか?
PDF
木と電話と選挙(causalTree)
PDF
計量経済学と 機械学習の交差点入り口 (公開用)
PDF
Factorization machines with r
PDF
Estimating the effect of advertising with Machine learning
PPTX
Prml nn
PPTX
Xgboost for share
PPTX
重回帰分析で頑張る
PDF
Dynamic panel in tokyo r
PDF
Rで部屋探し For slide share
PDF
Salmon cycle
PaperFriday: The selective labels problem
TokyoR 20180421
何故あなたの機械学習はビジネスを改善出来ないのか?
木と電話と選挙(causalTree)
計量経済学と 機械学習の交差点入り口 (公開用)
Factorization machines with r
Estimating the effect of advertising with Machine learning
Prml nn
Xgboost for share
重回帰分析で頑張る
Dynamic panel in tokyo r
Rで部屋探し For slide share
Salmon cycle

Recently uploaded (8)

PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
PDF
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
データモデラー視点で語るデータマネジメント入門~組織のデータ活用を成功に導くために~
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf

L 05 bandit with causality-公開版