SlideShare a Scribd company logo
Top-K Off-Policy Correction for a
REINFORCE Recommender System
調和系 M1 織⽥智⽮ 2020/07/22
Minmin Chen and Alex Beutel and Paul Covington and Sagar Jain and Francois
Belletti and Ed Chi, Google, Inc. ,WSDM 2019
https://arxiv.org/abs/1812.02353
有志実装: https://github.com/awarebayes/RecNN
Google Resarch: https://research.google/pubs/pub47647/
ゼミ資料
概要
• YouTubeの推薦システムをオフライン強化学習で実装した
研究
• ユーザ⾏動ログ(クリック・滞在時間)から学習
• しかし前のバージョンの⽅策のバイアスの影響を受ける
• 貢献
• 100万オーダーの⾏動空間を持つ推薦システムの実運⽤
• 様々な⽅策から観測されたデータバイアスへの対処
1
強化学習を使ったTop-K推薦システムの提案
ゼミ資料
INTRODUCTION
[スケール問題]
– 産業⽤推薦システムの状態空間と⾏動空間は膨⼤
[バイアス問題]
– 様々なポリシーを元に推薦されたログからの学習はバイアスの影響
[Top-k問題]
– 通常強化学習は⼀つの⾏動を選択(推薦システムだと⼀つのアイテ
ムしか推薦されない)
[環境変化問題]
– ユーザの好みは⽇々変化
2
ゼミ資料
RELATED WORK
• Q学習のような価値ベースの⼿法の関数近似部分は不安定
[29]
– ⽅策の収束はあまり研究されてない
– 安定動作には,ハイパラ調整が必須
• ⽅策ベースの⼿法は,学習率が⼗分⼩さいと,関数近似部
分がかなり安定
3
[29] Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray
Kavukcuoglu. 2016. Asynchronous methods for deep reinforcement learning. In International conference on machine learning. 1928–1937.
方策ベースな手法であるREINFORCEを使用
ゼミ資料
REINFORCEアルゴリズム
• ⽅策を微分して勾配を求める
• 得られた勾配を元に期待収益を最⼤化するよう⽅策を更新
• 実は期待収益は,分類モデルにおける交差エントロピーと
同じ式になる
– ⽅策関数は予測
– 報酬は教師ラベル
• ⽐較的わかりやすので導出のスライド付けました
4
ゼミ資料
マルコフ過程でモデリング
𝒮: embedされたユーザの状態空間(連続)
𝒜: 推薦するアイテム(YouTubeの動画)の⾏動空間(離散)
𝑃: 𝒮×𝒜×𝒮 → ℝ 遷移確率関数𝑃(𝑠′|𝑠, 𝑎)
𝑅: 𝒮×𝒜 → ℝ 報酬関数𝑟(𝑠, 𝑎)
• 期待収益を最⼤化
• 上式を直接微分して導出された式をモンテカルロ近似
5
𝑚𝑎𝑥
!
𝔼"∼! 𝑅 𝜏 , where 𝑅(𝜏) = +
$%&
|"|
𝑟(𝑠$, 𝑎$)
)𝜏 = (𝑠&, 𝑎&, 𝑠(, ⋯ ,
方策からサンプリングされた軌跡
• reward to go
• 割引率の導入
ゼミ資料
おまけ: REINFORCE導出
6
http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-5.pdf
• パラメータ𝜃を持つ方策を𝜋)
• 𝐽(𝜃)を最大化する𝜃を求める
• Tはエピソードにおけるステップ数
𝜋! 𝜏 ∇! log 𝜋! 𝜏 = 𝜋! 𝜏
∇! 𝜋! 𝜏
𝜋! 𝜏
= ∇! 𝜋! 𝜏
トリック
ゼミ資料
Off-Policy補正
• 古典的⼿法はオンライン更新
• しかし,過去の様々な⽅策によるログしか使えない
– 更新してる⽅策と異なる⾏動空間の分布
– 古い⽅策を𝛽を使って𝜋!を更新したい
7
Importance Sampling
𝐽 𝜃 = 𝐸!∼#" ! 𝑟 𝜏 = 𝐸!∼$ !
𝜋% 𝜏
𝛽 𝜏
𝑟 𝜏
=
Where
𝜏の展開
未来の行動は時刻tに
関係ないため,t以降
は無視
(分散を減らす)
さらに一次近似バリアンスを減らす工夫
∇) 𝐽 𝜃
ゼミ資料
⽅策𝜋#の設計
• 𝑠) ∈ ℝ*
時刻tでのユーザのembed
• 𝑢+*
∈ ℝ,
時刻tでの⾏動のembed
• 𝑃(𝑠′|𝑠, 𝑎) をRNN(CFN[24])を使って表現
– CFNはRNN・LSTMの内部状態が外部⼲渉なしに収束する
問題を対処した⼿法
• softmaxが数100万オーダーのため, sampled
softmax[4]を使⽤
• 本番環境では⾼速な最近傍法アルゴリズム
8
Fig.1 ニューラルアーキテクチャ
[4] Yoshua Bengio, Jean-Sébastien Senécal, et al. 2003. Quick Training of Probabilistic Neural Nets by Importance Sampling
[24] Thomas Laurent and James von Brecht. 2016. A recurrent neural network without chaos. arXiv preprint arXiv:1612.06212 (2016).
Cell
𝑠#
Cell
𝑠$ 𝑠%
𝑠$
Cell
𝑠&'$
・・・
𝑢# 𝑠$𝑢$ 𝑠&𝑢&
方策関数RNN詳細
∇! 𝐽 𝜃 =
softmax 𝜋! 𝜏
softmax 𝛽 𝜏
[再掲] 方策の勾配式
これで𝑠&'$の方策の勾配が手に入る
ゼミ資料
⽅策𝜋#と𝛽の学習
• 混合⽅策𝛽の推定は,過去ログの(𝑠, 𝑎)ペアから⾏う
• 途中までネットワークを共有し,最後のsoftmaxで分離
• 過去⽅策からは勾配が流れないようにブロック
• 𝜋4と𝛽を分離したネットワークで推定を⾏ったが性能変わ
らず
9
Fig.1 ニューラルアーキテクチャ
𝛽推定の計算量を減らした
ゼミ資料
おまけ: CFN(Chaos Free Network)の計算式
[GRU]
• LSTMの⼊⼒・忘却ゲートを更新ゲートとしてまとめたモデル
[CFN]
• 更新式
• 今回の更新式
10
https://qiita.com/shotasakamoto/items/af46ee3bbbe1e12230d0
zとかuとか表現まちまち 𝑊 ∈ ℝ)×+
𝑏 ∈ ℝ)
CFNアブストより
• 単純なアーキテクチャでRNN, LSTMに匹敵す
る性能を達成
• 隠れ状態の予期せぬポイントへの収束を克服
したらしい
ゼミ資料
Top-K Actionの導⼊
• 1つの⾏動𝑎から複数の⾏動集合𝐴へにしたい
[条件]
• 𝐴の期待報酬は各要素の期待報酬の合計に等しいと仮定
• 𝜋!に従いTop-1推薦を繰り返し,重複を除去して𝐴を⽣成
11
𝛱,: 方策関数
この条件の下で方策の勾配式を修正
𝛼 𝑎 𝑠 = 1 − (1 − 𝜋%(𝑎|𝑠))-
方策の勾配式の𝜋%を𝛼に変更して
ゴリゴリ計算
𝛼 𝑎 𝑠 はKへの出現確率 𝐾 = 𝐴.
𝜋→0(確率)のとき報酬発生で勾配はK倍,𝜋→1のとき報酬発生で勾配0
ゼミ資料
バリアンスを下げるテクニック
12
[Weight Capping]
• シンプルに上限を設定
[Normalized Importance Sampling(NIS)]
[TRPO]
• 新旧⽅策で KLダイバージェンス<𝛿 以下に抑える制約付き最適化問題
を解くことによってロバストに⽅策を更新
一次近似はしたが,方策が全然違
う時に分散が大きくなる
cの値が小さいほど分散は下げるが,バイアスが増える
nが増加すると学習率を調整することに相当
ゼミ資料
探索
• 有名な⼿法に𝜖-greedyがあるが,数100万オーダーの空
間には無理がある
• softmaxの計算もオーバーヘッド
• 探索と活⽤のアプローチとして,Top-KからKʼ, M-Kʼから
K-Kʼサンプリング
13
[12] Nathaniel D Daw, John P O’doherty, Peter Dayan, Ben Seymour, and Raymond J Dolan. 2006. Cortical substrates for exploratory decisions
in humans. Nature 441, 7095 (2006), 876
ボルツマン探索[12]を使用
効率的最近傍法でM
個の候補を検索
SoftmaxでTop-K
の算出
SoftmaxからTop 1~6
items
K=8, K’=2のとき
上以外のMから 2 items
ゼミ資料
実験1 (off-policyの有効性)
• アイテムを10個⽤意する 𝒜 = {𝑎𝑖, 𝑖 = 1, … , 10}
• 報酬はアイテムのindexと対応 𝑟 𝑎5 = 𝑖
• ⾏動(推薦)は1つのアイテムのみ
• 挙動⽅策𝛽(𝑎|𝑠)はindexの⼩さいアイテムを優先的に選ぶ
14
off-policy修正なし off-policy修正あり
𝜋(s)
探索の方策が悪くても,その影響を受けずに学習可能
ゼミ資料
実験2 Top-K補正の有効性
• アイテムは同じく10個⽤意する 𝒜 = {𝑎𝑖, 𝑖 = 1, … , 10}
• 報酬は⼀部だけ⾼い 𝑟 𝑎6 = 10, 𝑟 𝑎7 = 9 他は1
• 複数アイテム推薦可能
• 挙動⽅策𝛽(𝑎|𝑠)は⼀様分布
15
𝜋(s)
Top-K補正なし Top-K補正あり
Top-k補正を使用した方がより多くの報酬
ゼミ資料
YouTubeでの実証実験
• ViewTime(ユーザが動画を⾒てる時間)を指標として考
える
• Control ⾏動⽅策(恐らくβ)
• Experiment 学習した⽅策
16
推薦動画をインプレッション高い順に並べた累積分布
off-policy有効性実験と同じく,
剥離が起きている
ViewTimeに有意差は無いが,
動画の視聴数が0.53%増加
ゼミ資料
YouTubeでの実証実験
• Top-Kアクションの数の⽐較実験
• 5⽇間の実験
17
K=16をベースラインとしたKの比較
追実験にてk=8の場合には,
+0.15%増加したらしい
ゼミ資料
YouTubeでの実証実験
• バリアンス削除⼿法の効果の検証
• Weight Cappingが最⼤の効果
• その他⼿法(NIS, TRPO)をプラスしても改善は⾒られず
• 考察として,たまたま⾼い報酬を受け取った少数の⾏動に
オーバフィットすることを防げたからだと説明
18
Weight Cappingを使用しないとViewTimeが
0.52%減少
ログの方策
学習中の方策
ゼミ資料
まとめ
• YouTubeで使⽤されている強化学習を⽤いた推薦システム
の実装の紹介論⽂
• REINFORCEを数100万オーダーにスケールアップし,
off-policy補正,Top-K補正を適⽤
• 実運⽤を通して提案⼿法の有⽤性を⽰した
• 推薦システムへの強化学習の適⽤可能性を⽰した
19

More Related Content

PDF
情報幾何勉強会 EMアルゴリズム
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PPTX
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
PPTX
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
PPTX
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
PDF
[DL輪読会]近年のエネルギーベースモデルの進展
PPTX
[DL輪読会]World Models
PDF
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
情報幾何勉強会 EMアルゴリズム
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]World Models
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用

What's hot (20)

PPTX
識別モデルと生成モデルと損失データ
PDF
[DL輪読会]YOLO9000: Better, Faster, Stronger
PDF
機械学習のためのベイズ最適化入門
PDF
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
PDF
Rでisomap(多様体学習のはなし)
PDF
方策勾配型強化学習の基礎と応用
PDF
論文紹介-Multi-Objective Deep Reinforcement Learning
PDF
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
PDF
Active Learning 入門
PDF
Off policy evaluation
PDF
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PDF
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
PDF
GAN(と強化学習との関係)
PDF
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
PDF
負の二項分布について
PDF
強化学習の基礎的な考え方と問題の分類
PDF
機械学習におけるオンライン確率的最適化の理論
PDF
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
PDF
PRMLの線形回帰モデル(線形基底関数モデル)
識別モデルと生成モデルと損失データ
[DL輪読会]YOLO9000: Better, Faster, Stronger
機械学習のためのベイズ最適化入門
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Rでisomap(多様体学習のはなし)
方策勾配型強化学習の基礎と応用
論文紹介-Multi-Objective Deep Reinforcement Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
Active Learning 入門
Off policy evaluation
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
GAN(と強化学習との関係)
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
負の二項分布について
強化学習の基礎的な考え方と問題の分類
機械学習におけるオンライン確率的最適化の理論
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
PRMLの線形回帰モデル(線形基底関数モデル)
Ad

Similar to Top-K Off-Policy Correction for a REINFORCE Recommender System (20)

PDF
「これからの強化学習」勉強会#2
PDF
[Dl輪読会]introduction of reinforcement learning
PDF
強化学習の実適用に向けた課題と工夫
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
PDF
強化学習その2
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
「これからの強化学習」勉強会#1
PDF
Computational Motor Control: Reinforcement Learning (JAIST summer course)
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PDF
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
PPTX
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
PDF
実機で動かす深層強化学習(画像なし)
PDF
強化学習とは (MIJS 分科会資料 2016/10/11)
PDF
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PPTX
RL_chapter1_to_chapter4
PPTX
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
PDF
"Playing Atari with Deep Reinforcement Learning"
PDF
Beta policy-gunosy
 
PDF
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
「これからの強化学習」勉強会#2
[Dl輪読会]introduction of reinforcement learning
強化学習の実適用に向けた課題と工夫
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習その2
強化学習と逆強化学習を組み合わせた模倣学習
「これからの強化学習」勉強会#1
Computational Motor Control: Reinforcement Learning (JAIST summer course)
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
実機で動かす深層強化学習(画像なし)
強化学習とは (MIJS 分科会資料 2016/10/11)
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
RL_chapter1_to_chapter4
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
"Playing Atari with Deep Reinforcement Learning"
Beta policy-gunosy
 
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【DLゼミ】Generative Image Dynamics, CVPR2024
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
Generating Automatic Feedback on UI Mockups with Large Language Models
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone

Top-K Off-Policy Correction for a REINFORCE Recommender System