SlideShare a Scribd company logo
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Batch Reinforcement Learning
強化学習アーキテクチャ勉強会
January., 2020
Takuma Oda
Mobility Intelligence Development Dept.
Automotive Business Unit
DeNA Co., Ltd.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
2
背景
なぜ従来のアルゴリズムでは学習できないのか?
アルゴリズム紹介:NAS, BCQ, BEAR-QL
1
2
3
まとめ4
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
3
背景
なぜ従来のアルゴリズムでは学習できないのか?
アルゴリズム紹介:NAS, BCQ, BEAR-QL
1
2
3
まとめ4
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Challenges of Real-World Reinforcement Learning
1. Training off-line from the fixed logs of an external behavior policy.
2. Learning on the real system from limited samples.
3. High-dimensional continuous state and action spaces.
4. Safety constraints that should never or at least rarely be violated.
5. Tasks that may be partially observable, alternatively viewed as non-stationary or
stochastic.
6. Reward functions that are unspecified, multi-objective, or risk-sensitive.
7. System operators who desire explainable policies and actions.
8. Inference that must happen in real-time at the control frequency of the system.
9. Large and/or unknown delays in the system actuators, sensors, or rewards.
G. Dulac-Arnold, D. Mankowitz, and T. Hester. Challenges of Real-World Reinforcement Learning.
arXiv e-prints, art. arXiv:1904.12901, Apr 2019.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Challenges of Real-World Reinforcement Learning
1. すでに収集された固定のログから学習
2. 高次元、連続的な状態、行動空間
3. 安全面における制約
4. 部分観測タスク
5. 報酬設計:複数の目的関数、リスク選好
6. 方策の説明可能性
7. 推論の応答性
8. 状態、行動、報酬取得の大幅な遅れ
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Data-Driven Deep Reinforcement Learning
 スタティックなデータセットから汎用モデルを学習する機械学習タスクと異なり、強化学習は実
験(学習)ごとにオンラインで環境に対して相互作用しながらデータ収集が必要
 自動運転、ロボットなどの多くの実世界の問題では正確なシミュレーション環境を作ることが難
しいが、実環境からのデータ収集はコストや安全性、時間的にハードルが高い
 ほとんどのアプリケーションではすでになんらかの方策によって相互作用して収集した大量の
データが手元にある
=> このデータセットを強化学習に活用することができれば、汎用的なモデルを学習しやすくなる上、
シミュレータレスで学習が可能となり、社会実装への道が一気に広がる
https://bair.berkeley.edu/blog/2019/12/05/bear/
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Batch RL / Fully Off-policy RL
 環境との相互作用を一切行わず、固定のデータセット(過去に別の方策を使って収集した報酬を
含むデータ)のみから最適な方策を学習
e.g. 人間の行動、すでにデプロイされたヒューリスティックな方策など
 Behavioral cloning / Imitation Learning / Inverse RL
⁃ 報酬データが得られない場合やデータ収集用の方策の質が高ければ有効なアプローチ
⁃ Distributional shiftに対応するため、GAILなど多くのアルゴリズムでは追加のデータ収集が必要
 “Off-policy” Deep RL
⁃ Fully off-policyの条件下では上手く学習が進まない
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
8
背景
なぜ従来のアルゴリズムでは学習できないのか?
アルゴリズム紹介:NAS, BCQ, BEAR-QL
1
2
3
まとめ4
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
“Off-policy” Deep RL
 前提知識
⁃ Q-learningのようなoff-policyアルゴリズムは、原則としては、どのような方策でデータ収集を
行っても最適な方策の学習が可能
⁃ 近年のモダンなoff-policy deep RL アルゴリズムはExperience Memoryにデータを貯めておき、
データ収集と学習を交互に行う
⁃ 行動方策は near-on-policy exploratory policy: e.g) e-greedy
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
 実験条件
⁃ Final Buffer
• DDPGを学習するまでの全ての遷移を保存
• 初期〜最適方策までの幅広いstate-actionを網羅
⁃ Concurrent
• Behavioral DDPGとoff-policy DDPGを同時に学習
• どちらも同一のデータセットから学習
⁃ Imitation
• 学習後のDDPGをエキスパートとしてデータ生成
 結果
⁃ 全ての条件(Concurrentでさえ)でoff-policyはbehavioralに比べて優位に悪いパフォーマンス
⁃ 初期方策における状態分布の違いだけでパフォーマンスに大きく影響する
Off-Policy Deep Reinforcement Learning without Exploration
Scott Fujimoto, David Meger, Doina Precup ; ICML, 2019.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Mean squared Bellman error
 Bellman equation
 Mean squared Bellman error
⁃ 多くのアルゴリズム(DDPG, SAC)では学習する価値関数のロス関数としてMSBEを用いる
⁃ バッチデータのサンプルで計算されたロスはバッチ中の状態行動分布( state-action visitation
distribution)で平均されている
⁃ 本来最小化したいロスは学習中の方策における状態行動分布で平均されたもの
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Extrapolation Error / Bootstrapping Error
 データに存在しないstate-actionの価値を誤って非現実な値に見積もってしまう
 maxオペレーションにより価値の過大評価が起こる
 On-policyではこの ”optimism in the face of uncertainty” が有益なexplorationとなるため、結果として
不確実性の高い状態周辺のデータがより優先的に収集されるようになり、推定価値が是正される
 Off-policyでは新たなデータ収集が行われないため、extrapolation errorを是正できない
バッチの行動分布
推定価値
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
13
背景
なぜ従来のアルゴリズムでは学習できないのか?
アルゴリズム紹介:NAS, BCQ, BEAR-QL
1
2
3
まとめ4
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Reinforcement Learning from Imperfect Demonstrations
Y Gao, J Lin, F Yu, S Levine, T Darrell ; ICML, 2018.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Method
ある状態において悪い行動のデータが観測されな
かった場合、行動自体が適切だったのか、もしく
はその状態において全ての行動が良かったのかど
うか判別できない
=> 観測されていない行動のQが上昇するのを抑制
したい
 Soft V*とQ*, π*が満たす関係を制約し、
Maximum Entropy RLの目的関数から導出
 PG勾配はQ(s,a)を上昇させるときにはV(s)を減
少させようとする
 V(s)を減少させることは、VとQのsoftmaxの制
約により、観測されていない行動のQを減少さ
せる働きを持つ
この項がSoft Q-learningとの差
Soft V*とQ*, π*が満たす関係
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Normalized Actor-Critic
Soft Q-learningとの違いは勾配のみ
予めReplay bufferとして収集したデモンスト
レーションデータを用意しておく
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
 Torcs(レースゲーム): 画像入力(状態)、離散行動
 学習済みのエキスパート方策からデータセットを作成し、DQfDやBC(cross entropy)などと比較
デモンストレーションデータのみから学習 事前学習後に環境で学習
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
 一部のデータを欠陥させた実験(行動をargmin Q(s,a)に置換)
デモンストレーションを30%欠陥させて学習 10000遷移のみのデモンストレーションから学習
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Off-Policy Deep Reinforcement Learning without Exploration
Scott Fujimoto, David Meger, Doina Precup ; ICML, 2019.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Method
 方針
⁃ バッチデータの状態行動分布からサンプリングし、その中で最も価値の高い行動を選択
 Generative Model
⁃ バッチデータの行動方策を再現する生成モデル(Conditional VAE)を学習する
 Perturbation network
⁃ (行動が連続値であるため)生成モデルのサンプリングを抑えるためにサンプリングされた
行動値aから[-Φ, Φ]の範囲で最も行動価値が高い行動値に調整する
⁃ DDPGと同様にQ-networkの出力を最大化するように学習
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Method
 Clipped Double Q-learning
⁃ 未来の不確定性に対してペナルティを与えるため、二つのQ-networkの最小値をターゲットに
使うClipped Double Q-learningを踏襲し、min側に比重を置いたsoft minimumを使う
⁃ パラメータλで不確定性のペナルティ度合いを調整できる
 Policy
⁃ 生成モデルからサンプリングして、Perturbation networkで微調整した行動の中で最も行動価
値の高い行動を選択する
⁃ n, Φにより模倣学習と強化学習のトレードオフを調整できる
⁃ Φ=0, n=1であればbehavioral cloning、n->∞でQ-learning
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Batch-Constrained deep Q-learning
CVAEのEncoder, Decoderを更新
生成モデルから次状態s’における行動を
n個サンプリング
Perturbation networkでサンプリングされた
行動値を調整
target networksのsoft minimumによる
ターゲットを算出し、Q-networkを更新
Perturbation networkを更新
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
全てのタスクでBCQがBehavioralと同等以上を達成
ImitationタスクではBC(Behavioral Cloning)がベスト
Imperfect demonstrationsでは圧倒的にBCQが優位
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Stabilizing Off-Policy Q-Learning via Bootstrapping
Error Reduction
Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine; NeurIPS, 2019.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Support Constraint
 BCQはBehavioral Cloningと同様に学習する方策が元の行動方策の分布に近くなるように(暗に)制
限していたが、これは制限が強すぎる
 例えば完全にランダムな方策から学習された方策は原理的には(サンプル数が十分あれば)最適
な方策が学習できるはずだが、BCQだと元の方策に近くなってしまう
 バッチデータの方策のsupportが一致する、つまりバッチ方策が一定確率以下の行動は学習方策で
も確率が0となるような方策に制限する
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Maximum Mean Discrepancy (MMD)
 どのように学習方策に対してSupport constraintを適応できるか
 サンプルした行動間のMMD距離をsupport constraint充足の指標に使う
 少ないサンプル数(<10)で計算したMMDにより二つの分布のサポートの違いを判別可能であるこ
とを実験的に確認(サンプル数が多すぎると分布一致の制約となってしまう)
 MMDがε以下という制約のもと、Dual gradient descentで方策のパラメータを更新
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
BEAR Q-learning
 5. BCQを拡張して、K個のQ-networkのsot minimumをターゲットとして使う
 8. MMD制約のもとDual gradient descentで方策のパラメータを更新
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
 準最適な方策(学習途中のモデル)から生成したデータをバッチデータとして比較
 BEAR-QLはBCQを上回る性能
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
 MMDの代わりにKL Divergenceを用いた場合
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
30
背景
なぜ従来のアルゴリズムでは学習できないのか?
アルゴリズム紹介:NAS, BCQ, BEAR-QL
1
2
3
まとめ4
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Summary
 総論
⁃ バッチ強化学習が上手く機能すれば、シミュレーションに頼らずに学習が可能となり、Sim2Real Gapに悩まされるこ
とがなくなる
⁃ Fully off-policy の条件ではExtrapolation Errorによって従来のアルゴリズムでは学習が上手く進まない
⁃ バッチ強化学習のアルゴリズムは本発表で紹介した手法以外にも多くの手法が提案されている
 実世界の適用に向けて
⁃ シミュレーションを用いずに、バッチデータを使って新しい方策のパフォーマンスを評価する手法が必要( Off-
policy Policy Evaluation)
⁃ ほとんどのアプリケーションでは、実世界にデプロイする前に、ケースや条件ごとのテストは必要
=> 結局ある程度のシミュレータは必要?
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
参考文献
 G. Dulac-Arnold, D. Mankowitz, and T. Hester. Challenges of Real-World Reinforcement Learning. ICML, 2019.
 Yang Gao, Huazhe Xu, Ji Lin, Fisher Yu, Sergey Levine, and Trevor Darrell. Reinforcement learning from imperfect
demonstrations. ICML, 2018.
 Scott Fujimoto, David Meger, and Doina Precup. Off-policy deep reinforcement learning without exploration. ICML,
2019.
 Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. Stabilizing off-policy q-learning via bootstrapping error
reduction. NeurIPS, 2019.

More Related Content

PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
PPTX
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
PDF
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
PDF
[DL輪読会]Disentangling by Factorising
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
PDF
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
オープンソース SLAM の分類
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
[DL輪読会]Disentangling by Factorising
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
オープンソース SLAM の分類

What's hot (20)

PDF
第3回NIPS読み会・関西発表資料
PDF
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
PDF
20190825 vins mono
PDF
言語表現モデルBERTで文章生成してみた
PDF
コンピュータビジョンの研究開発状況
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
PDF
Object as Points
PPTX
adversarial training.pptx
PDF
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PDF
多様な強化学習の概念と課題認識
PPTX
強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
PDF
【DL輪読会】Vision-Centric BEV Perception: A Survey
PDF
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
PPTX
強化学習アルゴリズムPPOの解説と実験
PPTX
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
PDF
[DL輪読会]End-to-end Recovery of Human Shape and Pose
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PDF
【DL輪読会】Implicit Behavioral Cloning
第3回NIPS読み会・関西発表資料
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
20190825 vins mono
言語表現モデルBERTで文章生成してみた
コンピュータビジョンの研究開発状況
[DL輪読会] マルチエージェント強化学習と心の理論
Object as Points
adversarial training.pptx
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
多様な強化学習の概念と課題認識
強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
【DL輪読会】Vision-Centric BEV Perception: A Survey
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
強化学習アルゴリズムPPOの解説と実験
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
【DL輪読会】Implicit Behavioral Cloning
Ad

Similar to Batch Reinforcement Learning (20)

PDF
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
PPTX
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
PDF
Active Learning の基礎と最近の研究
PPTX
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
PPTX
Icml2018読み会_overview&GANs
PDF
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
PPTX
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
PPTX
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
PDF
FPGA, AI, エッジコンピューティング
PDF
Generative Adversarial Networks (GAN) @ NIPS2017
PDF
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
PDF
ディープラーニングでラーメン二郎(全店舗)を識別してみた
PDF
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PDF
Logicadの秒間16万リクエストをさばく広告入札システムにおける、gRPCの活用事例
PDF
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
PDF
Wandb Monthly Meetup August 2023.pdf
PPTX
How to organize data science project (データサイエンスプロジェクトの始め方101)
PDF
第9回ACRiウェビナー_日立/島田様ご講演資料
PPTX
なにわテック20180127
PDF
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
Active Learning の基礎と最近の研究
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
Icml2018読み会_overview&GANs
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
FPGA, AI, エッジコンピューティング
Generative Adversarial Networks (GAN) @ NIPS2017
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
ディープラーニングでラーメン二郎(全店舗)を識別してみた
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
Logicadの秒間16万リクエストをさばく広告入札システムにおける、gRPCの活用事例
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
Wandb Monthly Meetup August 2023.pdf
How to organize data science project (データサイエンスプロジェクトの始め方101)
第9回ACRiウェビナー_日立/島田様ご講演資料
なにわテック20180127
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ad

More from Takuma Oda (7)

PDF
AI技術共有会2025-06-05_DeepResearchの理解と実践.pdf
PDF
Drive-by Sensingによる都市のモニタリング
PDF
交通ゲーム理論入門
PDF
WWW 2021report public
PPTX
Reinforcement Learning For Taxi Rebalancing
PPTX
INFOCOM 2018 Talk: MOVI
PDF
機械学習を活用したモビリティサービスの地図データ整備
AI技術共有会2025-06-05_DeepResearchの理解と実践.pdf
Drive-by Sensingによる都市のモニタリング
交通ゲーム理論入門
WWW 2021report public
Reinforcement Learning For Taxi Rebalancing
INFOCOM 2018 Talk: MOVI
機械学習を活用したモビリティサービスの地図データ整備

Batch Reinforcement Learning

  • 1. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Batch Reinforcement Learning 強化学習アーキテクチャ勉強会 January., 2020 Takuma Oda Mobility Intelligence Development Dept. Automotive Business Unit DeNA Co., Ltd.
  • 2. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次 2 背景 なぜ従来のアルゴリズムでは学習できないのか? アルゴリズム紹介:NAS, BCQ, BEAR-QL 1 2 3 まとめ4
  • 3. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次 3 背景 なぜ従来のアルゴリズムでは学習できないのか? アルゴリズム紹介:NAS, BCQ, BEAR-QL 1 2 3 まとめ4
  • 4. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Challenges of Real-World Reinforcement Learning 1. Training off-line from the fixed logs of an external behavior policy. 2. Learning on the real system from limited samples. 3. High-dimensional continuous state and action spaces. 4. Safety constraints that should never or at least rarely be violated. 5. Tasks that may be partially observable, alternatively viewed as non-stationary or stochastic. 6. Reward functions that are unspecified, multi-objective, or risk-sensitive. 7. System operators who desire explainable policies and actions. 8. Inference that must happen in real-time at the control frequency of the system. 9. Large and/or unknown delays in the system actuators, sensors, or rewards. G. Dulac-Arnold, D. Mankowitz, and T. Hester. Challenges of Real-World Reinforcement Learning. arXiv e-prints, art. arXiv:1904.12901, Apr 2019.
  • 5. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Challenges of Real-World Reinforcement Learning 1. すでに収集された固定のログから学習 2. 高次元、連続的な状態、行動空間 3. 安全面における制約 4. 部分観測タスク 5. 報酬設計:複数の目的関数、リスク選好 6. 方策の説明可能性 7. 推論の応答性 8. 状態、行動、報酬取得の大幅な遅れ
  • 6. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Data-Driven Deep Reinforcement Learning  スタティックなデータセットから汎用モデルを学習する機械学習タスクと異なり、強化学習は実 験(学習)ごとにオンラインで環境に対して相互作用しながらデータ収集が必要  自動運転、ロボットなどの多くの実世界の問題では正確なシミュレーション環境を作ることが難 しいが、実環境からのデータ収集はコストや安全性、時間的にハードルが高い  ほとんどのアプリケーションではすでになんらかの方策によって相互作用して収集した大量の データが手元にある => このデータセットを強化学習に活用することができれば、汎用的なモデルを学習しやすくなる上、 シミュレータレスで学習が可能となり、社会実装への道が一気に広がる https://bair.berkeley.edu/blog/2019/12/05/bear/
  • 7. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Batch RL / Fully Off-policy RL  環境との相互作用を一切行わず、固定のデータセット(過去に別の方策を使って収集した報酬を 含むデータ)のみから最適な方策を学習 e.g. 人間の行動、すでにデプロイされたヒューリスティックな方策など  Behavioral cloning / Imitation Learning / Inverse RL ⁃ 報酬データが得られない場合やデータ収集用の方策の質が高ければ有効なアプローチ ⁃ Distributional shiftに対応するため、GAILなど多くのアルゴリズムでは追加のデータ収集が必要  “Off-policy” Deep RL ⁃ Fully off-policyの条件下では上手く学習が進まない
  • 8. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次 8 背景 なぜ従来のアルゴリズムでは学習できないのか? アルゴリズム紹介:NAS, BCQ, BEAR-QL 1 2 3 まとめ4
  • 9. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. “Off-policy” Deep RL  前提知識 ⁃ Q-learningのようなoff-policyアルゴリズムは、原則としては、どのような方策でデータ収集を 行っても最適な方策の学習が可能 ⁃ 近年のモダンなoff-policy deep RL アルゴリズムはExperience Memoryにデータを貯めておき、 データ収集と学習を交互に行う ⁃ 行動方策は near-on-policy exploratory policy: e.g) e-greedy
  • 10. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment  実験条件 ⁃ Final Buffer • DDPGを学習するまでの全ての遷移を保存 • 初期〜最適方策までの幅広いstate-actionを網羅 ⁃ Concurrent • Behavioral DDPGとoff-policy DDPGを同時に学習 • どちらも同一のデータセットから学習 ⁃ Imitation • 学習後のDDPGをエキスパートとしてデータ生成  結果 ⁃ 全ての条件(Concurrentでさえ)でoff-policyはbehavioralに比べて優位に悪いパフォーマンス ⁃ 初期方策における状態分布の違いだけでパフォーマンスに大きく影響する Off-Policy Deep Reinforcement Learning without Exploration Scott Fujimoto, David Meger, Doina Precup ; ICML, 2019.
  • 11. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Mean squared Bellman error  Bellman equation  Mean squared Bellman error ⁃ 多くのアルゴリズム(DDPG, SAC)では学習する価値関数のロス関数としてMSBEを用いる ⁃ バッチデータのサンプルで計算されたロスはバッチ中の状態行動分布( state-action visitation distribution)で平均されている ⁃ 本来最小化したいロスは学習中の方策における状態行動分布で平均されたもの
  • 12. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Extrapolation Error / Bootstrapping Error  データに存在しないstate-actionの価値を誤って非現実な値に見積もってしまう  maxオペレーションにより価値の過大評価が起こる  On-policyではこの ”optimism in the face of uncertainty” が有益なexplorationとなるため、結果として 不確実性の高い状態周辺のデータがより優先的に収集されるようになり、推定価値が是正される  Off-policyでは新たなデータ収集が行われないため、extrapolation errorを是正できない バッチの行動分布 推定価値
  • 13. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次 13 背景 なぜ従来のアルゴリズムでは学習できないのか? アルゴリズム紹介:NAS, BCQ, BEAR-QL 1 2 3 まとめ4
  • 14. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Reinforcement Learning from Imperfect Demonstrations Y Gao, J Lin, F Yu, S Levine, T Darrell ; ICML, 2018.
  • 15. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Method ある状態において悪い行動のデータが観測されな かった場合、行動自体が適切だったのか、もしく はその状態において全ての行動が良かったのかど うか判別できない => 観測されていない行動のQが上昇するのを抑制 したい  Soft V*とQ*, π*が満たす関係を制約し、 Maximum Entropy RLの目的関数から導出  PG勾配はQ(s,a)を上昇させるときにはV(s)を減 少させようとする  V(s)を減少させることは、VとQのsoftmaxの制 約により、観測されていない行動のQを減少さ せる働きを持つ この項がSoft Q-learningとの差 Soft V*とQ*, π*が満たす関係
  • 16. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Normalized Actor-Critic Soft Q-learningとの違いは勾配のみ 予めReplay bufferとして収集したデモンスト レーションデータを用意しておく
  • 17. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment  Torcs(レースゲーム): 画像入力(状態)、離散行動  学習済みのエキスパート方策からデータセットを作成し、DQfDやBC(cross entropy)などと比較 デモンストレーションデータのみから学習 事前学習後に環境で学習
  • 18. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment  一部のデータを欠陥させた実験(行動をargmin Q(s,a)に置換) デモンストレーションを30%欠陥させて学習 10000遷移のみのデモンストレーションから学習
  • 19. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Off-Policy Deep Reinforcement Learning without Exploration Scott Fujimoto, David Meger, Doina Precup ; ICML, 2019.
  • 20. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Method  方針 ⁃ バッチデータの状態行動分布からサンプリングし、その中で最も価値の高い行動を選択  Generative Model ⁃ バッチデータの行動方策を再現する生成モデル(Conditional VAE)を学習する  Perturbation network ⁃ (行動が連続値であるため)生成モデルのサンプリングを抑えるためにサンプリングされた 行動値aから[-Φ, Φ]の範囲で最も行動価値が高い行動値に調整する ⁃ DDPGと同様にQ-networkの出力を最大化するように学習
  • 21. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Method  Clipped Double Q-learning ⁃ 未来の不確定性に対してペナルティを与えるため、二つのQ-networkの最小値をターゲットに 使うClipped Double Q-learningを踏襲し、min側に比重を置いたsoft minimumを使う ⁃ パラメータλで不確定性のペナルティ度合いを調整できる  Policy ⁃ 生成モデルからサンプリングして、Perturbation networkで微調整した行動の中で最も行動価 値の高い行動を選択する ⁃ n, Φにより模倣学習と強化学習のトレードオフを調整できる ⁃ Φ=0, n=1であればbehavioral cloning、n->∞でQ-learning
  • 22. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Batch-Constrained deep Q-learning CVAEのEncoder, Decoderを更新 生成モデルから次状態s’における行動を n個サンプリング Perturbation networkでサンプリングされた 行動値を調整 target networksのsoft minimumによる ターゲットを算出し、Q-networkを更新 Perturbation networkを更新
  • 23. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment 全てのタスクでBCQがBehavioralと同等以上を達成 ImitationタスクではBC(Behavioral Cloning)がベスト Imperfect demonstrationsでは圧倒的にBCQが優位
  • 24. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine; NeurIPS, 2019.
  • 25. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Support Constraint  BCQはBehavioral Cloningと同様に学習する方策が元の行動方策の分布に近くなるように(暗に)制 限していたが、これは制限が強すぎる  例えば完全にランダムな方策から学習された方策は原理的には(サンプル数が十分あれば)最適 な方策が学習できるはずだが、BCQだと元の方策に近くなってしまう  バッチデータの方策のsupportが一致する、つまりバッチ方策が一定確率以下の行動は学習方策で も確率が0となるような方策に制限する
  • 26. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Maximum Mean Discrepancy (MMD)  どのように学習方策に対してSupport constraintを適応できるか  サンプルした行動間のMMD距離をsupport constraint充足の指標に使う  少ないサンプル数(<10)で計算したMMDにより二つの分布のサポートの違いを判別可能であるこ とを実験的に確認(サンプル数が多すぎると分布一致の制約となってしまう)  MMDがε以下という制約のもと、Dual gradient descentで方策のパラメータを更新
  • 27. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. BEAR Q-learning  5. BCQを拡張して、K個のQ-networkのsot minimumをターゲットとして使う  8. MMD制約のもとDual gradient descentで方策のパラメータを更新
  • 28. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment  準最適な方策(学習途中のモデル)から生成したデータをバッチデータとして比較  BEAR-QLはBCQを上回る性能
  • 29. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment  MMDの代わりにKL Divergenceを用いた場合
  • 30. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次 30 背景 なぜ従来のアルゴリズムでは学習できないのか? アルゴリズム紹介:NAS, BCQ, BEAR-QL 1 2 3 まとめ4
  • 31. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Summary  総論 ⁃ バッチ強化学習が上手く機能すれば、シミュレーションに頼らずに学習が可能となり、Sim2Real Gapに悩まされるこ とがなくなる ⁃ Fully off-policy の条件ではExtrapolation Errorによって従来のアルゴリズムでは学習が上手く進まない ⁃ バッチ強化学習のアルゴリズムは本発表で紹介した手法以外にも多くの手法が提案されている  実世界の適用に向けて ⁃ シミュレーションを用いずに、バッチデータを使って新しい方策のパフォーマンスを評価する手法が必要( Off- policy Policy Evaluation) ⁃ ほとんどのアプリケーションでは、実世界にデプロイする前に、ケースや条件ごとのテストは必要 => 結局ある程度のシミュレータは必要?
  • 32. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 参考文献  G. Dulac-Arnold, D. Mankowitz, and T. Hester. Challenges of Real-World Reinforcement Learning. ICML, 2019.  Yang Gao, Huazhe Xu, Ji Lin, Fisher Yu, Sergey Levine, and Trevor Darrell. Reinforcement learning from imperfect demonstrations. ICML, 2018.  Scott Fujimoto, David Meger, and Doina Precup. Off-policy deep reinforcement learning without exploration. ICML, 2019.  Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. Stabilizing off-policy q-learning via bootstrapping error reduction. NeurIPS, 2019.

Editor's Notes

  • #13: 推定行動価値Q(s, a)はバッチデータに含まれない(s’, a‘)の推定価値Q(s’, a’)に影響されるが、Q(s’, a’)の精度は全く保証されていないため、maxオペレーションにより価値の過大評価が起こり、結果的にエラーが蓄積かつ伝播する