強化学習
2
前半パートの流れ
1章 強化学習のための準備
2章 動的計画法(強化学習のための準備)
3章 探索と活用のトレードオフ
ここから強化学習
4章 モデルフリー強化学習
5章 モデルベース強化学習
6章 関数近似を用いた強化学習
後半パート(来週以降)
7章 部分観測マルコフ決定過程
8章 深層強化学習
3
1章 流れ
• 強化学習とは
• マルコフ性
• マルコフ決定過程
• マルコフ決定過程の時間発展
• 目的関数
• 方策
4
強化学習(Reinforcement Learning) とは
最適な意思決定ルールを求めることを目的とする機械学習の一分野
一般的には,エージェント(行動主体)が累積報酬和の期待値を最大化するような
逐次的意思決定ルール(方策)を学習することが目的
例:キャンペーン最適化問題
ある小売店において,値下げセールなどのキャンペーンをいつ実施すれば,
売り上げの長期平均を最大にできるか
購買意欲
low
購買意欲
mid
購買意欲
high
キャンペーンを実施する
売上=10
実施しない
売上=0
実施しない
売上=0
実施する
売上=4
実施する
売上=1
実施しない
売上=3
5
例:キャンペーン最適化問題
エージェント:キャンペーンを実施するか否かを決める主体
環境:購買意欲の状態遷移
行動:キャンペーンを実施する or しない
状態:客の購買意欲
報酬:売り上げ
方策:各状態において実施するか否かの戦略
購買意欲
低
購買意欲
中
購買意欲
高
キャンペーンを実施する
売上=10
実施しない
売上=0
実施しない
売上=0
実施する
売上=4
実施する
売上=1
実施しない
売上=3
赤矢印が最適な方策
6
強化学習(Reinforcement Learning) とは
この例では,現在の客の購買意欲(状態)に基づいて,キャンペーンを
実施するか否か(行動)によって変化する客の購買意欲(次状態)や得られる
売り上げ(報酬)は既知であるので,最適な方策を簡単に求めることがで
きる(環境が既知である)
環境が既知であれば強化学習でなくとも解ける(2章)
強化学習では環境が未知である問題を扱う
現実の環境が未知である方策の最適化問題は,複雑で簡単には解けない
→ 強化学習では環境に対してマルコフ性という仮定
7
マルコフ性とは
【マルコフ性】
将来の確率変数の条件付き確率分布は現時間ステップ t の値のみに依存
例:サイコロを振って出た目
X1 X2 X 𝟑 X 𝟒 X 𝟓
t回目に出た目 3 1 2 4 1
t回目までに出た目の
最大値
3 3 3 4 4
t回目までに出た目の
中央値
3 2 2 2.5 2
i.i.d
マルコフ性
強化学習では一般的にマルコフ性が成立する状態を観測できるマルコフ決定過程
(確率制御過程)に対する学習法を考える
状態遷移確率
全過去に依存
8
(離散時間)マルコフ決定過程 M(π)={𝑆, 𝐴, 𝑝𝑠0
, 𝑝 𝑇, g , π}
・有限状態集合:
・有限行動集合:
・初期状態確率関数:
・状態遷移確率関数:
・報酬関数:
・方策:
マルコフ決定過程(Markov Decision Process MDP)
連続状態(or 行動)集合における強化学習は6章で扱う
9
マルコフ決定過程の時間発展
𝑠0 𝑎0 𝑠1
1. 時間ステップ t を t=0 と初期化して,初期状態確率 𝑝𝑠0
に従い初期状態 𝑠0 を
観測する
2. 状態 𝑠t と方策 𝜋 ・ 𝑠𝑡 から,行動𝑎tを選択する
3. 行動 𝑎t を実行し,その結果として報酬関数 𝑔(𝑎t, 𝑠t) から定まる報酬 rt と,状
態遷移確率 𝑝 𝑇 ・ 𝑎t , 𝑠𝑡 から定まる次状態 st+1 を観測する
4. 時間ステップ t = t + 1 とし,手順1.に戻る
𝜋 𝑎0 𝑠0 𝑝 𝑇 𝑠1 𝑎0 , 𝑠0
…𝑝𝑠0
r0〜𝑔(𝑎0, 𝑠0)
10
強化学習とマルコフ決定過程
• マルコフ決定過程と強化学習の主目的
マルコフ決定過程で記述されるような制御対象のシステム(環境)に対して,期
待報酬などの目的関数を最大にするような最適な方策を求めること
マルコフ決定過程では環境を既知の問題を扱う(2章)
強化学習では環境が未知の問題を扱う(4章以降)
典型的には右図のように,エージェント(意思決定者)
が環境との相互作用から方策を学習する
環境
エージェント
行動 次状態・報酬
現状態
11
典型的な目的関数
• 典型的な問題設定では,期待報酬や期待割引累積報酬が目的関数として用い
られる
【期待報酬】 【期待割引累積報酬】(期待リターン)
は割引率
長期的な利益を尊重するなら,1に近づける
• これらの目的関数は,最適な方策を求める際,時間不変な(定常な)方策の
み考慮すれば良いという性質をもつ(後述)
12
方策にもいろいろある
強化学習の目標:目的関数を最大にする方策を求める
ひとくちに方策といっても単純なものから複雑なものまで様々な方策がある
• 決定的方策
• 確率的方策
• 定常な方策
• 非定常な方策
• マルコフ方策
• 履歴依存の方策
13
方策の分類
(確率的)方策の定義
方策集合
・決定的方策(deterministic policy)(確率的方策の部分集合)
14
方策の分類
𝜋 や 𝜋 𝑑
は,現状態 s のみに依存することからマルコフ方策といい,
時間ステップ t が進展しても方策は変化しないので,定常なマルコフ方策という
stationary
方策系列
・定常な決定的マルコフ方策集合の大きさ
15
方策の分類
・非定常なマルコフ方策(方策が時間変化する)
・非定常な決定的マルコフ方策系列の集合の大きさ
(時間ステップ長を T とする)
16
方策の分類
・履歴依存の方策
非マルコフ方策の中でも最も複雑で表現力の高い方策
現時間ステップ t までの全ての経験の履歴に基づいて行動選択確率を決める
履歴
・履歴依存の決定的方策系列の集合の大きさ
17
方策系列集合の包含関係
履歴依存の方策系列の集合
非定常なマルコフ方策系列の集合定常なマルコフ方策系列の集合
定常な決定的マルコフ方策系列の集合
※緑は確率的方策と仮定
例:状態数 𝑆 = 2,行動数 𝐴 = 2の有限長MDPにおける方策系列集合の大きさ
18
方策
包含関係から,方策系列を引数とする任意の目的関数に対して以下が成り立つ
上の関係式は,履歴依存の方策系列集合から最適な方策系列を求めることができ
ればそれより良い方策系列が存在しないことを示す
最適な方策を見つけるため,以下のような最適化問題が考えられる
一方で,履歴依存の方策系列集合のサイズは時間ステップ t に対して組み合わせ
爆発を起こすため,最適な方策系列を見つけるのは困難
実は,マルコフ方策のみ扱えば多くの場合で十分
19
マルコフ方策の妥当性
任意のマルコフ決定過程 M={𝑆, 𝐴, 𝑝𝑠0
, 𝑝 𝑇, g } と
履歴依存の方策系列 に対して,次を満たすような
マルコフ方策の系列 が存在する.
どんな履歴依存の非マルコフ方策で行動選択したとしても環境の重要な特徴であ
る各時間ステップ t での 𝑆𝑡 , 𝐴 𝑡 の同時確率は,より簡単な方策であるマルコフ方
策を用いても同様に表すことができる
これを用いて次が成り立つ ⇨ 次ページへ
20
マルコフ方策の十分性
同時周辺確率関数
方策 𝜋 の目的関数 𝑓 を同時周辺確率関数の系列 を引数とする
関数 𝑓 を用いて,任意の に対して
と表せるとき,
が成り立つ.
※
※の条件を満たす目的関数についてはマルコフ方策のみを最適化対象にすれば十
分である
21
マルコフ方策の十分性
※を満たす目的関数の例
・有限時間ステップ長Tまでの期待累積報酬
※を満たさない目的関数として,累積報酬の中央値や分位点などがある
22
ここまで
適切な条件を満たす目的関数であれば,それを最大化する方策集合を絞
れることがわかった
目的関数の性質について考える
23
リターン(割引累積報酬)の導入
リターンを用いた一般的な目的関数
リターン 𝐶 ∈ ℝ (確率変数)
・再帰的な構造をもつ
は割引率(ハイパーパラメータ)
長期的な利益を尊重するなら,1に近づける
24
価値関数の導入
価値関数とは
・ある状態 s からマルコフ方策 π に従い行動選択した場合の期待リターン
・ベルマン(期待)方程式(価値関数の再帰ver.)
25
価値関数のイメージ
𝑆𝑡𝑎𝑟𝑡
𝐺𝑜𝑎𝑙
例:移動ロボット(状態が離散)
𝑉(𝑠0)
𝑉(𝑠4)𝑉(𝑠3)
𝑉(𝑠1) 𝑉(𝑠2)
𝑉(𝑠5)
𝑉(𝑠6) 𝑉(𝑠7) 𝑉(𝑠8)
26
ベルマン期待方程式
𝑆 = {𝑠(0), 𝑠(1), 𝑠(2)}
𝐴 = {𝑎(0), 𝑎(1), 𝑎(2)}
𝑠0
(0)
𝑎0
(0)
𝑎0
(2)
𝑎0
(1)
𝑠1
(2)
𝑠1
(1)𝑠1
(0)
𝜋 𝑎0 𝑠0
𝑝 𝑇 𝑠1 𝑎0 , 𝑠0
𝑔(𝑎0, 𝑠0)
次ステップの状態
価値関数はこの時
点で定まっている
27
最適化問題の定式化
目的関数を最大化する最適方策を求める最適化問題として定式化
価値関数を用いると以下のように表せる
ある特定の初期状態
全ての初期状態についての重み付き和
この目的関数を最大化する方策は割引率γに依存する(証明略)
28
最適方策がγに依存しない目的関数
期待リターンの時間平均
・マルコフ連鎖 M={𝑆, 𝑝𝑠0
, 𝑝 𝑀𝐶
π
} が常にエルゴード性を満たす時, 𝑓∞を最大にする
最適方策はγに依存しない
・状態遷移確率
29
エルゴード性
マルコフ連鎖の既約的かつ非周期的である特性のこと
・既約性
マルコフ連鎖の任意の状態が互いに行き来可能
・非周期性
マルコフ連鎖の状態遷移は周期性を持たない
30
エルゴード性
• 定常分布
マルコフ連鎖がエルゴード性を満たす時に唯一の定常分布が存在する
・定常分布は初期状態確率 𝑝𝑠0
に依存しない
・時間ステップ t の状態分布の時間平均や極限に一致
31
最適方策がγに依存しない目的関数(続)
期待リターンの時間平均
・マルコフ連鎖 M={𝑆, 𝑝𝑠0
, 𝑝 𝑀𝐶
π
} が常にエルゴード性を満たす時, 𝑓∞を最大にする
最適方策はγ(割引率)に依存しない
より,
32
最適方策がγに依存しない目的関数(続)
より,
33
最適方策がγに依存しない目的関数(続)
目的関数:期待リターンの時間平均
• エルゴード性の下,「期待リターンの時間平均」の目的関数の最大化問題は,
「平均報酬」の最大化問題と同等
• この目的関数を最大化する最適方策は割引率γの設定に依存しない
定数

More Related Content

PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
PPTX
強化学習4章
PPTX
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
PPTX
ようやく分かった!最尤推定とベイズ推定
PDF
生成モデルの Deep Learning
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
強化学習その2
PDF
深層学習による非滑らかな関数の推定
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
強化学習4章
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
ようやく分かった!最尤推定とベイズ推定
生成モデルの Deep Learning
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
強化学習その2
深層学習による非滑らかな関数の推定

What's hot (20)

PDF
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
PDF
強化学習の基礎的な考え方と問題の分類
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PPTX
強化学習6章
PPTX
XAI (説明可能なAI) の必要性
PDF
深層生成モデルと世界モデル(2020/11/20版)
PDF
計算論的学習理論入門 -PAC学習とかVC次元とか-
PPTX
金融時系列のための深層t過程回帰モデル
PDF
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
PDF
はじパタ8章 svm
PPTX
深層学習の数理
PDF
「これからの強化学習」勉強会#1
PDF
Active Learning 入門
PDF
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
PDF
PRML輪読#1
PDF
PCAの最終形態GPLVMの解説
PDF
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PDF
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
強化学習の基礎的な考え方と問題の分類
強化学習と逆強化学習を組み合わせた模倣学習
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
強化学習6章
XAI (説明可能なAI) の必要性
深層生成モデルと世界モデル(2020/11/20版)
計算論的学習理論入門 -PAC学習とかVC次元とか-
金融時系列のための深層t過程回帰モデル
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
はじパタ8章 svm
深層学習の数理
「これからの強化学習」勉強会#1
Active Learning 入門
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
PRML輪読#1
PCAの最終形態GPLVMの解説
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
変分推論法(変分ベイズ法)(PRML第10章)
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
Ad

Similar to 強化学習1章 (20)

PPTX
RL_chapter1_to_chapter4
PPTX
ラビットチャレンジレポート 深層学習Day4
PDF
Study aiラビットチャレンジ 深層学習Day4
PPTX
Reinforcement learning section2
DOCX
レポート深層学習Day4
PDF
深層学習Day4レポート(小川成)
PDF
jsish20130308_hiroe
PPTX
Proposal of body movement training method using a mixed reality device
PDF
強化学習勉強会・論文紹介(第50回)Optimal Asset Allocation using Adaptive Dynamic Programming...
PDF
マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編(パート2)】
PDF
埼玉県東部地域MC・気管挿管再教育プログラム
PPTX
強化学習2章
PDF
問題解決方法
PPT
JSK神奈川主催 パワーポイント実践講座~パワポドリル(横)~(2012.05.19)
PDF
2012年度中鉢PBLシラバス
PDF
02 matsushita
PPTX
[DL輪読会]Meta Reinforcement Learning
PPTX
Chainerと実験管理と私
RL_chapter1_to_chapter4
ラビットチャレンジレポート 深層学習Day4
Study aiラビットチャレンジ 深層学習Day4
Reinforcement learning section2
レポート深層学習Day4
深層学習Day4レポート(小川成)
jsish20130308_hiroe
Proposal of body movement training method using a mixed reality device
強化学習勉強会・論文紹介(第50回)Optimal Asset Allocation using Adaptive Dynamic Programming...
マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編(パート2)】
埼玉県東部地域MC・気管挿管再教育プログラム
強化学習2章
問題解決方法
JSK神奈川主催 パワーポイント実践講座~パワポドリル(横)~(2012.05.19)
2012年度中鉢PBLシラバス
02 matsushita
[DL輪読会]Meta Reinforcement Learning
Chainerと実験管理と私
Ad

More from hiroki yamaoka (10)

PPTX
PPTX
PPTX
PPTX
PPTX
PPTX
PPTX
強化学習5章
PPTX
強化学習3章
PPTX
PRML2.4 指数型分布族
強化学習5章
強化学習3章
PRML2.4 指数型分布族

強化学習1章