More Related Content
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2 協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation) 勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial) What's hot (20)
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree PyMCがあれば,ベイズ推定でもう泣いたりなんかしない 深層生成モデルと世界モデル(2020/11/20版) 計算論的学習理論入門 -PAC学習とかVC次元とか- ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning [DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an... はじめてのパターン認識 第5章 k最近傍法(k_nn法) 明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎 Similar to 強化学習1章 (20)
ラビットチャレンジレポート 深層学習Day4 Study aiラビットチャレンジ 深層学習Day4 Reinforcement learning section2 Proposal of body movement training method using a mixed reality device 強化学習勉強会・論文紹介(第50回)Optimal Asset Allocation using Adaptive Dynamic Programming... マーケティングリサーチってなに?今さら聞けないリサーチの基礎知識と実践講座【基本編(パート2)】 JSK神奈川主催 パワーポイント実践講座~パワポドリル(横)~(2012.05.19) [DL輪読会]Meta Reinforcement Learning More from hiroki yamaoka (10)
強化学習1章
- 8. 8
(離散時間)マルコフ決定過程 M(π)={𝑆, 𝐴, 𝑝𝑠0
, 𝑝 𝑇, g , π}
・有限状態集合:
・有限行動集合:
・初期状態確率関数:
・状態遷移確率関数:
・報酬関数:
・方策:
マルコフ決定過程(Markov Decision Process MDP)
連続状態(or 行動)集合における強化学習は6章で扱う
- 9. 9
マルコフ決定過程の時間発展
𝑠0 𝑎0 𝑠1
1. 時間ステップ t を t=0 と初期化して,初期状態確率 𝑝𝑠0
に従い初期状態 𝑠0 を
観測する
2. 状態 𝑠t と方策 𝜋 ・ 𝑠𝑡 から,行動𝑎tを選択する
3. 行動 𝑎t を実行し,その結果として報酬関数 𝑔(𝑎t, 𝑠t) から定まる報酬 rt と,状
態遷移確率 𝑝 𝑇 ・ 𝑎t , 𝑠𝑡 から定まる次状態 st+1 を観測する
4. 時間ステップ t = t + 1 とし,手順1.に戻る
𝜋 𝑎0 𝑠0 𝑝 𝑇 𝑠1 𝑎0 , 𝑠0
…𝑝𝑠0
r0〜𝑔(𝑎0, 𝑠0)
- 14. 14
方策の分類
𝜋 や 𝜋 𝑑
は,現状態 s のみに依存することからマルコフ方策といい,
時間ステップ t が進展しても方策は変化しないので,定常なマルコフ方策という
stationary
方策系列
・定常な決定的マルコフ方策集合の大きさ
- 19. 19
マルコフ方策の妥当性
任意のマルコフ決定過程 M={𝑆, 𝐴, 𝑝𝑠0
, 𝑝 𝑇, g } と
履歴依存の方策系列 に対して,次を満たすような
マルコフ方策の系列 が存在する.
どんな履歴依存の非マルコフ方策で行動選択したとしても環境の重要な特徴であ
る各時間ステップ t での 𝑆𝑡 , 𝐴 𝑡 の同時確率は,より簡単な方策であるマルコフ方
策を用いても同様に表すことができる
これを用いて次が成り立つ ⇨ 次ページへ
- 26. 26
ベルマン期待方程式
𝑆 = {𝑠(0), 𝑠(1), 𝑠(2)}
𝐴 = {𝑎(0), 𝑎(1), 𝑎(2)}
𝑠0
(0)
𝑎0
(0)
𝑎0
(2)
𝑎0
(1)
𝑠1
(2)
𝑠1
(1)𝑠1
(0)
𝜋 𝑎0 𝑠0
𝑝 𝑇 𝑠1 𝑎0 , 𝑠0
𝑔(𝑎0, 𝑠0)
次ステップの状態
価値関数はこの時
点で定まっている