More Related Content
DQNからRainbowまで 〜深層強化学習の最新動向〜 Transformerを多層にする際の勾配消失問題と解決法について SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜 Introduction to Prioritized Experience Replay 【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021) What's hot (20)
【DL輪読会】Universal Trading for Order Execution with Oracle Policy Distillation 深層強化学習入門 2020年度Deep Learning基礎講座「強化学習」 Decision Transformer: Reinforcement Learning via Sequence Modeling 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料) NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α 深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜 Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs Layer Normalization@NIPS+読み会・関西 [DL輪読会]Focal Loss for Dense Object Detection 論文紹介:Dueling network architectures for deep reinforcement learning introduction to double deep Q-learning 【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks Curriculum Learning (関東CV勉強会) SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向 【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem 【論文紹介】How Powerful are Graph Neural Networks? Similar to Tf勉強会(4) (20)
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde... 20180830 implement dqn_platinum_data_meetup_vol1 強化学習とは (MIJS 分科会資料 2016/10/11) [CV勉強会]Active Object Localization with Deep Reinfocement Learning introduction to Deep Q Learning Batch Reinforcement Learning Deep reinforcement learning for imbalanced classification Decision Transformer: Reinforcement Learning via Sequence Modeling introduction to Dueling network 論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes Deep Q-learning from Demonstrations More from tak9029 (9)
Tensor flow勉強会 (ayashiminagaranotensorflow) Tf勉強会(4)
- 3. 3
概要
DQN
Deep Q Network (ヤンキーじゃないよ)
DeepLearning とQ Learningを組み合わせたもの
AlphaGoにも使われていたらしいやつ
DoubleDQN
Double Deep Q Network(二人のヤンキーじゃないよ)
DeepMindが2015年12月に発表
同年2月にDQN出したばかりなのに。。。
DQNより精度いいよ(後述)
Gym
OpenAIが提供しているオープンソース
今年のどっかで出した
ゲームや物理エンジン向けのシミュレーション環境
まだβ版?
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved
- 6. 6
簡単な例(迷路)
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved
下の方がゴールに
近そうだけど・・・
▼報酬
・どれだけゴールに近いか
・ゴールしたらもっと沢山
▼報酬(マイナス)
・かかった時間
▼状態
・今どこにいるか
▼行動
・上下左右移動
Try & Errorを繰り返して、「この場所にいた時に」
「こっちに動いた方がいい」ということを学習
- 8. 8
補足
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved
状態sでaを行った報酬
行動したあとの状態s’で最適な行
動を取った時に将来的に得られる
報酬
状態sで最適な行動を取った時に将
来的に得られる報酬
行動価値評価を行うQが正しければこの式は限
りなく同じ値になる!
- 11. 11
DQNのデータセット
とあるの状況(s)
その時撮った行動(a)
それによって得られた報酬(r)
その行動を取ったことによって生じた新しい状況(s’)
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved
状況s 行動a
Qθ側のNNで決定
右に行
く!
報酬r
・ブロック崩してた:+1
・死んでた。。。:−1
新しい状況s’
学習する前に最初にこれらの情報をひたすら収集
- 17. 17
DoubleDQNの実装
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved
取得した行動とQπを使って次以降の行動価値を計算
DQNからDoubleDQNにするのは簡単
だがDQNを作るのが疲れる
ネットワーク二つあるし。。。
シミュレーション環境どうするの。。。
というかシミレーション環境作るのが一番大変!!!
Unity? PyGame? Etc…
- 19. 19
今回作ったもの
Gymにあるブロック崩しを行うAI
TensorFlow 0.9で実装
昨日の夜から回しています。。。。
200万イテレーション程度(実際2000万くらいは必要)
CPUマシンなので学習が全然すすまないww
GPUマシンなら1日で2000万くらい回せるとのこと
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved