SlideShare a Scribd company logo
ChainerRLの紹介
Chainer Meetup #4
自己紹介
- 藤田康博 / mooopan / muupan
- 2015- Preferred Networks
- Chainerで強化学習を書いている
ChainerRL
- 深層強化学習(deep reinforcement learning)ライブラリ
- 2017/02/20 公開
- GitHub: https://github.com/pfnet/chainerrl
- Preferred Research Blog: https://research.preferred.jp/2017/02/chainerrl/
こういうのが学習できる →
実装済みアルゴリズム
- Deep Q-Network (Mnih et al., 2015)
- Double DQN (Hasselt et al., 2016)
- Normalized Advantage Function (Gu et al., 2016)
- (Persistent) Advantage Learning (Bellemare et al., 2016)
- Deep Deterministic Policy Gradient (Lillicrap et al., 2016)
- SVG(0) (Heese et al., 2015)
- Asynchronous Advantage Actor-Critic (Mnih et al., 2016)
- Asynchronous N-step Q-learning (Mnih et al., 2016)
- Actor-Critic with Experience Replay (Wang et al., 2017) <- NEW!
- etc.
- いっぱい並べているけど共通部分は多い
ChainerRLによる強化学習の流れ
- エージェントが環境とのインタラクションを通じて報酬を最大化する行動を学習する
- 環境(environment)を定義する
環境
行動
観測, 報酬
ChainerRLによる強化学習の流れ
- モデルを定義する
- Q-function:観測 -> 各行動の価値(将来の報酬の和の期待値)
- Policy:観測 -> 行動の確率分布
Distribution: Softmax, Mellowmax, Gaussian
ActionValue: Discrete, Quadratic
ChainerRLによる強化学習の流れ
- エージェントを定義する
- インタラクションさせる
おわりに
- ChainerRL Quickstart Guide
- Jupyter NotebookでQ-functionを定義してDouble DQNでCart Pole Balancingを学習
https://github.com/pfnet/chainerrl/blob/master/examples/quickstart/quickstart.ipynb
- ChainerRLはまだβ版なのでインタフェース等変わる可能性があります
- むしろ積極的に改善していきたいのでぜひご意見ください
- フィードバックください(欲しい機能・アルゴリズムとかでもOK)
ChainerのTrainer
- 今のところ使ってない
- 強化学習においてDatasetとは?iterationとは?
- うまい使い方あったら教えてください

More Related Content

PDF
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
PDF
アクターモデルについて
PDF
Continuous control with deep reinforcement learning (DDPG)
PDF
Introduction to A3C model
PDF
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
PDF
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
PPTX
2017-05-30_deepleaning-and-chainer
PPTX
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
アクターモデルについて
Continuous control with deep reinforcement learning (DDPG)
Introduction to A3C model
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
2017-05-30_deepleaning-and-chainer
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御

Similar to ChainerRLの紹介 (20)

PDF
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
PPTX
Chainerで学ぶdeep learning
PDF
Introduction to Chainer (LL Ring Recursive)
PDF
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
PDF
日本神経回路学会セミナー「DeepLearningを使ってみよう!」資料
PPTX
Start Deep Reinforcement Learning with RL4J
PPTX
20180727 Deep Learningの未来と
Chainerの貢献
PDF
深層学習フレームワーク Chainerとその進化
PDF
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
PPTX
「機械学習とは?」から始める Deep learning実践入門
PDF
MineRL Competition Tutorial with ChainerRL
PPTX
Jupyter NotebookとChainerで楽々Deep Learning
PPTX
強化学習を可視化する chainerrl-visualizerを動かしてみた
PDF
Chainerの使い方と 自然言語処理への応用
PPTX
RL4J で始める深層強化学習
PDF
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
PDF
Chainer, Cupy入門
PDF
Chainerの使い方と自然言語処理への応用
PDF
深層学習フレームワーク Chainer の開発と今後の展開
PDF
20180830 implement dqn_platinum_data_meetup_vol1
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
Chainerで学ぶdeep learning
Introduction to Chainer (LL Ring Recursive)
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
日本神経回路学会セミナー「DeepLearningを使ってみよう!」資料
Start Deep Reinforcement Learning with RL4J
20180727 Deep Learningの未来と
Chainerの貢献
深層学習フレームワーク Chainerとその進化
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
「機械学習とは?」から始める Deep learning実践入門
MineRL Competition Tutorial with ChainerRL
Jupyter NotebookとChainerで楽々Deep Learning
強化学習を可視化する chainerrl-visualizerを動かしてみた
Chainerの使い方と 自然言語処理への応用
RL4J で始める深層強化学習
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Chainer, Cupy入門
Chainerの使い方と自然言語処理への応用
深層学習フレームワーク Chainer の開発と今後の展開
20180830 implement dqn_platinum_data_meetup_vol1
Ad

More from mooopan (9)

PDF
Clipped Action Policy Gradient
PDF
Model-Based Reinforcement Learning @NIPS2017
PDF
Safe and Efficient Off-Policy Reinforcement Learning
PDF
A3Cという強化学習アルゴリズムで遊んでみた話
PDF
最近のDQN
PDF
Learning Continuous Control Policies by Stochastic Value Gradients
PDF
Trust Region Policy Optimization
PDF
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
PDF
"Playing Atari with Deep Reinforcement Learning"
Clipped Action Policy Gradient
Model-Based Reinforcement Learning @NIPS2017
Safe and Efficient Off-Policy Reinforcement Learning
A3Cという強化学習アルゴリズムで遊んでみた話
最近のDQN
Learning Continuous Control Policies by Stochastic Value Gradients
Trust Region Policy Optimization
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
"Playing Atari with Deep Reinforcement Learning"
Ad

ChainerRLの紹介