Submit Search
ChainerRLの紹介
0 likes
3,429 views
M
mooopan
Chainer Meetup #04 発表資料 https://chainer.connpass.com/event/46953/
Software
Read more
1 of 9
Download now
Downloaded 12 times
1
2
3
4
5
6
7
8
9
More Related Content
PDF
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
John Liu
PDF
アクターモデルについて
Takamasa Mitsuji
PDF
Continuous control with deep reinforcement learning (DDPG)
Taehoon Kim
PDF
Introduction to A3C model
WEBFARMER. ltd.
PDF
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
Sotetsu KOYAMADA(小山田創哲)
PDF
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
徹 上野山
PPTX
2017-05-30_deepleaning-and-chainer
Keisuke Umezawa
PPTX
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
Ryosuke Okuta
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
John Liu
アクターモデルについて
Takamasa Mitsuji
Continuous control with deep reinforcement learning (DDPG)
Taehoon Kim
Introduction to A3C model
WEBFARMER. ltd.
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
Sotetsu KOYAMADA(小山田創哲)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
徹 上野山
2017-05-30_deepleaning-and-chainer
Keisuke Umezawa
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
Ryosuke Okuta
Similar to ChainerRLの紹介
(20)
PDF
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
de:code 2017
PPTX
Chainerで学ぶdeep learning
Retrieva inc.
PDF
Introduction to Chainer (LL Ring Recursive)
Kenta Oono
PDF
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
Kenta Oono
PDF
日本神経回路学会セミナー「DeepLearningを使ってみよう!」資料
Kenta Oono
PPTX
Start Deep Reinforcement Learning with RL4J
Yuki Tagami
PPTX
20180727 Deep Learningの未来と Chainerの貢献
Keisuke Umezawa
PDF
深層学習フレームワークChainerとその進化
Yuya Unno
PDF
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
Preferred Networks
PPTX
「機械学習とは?」から始める Deep learning実践入門
Hideto Masuoka
PDF
MineRL Competition Tutorial with ChainerRL
Preferred Networks
PPTX
Jupyter NotebookとChainerで楽々Deep Learning
Jun-ya Norimatsu
PPTX
強化学習を可視化する chainerrl-visualizerを動かしてみた
mogamin
PDF
Chainerの使い方と自然言語処理への応用
Yuya Unno
PPTX
RL4J で始める深層強化学習
Yuki Tagami
PDF
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Katsuya Ito
PDF
Chainer, Cupy入門
Yuya Unno
PDF
Chainerの使い方と自然言語処理への応用
Seiya Tokui
PDF
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
PDF
20180830 implement dqn_platinum_data_meetup_vol1
Keisuke Nakata
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
de:code 2017
Chainerで学ぶdeep learning
Retrieva inc.
Introduction to Chainer (LL Ring Recursive)
Kenta Oono
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
Kenta Oono
日本神経回路学会セミナー「DeepLearningを使ってみよう!」資料
Kenta Oono
Start Deep Reinforcement Learning with RL4J
Yuki Tagami
20180727 Deep Learningの未来と Chainerの貢献
Keisuke Umezawa
深層学習フレームワークChainerとその進化
Yuya Unno
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
Preferred Networks
「機械学習とは?」から始める Deep learning実践入門
Hideto Masuoka
MineRL Competition Tutorial with ChainerRL
Preferred Networks
Jupyter NotebookとChainerで楽々Deep Learning
Jun-ya Norimatsu
強化学習を可視化する chainerrl-visualizerを動かしてみた
mogamin
Chainerの使い方と自然言語処理への応用
Yuya Unno
RL4J で始める深層強化学習
Yuki Tagami
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Katsuya Ito
Chainer, Cupy入門
Yuya Unno
Chainerの使い方と自然言語処理への応用
Seiya Tokui
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
20180830 implement dqn_platinum_data_meetup_vol1
Keisuke Nakata
Ad
More from mooopan
(9)
PDF
Clipped Action Policy Gradient
mooopan
PDF
Model-Based Reinforcement Learning @NIPS2017
mooopan
PDF
Safe and Efficient Off-Policy Reinforcement Learning
mooopan
PDF
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
PDF
最近のDQN
mooopan
PDF
Learning Continuous Control Policies by Stochastic Value Gradients
mooopan
PDF
Trust Region Policy Optimization
mooopan
PDF
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
mooopan
PDF
"Playing Atari with Deep Reinforcement Learning"
mooopan
Clipped Action Policy Gradient
mooopan
Model-Based Reinforcement Learning @NIPS2017
mooopan
Safe and Efficient Off-Policy Reinforcement Learning
mooopan
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
最近のDQN
mooopan
Learning Continuous Control Policies by Stochastic Value Gradients
mooopan
Trust Region Policy Optimization
mooopan
Effective Modern C++ Item 24: Distinguish universal references from rvalue re...
mooopan
"Playing Atari with Deep Reinforcement Learning"
mooopan
Ad
ChainerRLの紹介
1.
ChainerRLの紹介 Chainer Meetup #4
2.
自己紹介 - 藤田康博 /
mooopan / muupan - 2015- Preferred Networks - Chainerで強化学習を書いている
3.
ChainerRL - 深層強化学習(deep reinforcement
learning)ライブラリ - 2017/02/20 公開 - GitHub: https://github.com/pfnet/chainerrl - Preferred Research Blog: https://research.preferred.jp/2017/02/chainerrl/ こういうのが学習できる →
4.
実装済みアルゴリズム - Deep Q-Network
(Mnih et al., 2015) - Double DQN (Hasselt et al., 2016) - Normalized Advantage Function (Gu et al., 2016) - (Persistent) Advantage Learning (Bellemare et al., 2016) - Deep Deterministic Policy Gradient (Lillicrap et al., 2016) - SVG(0) (Heese et al., 2015) - Asynchronous Advantage Actor-Critic (Mnih et al., 2016) - Asynchronous N-step Q-learning (Mnih et al., 2016) - Actor-Critic with Experience Replay (Wang et al., 2017) <- NEW! - etc. - いっぱい並べているけど共通部分は多い
5.
ChainerRLによる強化学習の流れ - エージェントが環境とのインタラクションを通じて報酬を最大化する行動を学習する - 環境(environment)を定義する 環境 行動 観測,
報酬
6.
ChainerRLによる強化学習の流れ - モデルを定義する - Q-function:観測
-> 各行動の価値(将来の報酬の和の期待値) - Policy:観測 -> 行動の確率分布 Distribution: Softmax, Mellowmax, Gaussian ActionValue: Discrete, Quadratic
7.
ChainerRLによる強化学習の流れ - エージェントを定義する - インタラクションさせる
8.
おわりに - ChainerRL Quickstart
Guide - Jupyter NotebookでQ-functionを定義してDouble DQNでCart Pole Balancingを学習 https://github.com/pfnet/chainerrl/blob/master/examples/quickstart/quickstart.ipynb - ChainerRLはまだβ版なのでインタフェース等変わる可能性があります - むしろ積極的に改善していきたいのでぜひご意見ください - フィードバックください(欲しい機能・アルゴリズムとかでもOK)
9.
ChainerのTrainer - 今のところ使ってない - 強化学習においてDatasetとは?iterationとは? -
うまい使い方あったら教えてください
Download