SlideShare a Scribd company logo
0
The Predictron: End-To-End Leaning and Planning
幡本昂平
2018/8/20
DLゼミ
1
1書誌情報
• Author
• David Silver · Hado van Hasselt · Matteo Hessel · Tom Schaul · Arthur Guez · Tim Harley ·
Gabriel Dulac-Arnold · David Reichert · Neil Rabinowitz · Andre Barreto · Thomas Degris
(DeepMind)
• ICML2017
• (arxiv2016/12/28)
• URL
• https://icml.cc/Conferences/2017/Schedule?showParentSession=1427
• https://arxiv.org/abs/1612.08810
2
2論文概要
• end-to-endなモデルベース強化学習のアーキテクチャであるpredictronを提案
• 迷路とビリヤードに適用した際に通常のDNNよりも正確な予測を達成
3
3モデルフリー強化学習とモデルベース強化学習
強化学習には大きく2つの種類が存在
モデルフリー モデルベース
環境
行動
観測
エージェント 環境
行動
観測
エージェント 環境のモデル
行動決定
シミュレート
行動の価値を
直接近似する
DQNなど 本論文など
4
4従来のモデルベース強化学習
• モデルベース強化学習の構成要素
1. モデルの作成
2. モデルを使ったプランニング
• 一般的にこれらは独立に扱われる
• モデルが最終的な目的にはあっていないこともあった
predictronではこれらの手続きをend-to-endなものに統合する
5
5predictronで作成されるモデル
• モデルベース強化学習の構成要素
1. モデルの作成
2. モデルを使ったプランニング
• 正確な予測を行うことがpredictronで作るモデルの目標
• 例えばゲームにおいて最適な意思決定を行うのに必要なのはスコアを正確に
予測できること
• 作成モデルが実際の環境とは異なっていても,それを用いて正確な予測ができればよい
• 論文中ではabstractと表現
1で作るモデルに必要なのは
2を実行するのに適しているということ
6
6Predictron architecture
• 4つの要素から構成
1. 状態エンコーダ
2. モデル
3. 価値観数
4. 累積報酬からの実際の値の見積もり
s
状態エンコーダ
s=f(s)
s
モデル(MRP)
s’, r, γ = m(s,β)
価値関数
v = v(s)
accumulator
外部状態 内部状態
s’ ・・・
次状態
内部報酬
r γ
割引率
v
内部価値
・・・ g
推定値
7
7状態エンコーダ
• 状態エンコーダ
• 生の入力sを内部の状態表現sにエンコードする
• 入力は観測の履歴など
s
状態エンコーダ
s=f(s)
s
モデル(MRP)
s’, r, γ = m(s,β)
価値関数
v = v(s)
accumulator
外部状態 内部状態
s’ ・・・
次状態
内部報酬
r γ
割引率
v
内部価値
・・・ g
推定値
8
8モデル
• モデル
• 内部状態sから次状態s’, 内部報酬r, 割引率γを求める
• βはノイズ
s
状態エンコーダ
s=f(s)
s
モデル(MRP)
s’, r, γ = m(s,β)
価値関数
v = v(s)
accumulator
外部状態 内部状態
s’ ・・・
次状態
内部報酬
r γ
割引率
v
内部価値
・・・ g
推定値
9
9価値観数
• 価値関数
• ある状態以後の内部報酬を表現
• 価値関数を求めるまでのステップの繰り返しをplanningとよぶ
s
状態エンコーダ
s=f(s)
s
モデル(MRP)
s’, r, γ = m(s,β)
価値関数
v = v(s)
accumulator
外部状態 内部状態
s’ ・・・
次状態
内部報酬
r γ
割引率
v
内部価値
・・・ g
推定値
10
10k-step predictron
最終的な推定値を求める際の累積和計算は2通り
• k-step predictron
• kステップのモデルの計算を行い,最終的な推定値𝑔 𝑘のみを利用する
0-ステップ 1-ステップ 2-ステップ
predictronのreturnの計算式
11
11λ-weighted predictron
最終的な推定値を求める際の累積和計算は2通り
• λ-weighted predictron
• k-stepのpredictronのreturn(preturn)を組み合わせて出力
12
12predictronの学習
内部パラメータ𝜃の更新を考える
k-stepの場合 λの場合
𝜃の更新
λの更新
平均化ではなく重み付けを用いても良い
これらの勾配を用いてSGD等でパラメータ更新を
おこなう
平均2乗誤差
13
13consistency updates
λバージョンのpredictronではk-stepの出力を束ねて重み付けした𝑔λ
を用いて,各ステップの出力に基づい
た更新を行うことで半教師ありのようなパラメータ更新をおこなうことができる
教師を必要としない
14
14実験 Learning sequential plans
迷路の簡単な方策を推定できるか?
• 13×13の迷路で簡単な手続き的方策に基づく移動の
軌跡g(13×13)を推定する
• 訓練誤差はほぼ0に
• ステップを重ねるごとに軌跡が進んでいく様子がわかる
• 内部で手続き的な方策を学習できている
• 簡単なものは少ないステップで推定可能(一番右)
15
15実験 predictron architecture の有効性
いくつかのpredictronの変形を比較し,各機能の有効性を確かめる
• 実験で取り扱う問題
• ランダムに生成した20×20の迷路で左上の点から右下の点に到達可能であるかを予測する
• 推定したい値についての記述はないが0, 1?
16
16実験 predictron architecture の有効性
いくつかのpredictronの変形を比較し,各機能の有効性を確かめる
• 実験で取り扱う問題
• ビリヤードで5フレームを入力として将来のイベントを予測する
• 考えるイベント
• 他のボールとの衝突
• テーブルの端との衝突
• 各象限への侵入(×4)
• 各象限にとどまる(×4)
• ポケットに入る(×4)
計14×4のイベントに5つの割引係数(discount factor)
{0, 0.5, 0.9, 0.98, 1}を組み合わせた疑似報酬を設定
最終的に予測するのは様々なタイムスパンにおける
累積割引報酬和
17
17実験 predictron architectureの有効性2
いくつかのpredictronの変形を比較し,各機能の有効性を確かめる
MRPモデルの構造を使うかどうか
使わない場合はただのNN
k-stepかλかどうか
18
18実験結果 predictron architecture の有効性
どの構成要素も取り入れたほうが良い結果を示した
19
19ディープラーニングを用いた手法との比較
数種類のディープラーニングアーキテクチャとの比較の結果,有効性を確認
内部モデルを
使うかどうか
リカレント構造を
使うかどうか
20
20半教師あり学習
consistency updatesを用いて半教師あり学習をおこなう
• 1教師あたりのconsistency updatesの回数を0,1,9の三種類にして実験
• 回数が増えるに連れ単調に良くなっている
21
21adaptive depthに関する分析
迷路の経路推定問題において簡単な経路の際は少ないステップ数で予測できていた
→問題の複雑さにステップ数(depth)は適応しているのではないか?
• 問題のタイプごとに最もよいステップ数(depth)の分布を算出
• 問題ごとにdepthの分布は異なる
• real-world discountsごとに一定の傾向
• 強いピークは出ていない
衝突 端との衝突 象限への侵入 ポケットへの侵入 象限にとどまる
22
22predictronを用いた意思決定
ビリヤードにおいて異なる初期配置のセットを与えたときにどの配置が一番ボールがポケットに
入りやすいかをPredictronを用いて予測する
deep convolutional networkでは50回中10回だったのに対し
predictronでは50回中27回ポケットにボールが入った
https://www.youtube.com/watch?v=BeaLdaN2C3Q&feature=youtu.be
predictronでロスが小さくなることは意思決定にも有用
23
23まとめ
• 内部モデルを通じて外部の値の推定をおこなう微分可能なアーキテクチャ
• 内部モデルはabstract
• 複数の仕組みを一つのアーキテクチャに組み込み,従来のネットワークアーキテクチャよりも
良い精度を実現
• 今回は制御のできない環境における予測に取り組んだが,今後はQ-networkにpredictronを用いる
など制御のできる環境にも適用させたい
• MRPではなくMDPの学習が可能かも興味がある(著者談)
24
24参考文献
• The Predictron: End-To-End Learning and Planning
• David Silver · Hado van Hasselt · Matteo Hessel · Tom Schaul · Arthur Guez · Tim Harley ·
Gabriel Dulac-Arnold · David Reichert · Neil Rabinowitz · Andre Barreto · Thomas Degris
• ICML2017
• https://vimeo.com/238243832

More Related Content

PPTX
Mobilenet
PPTX
2021 09 29_dl_hirata
PDF
Real-Time Semantic Stereo Matching
PPTX
2019 08 20_dl
PPTX
Can increasing input dimensionality improve deep reinforcement learning?
PDF
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
PPTX
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
PDF
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
Mobilenet
2021 09 29_dl_hirata
Real-Time Semantic Stereo Matching
2019 08 20_dl
Can increasing input dimensionality improve deep reinforcement learning?
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...

What's hot (20)

PPTX
PredCNN: Predictive Learning with Cascade Convolutions
PPTX
Recursively Summarizing Books with Human Feedback
PDF
2021 haizoku
PDF
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
PPTX
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
PDF
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
PDF
Capsule Graph Neural Network
PPTX
You Only Learn One Representation: Unified Network for Multiple Tasks
PPTX
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
PPTX
修士論文
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
PDF
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
PPTX
Ai勉強会20170127
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
PPTX
Variational Template Machine for Data-to-Text Generation
PDF
2021 haizoku
PPTX
Playing Atari with Six Neurons
PPTX
Rainbow
PDF
A PID Controller Approach for Stochastic Optimization of Deep Networks
PDF
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
PredCNN: Predictive Learning with Cascade Convolutions
Recursively Summarizing Books with Human Feedback
2021 haizoku
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
Capsule Graph Neural Network
You Only Learn One Representation: Unified Network for Multiple Tasks
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
修士論文
How Much Position Information Do Convolutional Neural Networks Encode?
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Ai勉強会20170127
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
Variational Template Machine for Data-to-Text Generation
2021 haizoku
Playing Atari with Six Neurons
Rainbow
A PID Controller Approach for Stochastic Optimization of Deep Networks
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Ad

Similar to Predictron (20)

PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
PDF
[DL輪読会]Learning to Act by Predicting the Future
PDF
時系列予測モデルを導入した価値関数に基づく強化学習
PPTX
機械学習を民主化する取り組み
PDF
Deep learningの概要とドメインモデルの変遷
PDF
NeurIPS2020参加報告
PDF
20141208.名大セミナー
PDF
Deep Learningの基礎と応用
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PPTX
[DL輪読会]End-to-End Object Detection with Transformers
PDF
【ECCV 2018】Interpretable Intuitive Physics Model
PDF
【参考文献追加】20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
PDF
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
PDF
論文紹介:PaperRobot: Incremental Draft Generation of Scientific Idea
PPTX
2020 08 05_dl_DETR
PDF
人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹
PDF
Journal club dec24 2015 splice site prediction using artificial neural netw...
PPTX
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
PDF
Bayesian Neural Networks : Survey
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Learning to Act by Predicting the Future
時系列予測モデルを導入した価値関数に基づく強化学習
機械学習を民主化する取り組み
Deep learningの概要とドメインモデルの変遷
NeurIPS2020参加報告
20141208.名大セミナー
Deep Learningの基礎と応用
【DL輪読会】時系列予測 Transfomers の精度向上手法
[DL輪読会]End-to-End Object Detection with Transformers
【ECCV 2018】Interpretable Intuitive Physics Model
【参考文献追加】20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
20180115_東大医学部機能生物学セミナー_深層学習の最前線とこれから_岡野原大輔
論文紹介:PaperRobot: Incremental Draft Generation of Scientific Idea
2020 08 05_dl_DETR
人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹
Journal club dec24 2015 splice site prediction using artificial neural netw...
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
Bayesian Neural Networks : Survey
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【DLゼミ】Generative Image Dynamics, CVPR2024
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
Generating Automatic Feedback on UI Mockups with Large Language Models
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone

Predictron