SlideShare a Scribd company logo
論文紹介
“Offline Q-Learning on diverse
Multi-Task data both scales and generalizes”
目次 2
1. 著者紹介
2. 詳細
3. イントロダクション
4. Scaled Q-Learning
5. 実験
6. 結論
7. 今後の展望
1. 論文概要
著者名: Aviral Kumar (Google Research Brain Team, UC Berkeley),
Rishabh Agarwal (Google Research Brain Team),
Xinyang Geng (UC Berkeley),
George Tucker (Google Research Brain Team),
Sergey Levine (Google Research Brain Team, UC Berkeley)
1. 著者紹介 4
年: 2022
ICLR 2023
1. 著者紹介
1. 著者紹介
• B.Tech. with Honors in Computer Science and Engineering
(2014年7月~2018年8月)
大学: インド工科大学 ボンベイ校
•Ph.D. in Computer Science (2018年8月~2023年8月)
大学: カリフォルニア大学 バークレー校
•Assistant Professor in the Computer Science and Machine Learning
大学: カーネギーメロン大学
•Student Researcher in Google Brain (2020年6月~2023年3月)
Aviral Kumar
1. 著者紹介 5
Aviral Kumar
Aviral Kumar
•Bs and MS in Computer Science (2009)
大学: スタンフォード大学
•Ph.D. in Computer Science (2014)
大学: スタンフォード大学
•Associate Professor in the Department of Electrical Engineering and
Computer Sciences
大学: カリフォルニア大学 バークレー校
Sergey Levine
1. 著者紹介 6
2. 詳細
LLM (Large Language Model)
2. 詳細 8
•Transformer modelを使い,
大規模なデータセットを用いて訓練された巨大な言語モデル
•認識,翻訳,予測,文章生成など様々なタスクを実行できる
•事前学習を行った後,ファインチューニングが行われる
•環境との相互作用により学習を行うため,
大量のデータを学習に用いることができない
‣大規模なモデルを構築するとアンダーフィッティングにつながる
•安全性と経済性を考慮すると,現実世界に応用することが難しい
‣ゲームやシミュレーション環境下でしか学習できない
•汎化性能が低いため単一のタスクにしか対応できない
従来の強化学習の問題点
2. 詳細 9
実験の目的:
大量で多様なデータセットを用いた大規模な強化学習モデルを作ることで
マルチタスクやまだ見たことのないタスクに対しても対応できるような
汎化性能を得る
2. 詳細 10
手法:
オフライン強化学習を用いることで,
大規模な強化学習モデルを構築した場合に起こるアンダーフィッティングを防ぐ
‣Scaled Q Learning
3. イントロダクション
オンライン強化学習 (Online RL)
•ポリシー によって集められたデータを使って
毎ステップ の更新を行う
πk
πk
様々な強化学習の学習方法
3. イントロダクション 12
https://arxiv.org/pdf/2005.01643.pdf
様々な強化学習の学習方法
3. イントロダクション 13
https://arxiv.org/pdf/2005.01643.pdf
オフポリシー強化学習 (O
ff
-policy RL)
•ポリシー によって集められたデータを
data bu
ff
er(replay bu
ff
er)に
エージェントの経験として追加していく
•各ステップでのポリシー によって集められたデータを用いて
訓練を行い,次のステップのポリシー へと更新を行う
πk
π0, π1, . . . , πk
πk+1
オフライン強化学習 (O
ffl
ine RL)
•事前に別のポリシー によって
収集したデータセットを用いて,
新しいポリシー の訓練を行う
•学習時にエージェントは環境との相互作用を行わない
•学習を行った後,オンラインやオフポリシー強化学習を用いて
ファインチューニングを行うこともできる
•試行錯誤を行えないような領域でも適用可能なため,
医療,ロボット,在庫管理,自動運転など多様な領域に応用することができる
πβ
π
3. イントロダクション 14
様々な強化学習の学習方法
https://arxiv.org/pdf/2005.01643.pdf
•データセットに十分に最適化されたデータが含まれない場合は性能が下がる
•様々なシミュレーションや現実世界の環境で良い性能を示したが,
小規模なデータセットや単一のタスクに限られる
現在のOffline Q-Learningの問題点
3. イントロダクション 15
‣Of
fl
ine Q-Learningモデルをスケールアップし,
多様なデータセットやマルチタスクに対しても対応できるようにする
(Scaled Q-Learning)
•単一のポリシーで40個のAtariゲームを用いて訓練を行った
•最適なデータセット(near-optimal)と一部最適なデータセット(sub-optimal)の
二種類のデータセットを用いて比較をした
•データセットに含まれないゲームに対して
ファインチューニングを行いその性能を確かめた
実験概要
3. イントロダクション 16
4. Scaled Q-Learning
•Modi
fi
ed ResNet architecture
‣大規模なモデルの構築が可能になり,性能が上がった
•Distributional cross entropy loss
‣デフォルトのmean squared errorに比べて性能がかなり改善された
•Feature normalization
‣学習が安定し,性能が改善された
Scaled Q-Learningの概要
4. Scaled Q-Learning 18
•Modi
fi
ed ResNet architecture
‣大規模なモデルの構築が可能になり,性能が上がった
•Distributional cross entropy loss
‣デフォルトのmean squared errorに比べて性能がかなり改善された
•Feature normalization
‣学習が安定し,性能が改善された
Scaled Q-Learningの概要
4. Scaled Q-Learning 19
4. Scaled Q-Learning 20
ResNet(2015):
CNN層に対してResidual Connection(残差接続)を組み込むことで,
より深い層を持つことができる
Residual Connection (残差接続)
・ある層への入力を出力に足し合わせる手法
・勾配消失を防ぐ効果がある
Modified ResNet
‣本実験では,元のResNetを改良したModi ed ResNetを使用
https://arxiv.org/pdf/1512.03385.pdf
ResNetからの変更点
•Batch Normalizationの代わりにGroup Normalizationを使用
•ResNetの出力に対して,learned spatial embeddingsとの
成分ごとの積をとる
Modified ResNet
4. Scaled Q-Learning 21
Batch normalization
•ミニバッチ中の平均と分散を算出し,
それを用いて正規化を行う
•バッチサイズが小さい場合,
得られる平均と分散は不正確になる
Modified ResNet
4. Scaled Q-Learning 22
Group normalization
•チャネルを複数のグループに分けて,
その各グループ内での平均と分散を算出し,正規化を行う
•バッチ数に依存しない
batch
channel
spacial
batch
channel
spacial
https://arxiv.org/pdf/1803.08494.pdf
Learned spatial embeddings
•ResNetの出力と同じ次元を持つテンソル
•初期値は乱数であり,
モデルの学習を通して更新されていく
•入力される特徴量の空間的特徴を保持した状態で
重み付けをすることができる
Modified ResNet
4. Scaled Q-Learning 23
• Modi
fi
ed ResNet architecture
‣大規模なモデルの構築が可能になり,性能が上がった
• Distributional cross entropy loss
‣元のmean squared errorに比べて性能がかなり改善された
• Feature normalization
‣学習が安定し,性能が改善された
Scaled Q-Learningの概要
4. Scaled Q-Learning 24
Action distribution shift
•オフラインデータセットに存在しない行動をとる場合,
試行錯誤を行わないため行動価値が過大評価になる現象
オフラインでDQNを用いる場合の問題点
4. Scaled Q-Learning 25
‣Scaled Q-Learningの学習アルゴリズムにConservative Q-Learningを用いる
•Of
fl
ine Q-Learningのアルゴリズム
•まだ見たことのない行動に対する過大評価を避けるため,
2つの損失関数の合計を全体の損失として用いる
1. regularizer
2. distributional TD-error (from C51)
Conservative Q-Learning (CQL)
4. Scaled Q-Learning 26
min
θ
α
𝔼
s∼D
[
log
(∑
a′

exp(Qθ(s, a′

))
)]
− s,a∼D[Qθ(s, a)]) + TDError(θ; D)
• オフラインデータセットが存在する行動に対してのQ-valueは最大化し,
存在しない行動に対してのQ-valueは最小化するペナルティ項
• オフライン強化学習で起こり得る,データセットにない行動に対しての
Q-valueの過大評価を防ぐ
(regularizer weight): 本実験では で固定
α
𝔼
s∼D
[
log
(∑
a′

exp(Qθ(s, a′

))
)]
−
𝔼
s,a∼D[Qθ(s, a)])
α α = 0.05
Regularizer
4. Scaled Q-Learning 27
Mean squared TD error:
•通常のDQNで用いられる損失関数
L =
𝔼
[∥
target
(r + γmaxQ(s′

, a′

)) −
predicted
Q(s, a) ∥2
]
TD (Temporal Difference) Error
4. Scaled Q-Learning 28
distributioal TD error (categorical TD error)
• C51で用いられる損失関数
• ネットワークの出力が常に[0, 1]の確率であるため
他のタスクとネットワークのパラメータを共有するマルチタスクモデルと相性が良い
•ネットワークが環境からの行動価値の確率分布を推定する
•期待値であるQ-valueを直接推定する元のDQNのネットワーク
に比べて学習が安定する
•確率分布の多峰性を保持することができる
C51 (Categorical DQN)
4. Scaled Q-Learning 29
•得られた行動価値の分布から期待値(Q-value)を算出する
•ネットワークは離散型の確率分布を推定する
Q(s, a) = E[Z(s, a)] =
N
∑
i=1
pixi
C51 (Categorical DQN)
4. Scaled Q-Learning 30
categorical TD error
4. Scaled Q-Learning 31
1. ネットワークが推定した各行動に
対する離散型確率分布の期待値を
計算する
2. 最大の期待値による行動が
エージェントの最適な行動となる
1. ターゲットとなる確率分布 の初期化
2. サポートベクトル に基づき
目標となる離散型確率分布を計算する
m
z
categorical TD error
4. Scaled Q-Learning 32
categorical TD error
4. Scaled Q-Learning 33
サポートベクトル
https://arxiv.org/pdf/1707.06887.pdf
ネットワークの推定する確率分布と
目標値である確率分布との損失を
Cross-entropy lossを用いて計算する
categorical TD error
4. Scaled Q-Learning 34
Cross-entropy loss:
二つの確率分布の差を定量化するために使われる損失関数
: 正解となる離散型確率分布
: モデルの予測した離散型確率分布
H(p, q) = −
∑
x∈classes
p(x)log q(x)
p(x)
q(x)
categorical TD error
4. Scaled Q-Learning 35
• Modi
fi
ed ResNet architecture
‣大規模なモデルの構築が可能になり,性能が上がった
• Distributional cross entropy loss
‣元のmean squared errorに比べて性能がかなり改善された
• Feature normalization
‣学習が安定し,性能が改善された
Scaled Q-Learningの概要
4. Scaled Q-Learning 36
•ネットワークの出力に対して正規化を行う
•導入前に比べて学習のスピードが上がり,結果もよくなった
•チューニングする必要のあるハイパーパラメータが増えるため,
今後この手法の代替案を考える必要がある
Feature Normalization
4. Scaled Q-Learning 37
•learned spatial embeddingsとgroup normalizationを使ったResNetを使用
•ネットワークの出力をC51と同じ確率分布とし,損失関数には
cross entropy lossを用いる
•ネットワークの出力に対して,feature normalizationを用いる
Scaled Q-Learningまとめ
4. Scaled Q-Learning 38
5. 実験
•多様なデータセットへの対応評価
•モデルの拡大性の評価
•ファインチューニングの評価
•オフライン ファインチューニング
•オンライン ファインチューニング
実験概要
5. 実験 40
•多様なデータセットへの対応評価
•モデルの拡大性の評価
•ファインチューニングの評価
•オフライン ファインチューニング
•オンライン ファインチューニング
実験概要
5. 実験 41
オンラインのDQNを用いて40個のAtariゲームで学習を行い,
学習の過程で得られたデータから,2種類のデータセットを作る
1. Sub-optimal
•各ゲームのオフラインデータセットから学習の初期段階である最初の20%のデータを用いる
•各ゲーム1000万個のデータ,合計で4億個のデータを含む
•average human-normalized IQM score: 51.0 %
2. Near-optimal
•各ゲームのオフラインデータセットから高性能を示したデータを含む全データを用いる
•各ゲーム5000万個のデータ,合計で20億個のデータを含む
•average human-normalized IQM score: 93.5 %
問題設定
5. 実験 42
human-normalized score:
人間がそのゲームをプレイした時のスコアを1.0(100%)とした場合の
強化学習エージェントが獲得したスコア
5. 実験 43
average human-normalized interquartile-mean (IQM)
•40個のゲームでのhuman-normalized scoreのIQMの平均値
Interquartile-mean (IQM):
四分位範囲のデータの平均値
xIQM =
2
n
3n
/ 4
∑
i= n
4 +1
xi
評価指標
実験に用いた手法
5. 実験 44
•DT (200M): パラメータ数2億個のDecision Transformerモデル
•DT (40M): パラメータ数4000万個のDecision Transformerモデル
•BC: Scaled Q-Learningと全く同じ構造を持つBehavioral Cloningモデル
•MT impala-DQN: IMPALAを用いて5倍のデータで学習を行ったmultitask online RL
•Scaled Q-Learning (Ours, 80M): パラメータ数8000万個の本実験の提案手法
•Behavior policy: Of
fl
ine RL用のデータセット作成に用いたOnline DQN
•Transformerを用いたオフライン強化学習アルゴリズム
•オフラインデータセットを時系列問題として学習を行う自己回帰モデル
•各タイムステップでの因果関係を考慮することができる
DT (Decision Transformer)
5. 実験 45
https://arxiv.org/pdf/2106.01345.pdf
•最適化された行動をとるエキスパートの行動履歴を真似て,
行動ポリシーを構築する模倣学習手法
•エキスパートの行動ポリシーとエージェントの学習ポリシーとの距離を
コスト関数として定義し,そのコスト関数を最小化するように学習する
BC (Behavioral Cloning)
5. 実験 46
https://smartlabai.medium.com/a-brief-overview-of-imitation-learning-8a8a75c44a9c
•Impala architectureを用いたマルチタスク用のOnline DQN
•DQNのTD errorにはcategorical TD errorを用いる
•エンコード部分にはIMPALAで用いられたCNNを用いる
MT Impala DQN
5. 実験 47
https://arxiv.org/pdf/1802.01561.pdf
IMPALA architecture:
•複数のactorと単一のlearnerを使う
•learnerは複数のactorが収集してきたデータを用いて訓練を行う
•actorはlearnerが獲得したパラメータを用いる
MT Impala DQN
5. 実験 48
https://towardsdatascience.com/
評価方法
•2種類のデータセットを用いる
•各アルゴリズムにおける
average human-normalized IQMを比較する
多様なデータセットへの対応評価
5. 実験 49
結果
•Scaled QL(Ours, 80M)が両方のデータセットで
Behavior Policyを上回った
Sub-optimal Dataでの評価
結果:
Scaled QL (Ours, 80M)では全40個のゲームのうち約40%のゲームで
人間のプレイするスコアよりも高いスコアを獲得することができた
多様なデータセットへの対応評価
5. 実験 50
Sub-optimal datasetでのScaled QLとDTとの比較
結果:
Scaled QL (Ours, 80M)は約70%のゲームでDT (200M)よりも高い性能を示した
多様なデータセットへの対応評価
5. 実験 51
•多様なデータセットへの対応評価
•モデルの拡大性の評価
•ファインチューニングの評価
•オフライン ファインチューニング
•オンライン ファインチューニング
実験概要
5. 実験 52
実験に用いた手法:
•Scaled QL + ResNet/MSE: MSE lossを用いたScaled Q-Learning
•Scaled QL + ResNet/C51: categorical lossを用いたScaled Q-Learning
•CQL + IMPALA: IMPALA architectureを用いたCQL
モデルの拡大性
5. 実験 53
モデルのパラメータが多いほど,高い性能を示すことができるかを評価する
モデルの拡大性
5. 実験 54
結果
•Scaled QLはモデルのパラーメータ数が多いほど高い性能を示した
•Scaled QL + ResNet/C51 はDTよりも少ないパラメータ数で高い性能を示した
•多様なデータセットへの対応評価
•モデルの拡大性の評価
•ファインチューニングの評価
•オフライン ファインチューニング
•オンライン ファインチューニング
実験概要
5. 実験 55
本実験で行うファインチューニング
•エンコーダー部分は事前学習をした時のパラメーターで固定する
•全結合層はパラメータを固定しない
ファインチューニング
5. 実験 56
学習済みのモデルの一部と新たに追加したモデルの一部を活用して
微調整を行うこと Freeze
•オフライン上でファインチューニングを行う
•Scaled QLのエンコーダーにはResNet101を使用
•5つのゲーム(ALIEN, MSPACMAN, SPACE INVADERS, STARGUNNER, PONG)
に対してOnline DQNを用いて集めたデータの1%を用いて事前学習を行う
オフライン ファインチューニング
5. 実験 57
•Scaled QL (ours): ファインチューニングを行うScaled QL
•Scaled QL (frozen): ファインチューニングを行わず,
事前学習をしてパラメータを全て固定したScaled QL
•Scaled QL (scratch): 事前学習を行わないScaled QL
•MAE: Scaled QLのエンコーダー部分にmasked autoencoderを用いた
ファインチューニンングを行うモデル
•BC (pre-trained): 事前学習を行うBehavioral Cloning
•DT (pre-trained): 事前学習を行うDecision Transformerモデル
•CPC + DT: CPCを用いてファインチューニングを行ったDecision Transformerモデル
実験に用いた手法
5. 実験 58
•Vision transformerを用いた自己教師あり学習手法
•一部をマスクされた画像から元の画像を再構築することができる
Masked autoencoder
5. 実験 59
https://arxiv.org/pdf/2111.06377.pdf
•Masked autoencoderで事前学習を行い,エンコーダ部分だけを強化学習に用いる
•事前学習のデータセットには
オフラインデータセットと同じAtariゲームの画像を用いる
Masked autoencoder を用いた事前学習
5. 実験 60
https://arxiv.org/pdf/2203.06173.pdf
•自己回帰モデルで用いられる自己教師あり学習手法
•高次元データから役にたつ情報のみを抽出して将来の予測に利用する
CPC (Contrastive Predictive Coding)
5. 実験 61
https://arxiv.org/pdf/1807.03748.pdf
自己回帰モデル
エンコーダー
結果:
Scaled QL (ours)がStarGunner以外で他の手法を上回った
オフライン ファインチューニング
5. 実験 62
•40個のAtariゲームで事前学習を行い,
オンライン上でファインチューニングを行った場合の性能を調べる
•オンラインでの環境は3つのゲーム(FREEWAY, HERO, BREAKOUT)を用いる
オンライン ファインチィーニング
5. 実験 63
https://blog.research.google/2023/02/pre-training-generalist-agents-using.html?m=1
•Scaled QL (Ours): ファインチューニングを行うScaled QL
•Scaled QL (Scratch): 事前学習を行わないScaled QL
•MAE (Pretrain): 事前学習を行ったmasked autoencoderモデル
•Single-game DQN (50M): 5000万ステップの学習を行った後の
通常のオンラインDQNモデル
実験に用いた手法
5. 実験 64
結果
•Scaled QL (Ours)が3つのゲームで最も高いスコアを獲得した
オンライン ファインチューニング
5. 実験 65
評価方法:
•mean-sqared TD errorとcategorical TD error (C51)を比較する
•40ゲームにおけるhuman-normalized scoreの中央値を評価する
MSE vs C51
5. 実験 66
実験結果:
•C51を用いることで,ResNet 50とResNet 101の両方とも
MSEを用いた場合に比べて高い性能を示した
53.5% (+12.4%) 98.9% (+39.4%)
評価方法
•5つのゲーム(ASTERIX, BREAKOUT, PONG, SPACEINVADERS, SEAQUEST)
の最初の20%のデータを用いて学習を行う
•5つのゲームのhuman-normalized scoreの中央値を用いる
Feature-normalizationの重要性
5. 実験 67
結果
•全てのResNetにおいてfeature normalizationを用いたモデルが
高い性能を示した
79.8% (+28.9%) 85.3% (+9.6%) 98.0% (+17.6%)
6. 結論
•Scaled Q-Learningは大規模で多様なデータセットに対応し,
モデル自体も大規模にすることができた
•Scaled Q-Learningはデータセットのオンライン強化学習手法や
オフラインの従来手法を上回る性能を示した
•特に従来のオフライン強化学習手法比べて,
Scaled Q-LearningはSub-optimal Dataに対しても高い性能を示した
6. 結論 69
7. 今後の展望
•将来的にOf
fl
ine Q-Learningに対してTransformerを用いた手法が重要になる
•本実験では未使用であるdata augmentationを用いることで
性能が上がる可能性がある
•Scaled Q-Learningをロボットシミュレーションなどの別の領域へ応用する
6. 今後の展望 71

More Related Content

PPTX
1017 論文紹介第四回
PDF
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
PDF
DQNからRainbowまで 〜深層強化学習の最新動向〜
PPTX
Paper intoduction "Playing Atari with deep reinforcement learning"
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PDF
強化学習とは (MIJS 分科会資料 2016/10/11)
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PPTX
Feature engineering for predictive modeling using reinforcement learning
1017 論文紹介第四回
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
DQNからRainbowまで 〜深層強化学習の最新動向〜
Paper intoduction "Playing Atari with deep reinforcement learning"
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
強化学習とは (MIJS 分科会資料 2016/10/11)
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Feature engineering for predictive modeling using reinforcement learning

Similar to 論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes (20)

PDF
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
PDF
Deeplearning lt.pdf
PPTX
"Universal Planning Networks" and "Composable Planning with Attributes"
PDF
論文紹介-Multi-Objective Deep Reinforcement Learning
PDF
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
PDF
論文紹介:Dueling network architectures for deep reinforcement learning
PDF
20180830 implement dqn_platinum_data_meetup_vol1
PPTX
Deep reinforcement learning for imbalanced classification
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
PPTX
深層強化学習入門
PDF
無限ボルツマンマシンの学習
PDF
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
PDF
introduction to double deep Q-learning
PDF
PDF
[DL輪読会]Beyond Shared Hierarchies: Deep Multitask Learning through Soft Layer ...
PPTX
A3C解説
PPTX
Batch Reinforcement Learning
PDF
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
PDF
論文紹介:”Playing hard exploration games by watching YouTube“
PPT
Deep Learningの技術と未来
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
Deeplearning lt.pdf
"Universal Planning Networks" and "Composable Planning with Attributes"
論文紹介-Multi-Objective Deep Reinforcement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
論文紹介:Dueling network architectures for deep reinforcement learning
20180830 implement dqn_platinum_data_meetup_vol1
Deep reinforcement learning for imbalanced classification
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習入門
無限ボルツマンマシンの学習
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning
introduction to double deep Q-learning
[DL輪読会]Beyond Shared Hierarchies: Deep Multitask Learning through Soft Layer ...
A3C解説
Batch Reinforcement Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
論文紹介:”Playing hard exploration games by watching YouTube“
Deep Learningの技術と未来
Ad

論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes