論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes

論文紹介
“Offline Q-Learning on diverse
Multi-Task data both scales and generalizes”

目次 2
1. 著者紹介
2. 詳細
3. イントロダクション
4. Scaled Q-Learning
5. 実験
6. 結論
7. 今後の展望

著者名: Aviral Kumar (Google Research Brain Team, UC Berkeley),
Rishabh Agarwal (Google Research Brain Team),
Xinyang Geng (UC Berkeley),
George Tucker (Google Research Brain Team),
Sergey Levine (Google Research Brain Team, UC Berkeley)
1. 著者紹介 4
年: 2022
ICLR 2023
1. 著者紹介
1. 著者紹介

• B.Tech. with Honors in Computer Science and Engineering
(2014年7月~2018年8月)
大学: インド工科大学ボンベイ校
•Ph.D. in Computer Science (2018年8月~2023年8月)
大学: カリフォルニア大学バークレー校
•Assistant Professor in the Computer Science and Machine Learning
大学: カーネギーメロン大学
•Student Researcher in Google Brain (2020年6月~2023年3月)
Aviral Kumar
1. 著者紹介 5
Aviral Kumar
Aviral Kumar

•Bs and MS in Computer Science (2009)
大学: スタンフォード大学
•Ph.D. in Computer Science (2014)
大学: スタンフォード大学
•Associate Professor in the Department of Electrical Engineering and
Computer Sciences
大学: カリフォルニア大学バークレー校
Sergey Levine
1. 著者紹介 6

LLM (Large Language Model)
2. 詳細 8
•Transformer modelを使い，
大規模なデータセットを用いて訓練された巨大な言語モデル
•認識，翻訳，予測，文章生成など様々なタスクを実行できる
•事前学習を行った後，ファインチューニングが行われる

•環境との相互作用により学習を行うため，
大量のデータを学習に用いることができない
‣大規模なモデルを構築するとアンダーフィッティングにつながる
•安全性と経済性を考慮すると，現実世界に応用することが難しい
‣ゲームやシミュレーション環境下でしか学習できない
•汎化性能が低いため単一のタスクにしか対応できない
従来の強化学習の問題点
2. 詳細 9

実験の目的:
大量で多様なデータセットを用いた大規模な強化学習モデルを作ることで
マルチタスクやまだ見たことのないタスクに対しても対応できるような
汎化性能を得る
2. 詳細 10
手法:
オフライン強化学習を用いることで，
大規模な強化学習モデルを構築した場合に起こるアンダーフィッティングを防ぐ
‣Scaled Q Learning

3. イントロダクション

オンライン強化学習 (Online RL)
•ポリシーによって集められたデータを使って
毎ステップの更新を行う
πk
πk
様々な強化学習の学習方法
3. イントロダクション 12
https://arxiv.org/pdf/2005.01643.pdf

オフポリシー強化学習 (O
ff
-policy RL)
•ポリシーによって集められたデータを
data bu
ff
er(replay bu
ff
er)に
エージェントの経験として追加していく
•各ステップでのポリシーによって集められたデータを用いて
訓練を行い，次のステップのポリシーへと更新を行う
πk
π0, π1, . . . , πk
πk+1

オフライン強化学習 (O
ffl
ine RL)
•事前に別のポリシーによって
収集したデータセットを用いて，
新しいポリシーの訓練を行う
•学習時にエージェントは環境との相互作用を行わない
•学習を行った後，オンラインやオフポリシー強化学習を用いて
ファインチューニングを行うこともできる
•試行錯誤を行えないような領域でも適用可能なため，
医療，ロボット，在庫管理，自動運転など多様な領域に応用することができる
πβ
π

•データセットに十分に最適化されたデータが含まれない場合は性能が下がる
•様々なシミュレーションや現実世界の環境で良い性能を示したが，
小規模なデータセットや単一のタスクに限られる
現在のOffline Q-Learningの問題点
‣Of
fl
ine Q-Learningモデルをスケールアップし，
多様なデータセットやマルチタスクに対しても対応できるようにする
(Scaled Q-Learning)

•単一のポリシーで40個のAtariゲームを用いて訓練を行った
•最適なデータセット(near-optimal)と一部最適なデータセット(sub-optimal)の
二種類のデータセットを用いて比較をした
•データセットに含まれないゲームに対して
ファインチューニングを行いその性能を確かめた
実験概要

•Modi
fi
ed ResNet architecture
‣大規模なモデルの構築が可能になり，性能が上がった
•Distributional cross entropy loss
‣デフォルトのmean squared errorに比べて性能がかなり改善された
•Feature normalization
‣学習が安定し，性能が改善された
Scaled Q-Learningの概要
4. Scaled Q-Learning 18

•Modi
fi
•Distributional cross entropy loss
‣デフォルトのmean squared errorに比べて性能がかなり改善された
•Feature normalization

ResNet(2015):
CNN層に対してResidual Connection（残差接続）を組み込むことで，
より深い層を持つことができる
Residual Connection （残差接続)
・ある層への入力を出力に足し合わせる手法
・勾配消失を防ぐ効果がある
Modified ResNet
‣本実験では，元のResNetを改良したModi ed ResNetを使用

ResNetからの変更点
•Batch Normalizationの代わりにGroup Normalizationを使用
•ResNetの出力に対して，learned spatial embeddingsとの
成分ごとの積をとる
Modified ResNet

Batch normalization
•ミニバッチ中の平均と分散を算出し，
それを用いて正規化を行う
•バッチサイズが小さい場合，
得られる平均と分散は不正確になる
Modified ResNet
Group normalization
•チャネルを複数のグループに分けて，
その各グループ内での平均と分散を算出し，正規化を行う
•バッチ数に依存しない
batch
channel
spacial
batch
channel
spacial

Learned spatial embeddings
•ResNetの出力と同じ次元を持つテンソル
•初期値は乱数であり，
モデルの学習を通して更新されていく
•入力される特徴量の空間的特徴を保持した状態で
重み付けをすることができる
Modified ResNet

• Modi
fi
• Distributional cross entropy loss
‣元のmean squared errorに比べて性能がかなり改善された
• Feature normalization

Action distribution shift
•オフラインデータセットに存在しない行動をとる場合，
試行錯誤を行わないため行動価値が過大評価になる現象
オフラインでDQNを用いる場合の問題点
‣Scaled Q-Learningの学習アルゴリズムにConservative Q-Learningを用いる

•Of
fl
ine Q-Learningのアルゴリズム
•まだ見たことのない行動に対する過大評価を避けるため，
２つの損失関数の合計を全体の損失として用いる
1. regularizer
2. distributional TD-error (from C51)
Conservative Q-Learning (CQL)
min
θ
α
𝔼
s∼D
[
log
(∑
a′

exp(Qθ(s, a′

))
)]
− s,a∼D[Qθ(s, a)]) + TDError(θ; D)

• オフラインデータセットが存在する行動に対してのQ-valueは最大化し，
存在しない行動に対してのQ-valueは最小化するペナルティ項
• オフライン強化学習で起こり得る，データセットにない行動に対しての
Q-valueの過大評価を防ぐ
(regularizer weight): 本実験ではで固定
α
𝔼
s∼D
[
log
(∑
a′

exp(Qθ(s, a′

))
)]
−
𝔼
s,a∼D[Qθ(s, a)])
α α = 0.05
Regularizer

Mean squared TD error:
•通常のDQNで用いられる損失関数
L =
𝔼
[∥
target
(r + γmaxQ(s′

, a′

)) −
predicted
Q(s, a) ∥2
]
TD (Temporal Difference) Error
distributioal TD error (categorical TD error)
• C51で用いられる損失関数
• ネットワークの出力が常に[0, 1]の確率であるため
他のタスクとネットワークのパラメータを共有するマルチタスクモデルと相性が良い

•ネットワークが環境からの行動価値の確率分布を推定する
•期待値であるQ-valueを直接推定する元のDQNのネットワーク
に比べて学習が安定する
•確率分布の多峰性を保持することができる
C51 (Categorical DQN)

•得られた行動価値の分布から期待値(Q-value)を算出する
•ネットワークは離散型の確率分布を推定する
Q(s, a) = E[Z(s, a)] =
N
∑
i=1
pixi
C51 (Categorical DQN)

categorical TD error
1. ネットワークが推定した各行動に
対する離散型確率分布の期待値を
計算する
2. 最大の期待値による行動が
エージェントの最適な行動となる

1. ターゲットとなる確率分布の初期化
2. サポートベクトルに基づき
目標となる離散型確率分布を計算する
m
z

サポートベクトル

ネットワークの推定する確率分布と
目標値である確率分布との損失を
Cross-entropy lossを用いて計算する

Cross-entropy loss:
二つの確率分布の差を定量化するために使われる損失関数
: 正解となる離散型確率分布
: モデルの予測した離散型確率分布
H(p, q) = −
∑
x∈classes
p(x)log q(x)
p(x)
q(x)

• Modi
fi
• Distributional cross entropy loss
‣元のmean squared errorに比べて性能がかなり改善された
• Feature normalization

•ネットワークの出力に対して正規化を行う
•導入前に比べて学習のスピードが上がり，結果もよくなった
•チューニングする必要のあるハイパーパラメータが増えるため，
今後この手法の代替案を考える必要がある
Feature Normalization

•learned spatial embeddingsとgroup normalizationを使ったResNetを使用
•ネットワークの出力をC51と同じ確率分布とし，損失関数には
cross entropy lossを用いる
•ネットワークの出力に対して，feature normalizationを用いる
Scaled Q-Learningまとめ

•多様なデータセットへの対応評価
•モデルの拡大性の評価
•ファインチューニングの評価
•オフラインファインチューニング
•オンラインファインチューニング
実験概要
5. 実験 40

実験概要
5. 実験 41

オンラインのDQNを用いて40個のAtariゲームで学習を行い，
学習の過程で得られたデータから，2種類のデータセットを作る
1. Sub-optimal
•各ゲームのオフラインデータセットから学習の初期段階である最初の20%のデータを用いる
•各ゲーム1000万個のデータ，合計で4億個のデータを含む
•average human-normalized IQM score: 51.0 %
2. Near-optimal
•各ゲームのオフラインデータセットから高性能を示したデータを含む全データを用いる
•各ゲーム5000万個のデータ，合計で20億個のデータを含む
•average human-normalized IQM score: 93.5 %
問題設定
5. 実験 42

human-normalized score:
人間がそのゲームをプレイした時のスコアを1.0(100%)とした場合の
強化学習エージェントが獲得したスコア
5. 実験 43
average human-normalized interquartile-mean (IQM)
•40個のゲームでのhuman-normalized scoreのIQMの平均値
Interquartile-mean (IQM):
四分位範囲のデータの平均値
xIQM =
2
n
3n
/ 4
∑
i= n
4 +1
xi
評価指標

実験に用いた手法
5. 実験 44
•DT (200M): パラメータ数2億個のDecision Transformerモデル
•DT (40M): パラメータ数4000万個のDecision Transformerモデル
•BC: Scaled Q-Learningと全く同じ構造を持つBehavioral Cloningモデル
•MT impala-DQN: IMPALAを用いて5倍のデータで学習を行ったmultitask online RL
•Scaled Q-Learning (Ours, 80M): パラメータ数8000万個の本実験の提案手法
•Behavior policy: Of
fl
ine RL用のデータセット作成に用いたOnline DQN

•Transformerを用いたオフライン強化学習アルゴリズム
•オフラインデータセットを時系列問題として学習を行う自己回帰モデル
•各タイムステップでの因果関係を考慮することができる
DT (Decision Transformer)
5. 実験 45

•最適化された行動をとるエキスパートの行動履歴を真似て，
行動ポリシーを構築する模倣学習手法
•エキスパートの行動ポリシーとエージェントの学習ポリシーとの距離を
コスト関数として定義し，そのコスト関数を最小化するように学習する
BC (Behavioral Cloning)
5. 実験 46
https://smartlabai.medium.com/a-brief-overview-of-imitation-learning-8a8a75c44a9c

•Impala architectureを用いたマルチタスク用のOnline DQN
•DQNのTD errorにはcategorical TD errorを用いる
•エンコード部分にはIMPALAで用いられたCNNを用いる
MT Impala DQN
5. 実験 47

IMPALA architecture:
•複数のactorと単一のlearnerを使う
•learnerは複数のactorが収集してきたデータを用いて訓練を行う
•actorはlearnerが獲得したパラメータを用いる
MT Impala DQN
5. 実験 48
https://towardsdatascience.com/

評価方法
•２種類のデータセットを用いる
•各アルゴリズムにおける
average human-normalized IQMを比較する
多様なデータセットへの対応評価
5. 実験 49
結果
•Scaled QL(Ours, 80M)が両方のデータセットで
Behavior Policyを上回った

Sub-optimal Dataでの評価
結果:
Scaled QL (Ours, 80M)では全40個のゲームのうち約40%のゲームで
人間のプレイするスコアよりも高いスコアを獲得することができた
5. 実験 50

Sub-optimal datasetでのScaled QLとDTとの比較
結果:
Scaled QL (Ours, 80M)は約70%のゲームでDT (200M)よりも高い性能を示した
5. 実験 51

実験概要
5. 実験 52

実験に用いた手法:
•Scaled QL + ResNet/MSE: MSE lossを用いたScaled Q-Learning
•Scaled QL + ResNet/C51: categorical lossを用いたScaled Q-Learning
•CQL + IMPALA: IMPALA architectureを用いたCQL
モデルの拡大性
5. 実験 53
モデルのパラメータが多いほど，高い性能を示すことができるかを評価する

モデルの拡大性
5. 実験 54
結果
•Scaled QLはモデルのパラーメータ数が多いほど高い性能を示した
•Scaled QL + ResNet/C51 はDTよりも少ないパラメータ数で高い性能を示した

実験概要
5. 実験 55

本実験で行うファインチューニング
•エンコーダー部分は事前学習をした時のパラメーターで固定する
•全結合層はパラメータを固定しない
ファインチューニング
5. 実験 56
学習済みのモデルの一部と新たに追加したモデルの一部を活用して
微調整を行うこと Freeze

•オフライン上でファインチューニングを行う
•Scaled QLのエンコーダーにはResNet101を使用
•5つのゲーム(ALIEN, MSPACMAN, SPACE INVADERS, STARGUNNER, PONG）
に対してOnline DQNを用いて集めたデータの1%を用いて事前学習を行う
オフラインファインチューニング
5. 実験 57

•Scaled QL (ours): ファインチューニングを行うScaled QL
•Scaled QL (frozen): ファインチューニングを行わず，
事前学習をしてパラメータを全て固定したScaled QL
•Scaled QL (scratch): 事前学習を行わないScaled QL
•MAE: Scaled QLのエンコーダー部分にmasked autoencoderを用いた
ファインチューニンングを行うモデル
•BC (pre-trained): 事前学習を行うBehavioral Cloning
•DT (pre-trained): 事前学習を行うDecision Transformerモデル
•CPC + DT: CPCを用いてファインチューニングを行ったDecision Transformerモデル
5. 実験 58

•Vision transformerを用いた自己教師あり学習手法
•一部をマスクされた画像から元の画像を再構築することができる
Masked autoencoder
5. 実験 59

•Masked autoencoderで事前学習を行い，エンコーダ部分だけを強化学習に用いる
•事前学習のデータセットには
オフラインデータセットと同じAtariゲームの画像を用いる
Masked autoencoder を用いた事前学習
5. 実験 60

•自己回帰モデルで用いられる自己教師あり学習手法
•高次元データから役にたつ情報のみを抽出して将来の予測に利用する
CPC (Contrastive Predictive Coding)
5. 実験 61
自己回帰モデル
エンコーダー

結果:
Scaled QL (ours)がStarGunner以外で他の手法を上回った
オフラインファインチューニング
5. 実験 62

•40個のAtariゲームで事前学習を行い，
オンライン上でファインチューニングを行った場合の性能を調べる
•オンラインでの環境は3つのゲーム(FREEWAY, HERO, BREAKOUT)を用いる
オンラインファインチィーニング
5. 実験 63
https://blog.research.google/2023/02/pre-training-generalist-agents-using.html?m=1

•Scaled QL (Ours): ファインチューニングを行うScaled QL
•Scaled QL (Scratch): 事前学習を行わないScaled QL
•MAE (Pretrain): 事前学習を行ったmasked autoencoderモデル
•Single-game DQN (50M): 5000万ステップの学習を行った後の
通常のオンラインDQNモデル
5. 実験 64

結果
•Scaled QL (Ours)が３つのゲームで最も高いスコアを獲得した
オンラインファインチューニング
5. 実験 65

評価方法:
•mean-sqared TD errorとcategorical TD error (C51)を比較する
•40ゲームにおけるhuman-normalized scoreの中央値を評価する
MSE vs C51
5. 実験 66
実験結果:
•C51を用いることで，ResNet 50とResNet 101の両方とも
MSEを用いた場合に比べて高い性能を示した
53.5% (+12.4%) 98.9% (+39.4%)

評価方法
•5つのゲーム(ASTERIX, BREAKOUT, PONG, SPACEINVADERS, SEAQUEST）
の最初の20%のデータを用いて学習を行う
•5つのゲームのhuman-normalized scoreの中央値を用いる
Feature-normalizationの重要性
5. 実験 67
結果
•全てのResNetにおいてfeature normalizationを用いたモデルが
高い性能を示した
79.8% (+28.9%) 85.3% (+9.6%) 98.0% (+17.6%)

•Scaled Q-Learningは大規模で多様なデータセットに対応し，
モデル自体も大規模にすることができた
•Scaled Q-Learningはデータセットのオンライン強化学習手法や
オフラインの従来手法を上回る性能を示した
•特に従来のオフライン強化学習手法比べて，
Scaled Q-LearningはSub-optimal Dataに対しても高い性能を示した
6. 結論 69

•将来的にOf
fl
ine Q-Learningに対してTransformerを用いた手法が重要になる
•本実験では未使用であるdata augmentationを用いることで
性能が上がる可能性がある
•Scaled Q-Learningをロボットシミュレーションなどの別の領域へ応用する
6. 今後の展望 71

論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes

More Related Content

Similar to 論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes (20)

論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes