SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Convolutional Conditional Neural Processes と
Neural Processes Family の紹介
Makoto Kawano(@mkt_kwn), Matsuo Lab.
書誌情報&謝辞
著者情報:
Jonathan Gordon, Wessel P. Bruinsma, Andrew Y. K. Foong, James Requeima,
Yann Dubois, Richard E. Turner
University of Cambridge, Invenia Labs, Microsoft Research
ICLR2020(8, 8, 6)
選定理由:
とりあえず強い
とにかく強い
ただただ強い
謝辞
本論文の理解及び発表資料作成するにあたって,貴重な時間を割いて議論していた
だいた理研 AIP の熊谷亘氏と松井孝太氏に感謝いたします.
1/49
補足
今回の論文 ConvCNP を発表するにあたって,Neural Process から説明しますが,よ
り詳細を知りたい方は,過去の資料を参照していただけると幸いです
(リンク埋め込み済,クリックしてもらえれば)
Conditional Neural Processes
Attentive Neural Processes
NP Family の実装について
2/49
研究概要
様々なドメインに対し,Neural Process は利用されている
時系列データや空間データ,欠損した画像データなど
Translation equivariance(平行移動等価性) の考慮が理想
データが時空間方向に平行移動した場合,予測も同様の平行移動をする
帰納的バイアスとして NP のモデル仮説に組み込まれるべき
現状,データセットからこの性質を学習させており,汎化の面で非効率的
サンプリング及びパラメータ数の面でもよくない
3/49
研究概要
Translation equivariance を組み込むには畳み込み構造が一番良い
CNN は,MLP に translation equivariance を追加
CNN のように NP に畳み込み構造は素直には入れられない
(i) CNN への入力データは “格子状” である必要あり
(ii) NP は部分的に観測された集合に対し演算可能だが,CNN は一般には無理
(iii) 入力の平行移動に関する等価性が自然ではない有限次元ベクトル空間へ
集合を埋め込む
関数表現を含むように集合における学習理論を拡張することで,
translation equivariance を NP が考慮できるようになり解決する
4/49
アウトライン
1. Neural Process Family
1.1 Neural Process
1.2 (Conditional) Neural Processes
1.3 Attentive Neural Processes
(AttnNPs)
1.4 Functional Neural Process
2. Convolutional Deep Sets
2.1 Permutation Invariant
2.2 Translation Equivalence
2.3 Representaions of Translation
Equivariant Functions on Sets
3. Convolutional Conditional Neural
Processes
3.1 φ の形式について
3.2 off-the-grid 時
3.3 on-the-grid 時
4. 実験
4.1 Synthetic 1D データセット
4.2 PLAsTiCC データセット
4.3 Predator-Prey モデル:SIM2REAL
4.4 2D 画像補完
5/49
Notation
入力空間:X = Rd
出力空間:Y ⊆ Rd (Y はコンパクト)
扱いやすくするため,スカラー出力 Y ⊆ R とする
M 個の入出力ペアの集合族 (系):ZM = (X × Y)M
高々 M ペアの集合族 (系):Z≤M = M
m=1 ZM
有限個ペアの集合族 (系):Z = ∞
m=1 ZM
後述の Z における permutation invariant を考えるため,
Z の元 Z は集合かデータセットとして言及
[n] = {1, . . . , n}
n までの自然数
7/49
Neural Process
Neural process
Context 集合 Z = {xm, ym}M
m=1 が観測されたとき,
入力 x における出力 y の条件付き確率 p(y|x, Z, θ) をパラメータ θ でモデル化
GP のように不確実性を扱うことができるような深層生成モデル
NP の利用可能先:
メタ学習
• テスト時に新しいコンテクスト集合から予測を生成することが可能
マルチタスク学習及び転移学習
• データセット間の情報を自然な形で共有することが可能
8/49
(Conditional) Neural Processes [Garnelo et al., 2018a][Garnelo et al., 2018b]
CNPs では,条件付き分布 p(y|x, Z) = p(y|Φ(x, Z), θ) を予測するモデル
Φ:エンコーダ E : Z → Re と ρ: Re → Cb(X, Y) の合成 ρ ◦ E で構成
E(Z) ∈ Re は,集合 Z のベクトル表現
Cb(X, Y) は,X → Y である一様ノルムをもつ連続な有界関数空間
Neural Process の場合:
E(Z) を再パラメータ化して
潜在変数 h を利用
q(h|E(Z)) をモデル化
目的関数:
CNPs:尤度最大化
NPs:尤度最大化+ KL 項 9/49
(Conditional) Neural Processes の課題
GP のように予測における不確実性を捉えることができる
NP Multihead ANP Oracle GP
一方で課題がいくつか残っている:
観測点における under-fitting ⇔ 予測点における over-confidence
非滑らかさ
深層学習ならではの理論的保証がないなど
10/49
Attentive Neural Processes (AttnNPs) [Kim et al., 2019]
Attention 機構を Neural Process に持たせる
観測点と予測点の関係性 (類似性) を考慮してないからダメ
ガウス過程では,ガウスカーネルによってこの帰納的バイアスを取り入れている
Attention を使うことで解決
11/49
Functional Neural Process [Louizos et al., 2019]
大域的な潜在変数ではなく,局所的な潜在変数同士の関係性をグラフで表現
入力点の潜在変数同士を積で表現: pθ(U|X) = i∈B pθ(ui|xi)
潜在変数同士の関係性をグラフで構築
inducing pointsR(赤領域) における DAG
R から M = DxR(点線) への二部グラフ
pθ (yB, ZB|R, G, A) dZB を求める
12/49
Neural Process のまとめ
観測点が与えられたときの条件付き分布を予測する深層生成モデル
ガウス過程のように予測の不確実性を捉えることができる
転移学習やメタ学習などにも応用可能
一部の意思決定関係の応用タスクでは GP より性能上 [Galashov et al., 2019]
一方で,未解決部分は多い
観測点において under-fitting が起きてしまう
滑らかさがない
観測点数 n → ∞ のときの一致性などが保証されていない
なんらかの形で Neural process に帰納的バイアスを持たせることが大事
13/49
Permutation Invariant (置換不変)
予測したいのは,複数の観測点集合が表現している関数
E:データ点ではなく集合を入力として受け付ける関数
集合の元には順序はなく,観測点の順番に対し,不変であるべき
性質 1:Sn-invariant と S-invariant [Zaheer et al., 2017]
Sn を n ∈ N である n 個の順列集合とする.Zn の関数 Φ は,
Φ(Zn) = Φ(πZn) for all π ∈ Sn and Zn ∈ Zn,
であるとき,Sn-invariant と呼ぶ.ただし,Zn への π 適用は,
πZn = ((xπ(1), yπ(1)), . . . , (xπ(n), yπ(n))) と定義される.
また,制約 Φ|Zn が全ての n で Sn-invariant であるとき,Z における関数 Φ は,
S-invariant という.
15/49
Permutation Invariant を持つ関数 Deep Sets
DeepSets [Zaheer et al., 2017]
任意の S-invariant な連続関数 f : Zn → R は,和分解可能
i.e. 適当な ρ と φ があるとき,f(Z) = ρ z∈Z φ(z) と表現できる
(観測されたデータ点) 集合を潜在表現に埋め込む encoder として多くの NPs で採用
GQN では,和を使っている
GQN は,NP の特殊なケースと見なすことが可能
Neural process では,和ではなく平均を使っている
16/49
Translation Equivalence (平行移動等価性)
もしデータの入力位置が τ だけ平行移動したら,出力も同様に平行移動してほしい
CNN の性能が良いのは,この性質を持つため
[Kondor and Trivedi, 2018, Cohen and Welling, 2016]
性質 2:集合における平行移動に対し等価な写像
H を X 上の関数空間とし,T と T を次のように定義する:
T : X × Z → Z, Tτ Z = ((x1 + τ, y1), . . . , (xm + τ, ym)),
T : X × H → H, Tτ h(x) = h(x − τ).
写像 Φ: Z → H が,
Φ(Tτ Z) = Tτ Φ(Z) for all τ ∈ X and Z ∈ Z.
であるとき,translation equivariance を持つ. 17/49
Neural Process のエンコーダにおける Translation Equivariance
既存 NP による集合 Z のベクトル空間 Rd への写像では,X の入力平行移動に関する
等価性は well-defined ではない
X 上の関数 f は τ ∈ X : f(· − τ) で平行移動可能
一方,ベクトル x ∈ Rd を関数 [d] → R,x(i) = xi とみなすと,平行移動
x(· − τ) は well-defined ではない
エンコーダ E : Z → H を X 上の関数を含む (関数) 空間 H に写像するように拡張
H 上の関数は X から写像されるため,E(Z) における translation equivariance
を定義可能
18/49
Multiplicity (重複度)
定義 2:Multiplicity
系 Z ⊆ Z について,各集合 Z ∈ Z に含まれる各 x が高々 K 回出現するとき:
mult Z := sup { sup { | { i ∈ [m] : xi = ˆx } | : ˆx = x1, . . . , xm
number of times every x occurs
} : (xi, yi)m
i=1 ∈ Z }
= K
Z は multiplicityK を持つという.ただし,[m] = { 1, . . . , m }
例えば:時系列や画像などの実世界データ
一ヶ所の入力位置につき,一つの (多次元である) 観測であることが多い
= multiplicity 1 に一致 (ほとんど 1 であることが多い)
19/49
主定理:ConvDeepSet
定理 1:連続かつ translation equivariant な関数 ConvDeepSet
重複度が K である適切な集合系 (族)Z≤M ⊆ Z≤M を考える.H を E の像を含む関
数空間とし,連続で translation equivariant な関数 ρ: H → Cb(X, Y) と,連続であ
る φ: Y → RK+1,ψ: X → R が
Φ(Z) = ρ (E(Z)) , E((x1, y1), . . . , (xm, ym)) =
m
i=1
φ(yi)ψ(· − xi)
という形を持つとき (①),関数 Φ: Z≤M → Cb(X, Y) が,連続かつ permutation
invariant/translation equivariant であること (②) と同値である.
この関数 Φ を ConvDeepSet と呼ぶ.
20/49
定理 1 証明のための補題
1. 商位相空間 An/Sn を定義
x を並び替えた y の関係を x ∼ y とし,∼ の同値類の集合系 (族) を An
/Sn とする
2. この位相空間で,E : [ZM ] → HM が同相写像である (補題 1 と補題 2)
集合系の要素数は M に固定
3. 元の数が ≤ M な集合でも E : [Z≤M ] → H≤M が同相写像である (補題 3)
E は全単射であり,逆写像 E−1
が存在
4. Φ: [Z≤M → Cb(X, Y)] を連続な関数だとすると,
Φ ◦ E−1
: H≤M → Cb(X, Y)
は連続となる (補題 4)
21/49
定理 1 の証明
① ⇒ ② (十分条件)
まず が可換則と結合則をもつため,Φ は permutation invariant である.次に,
Φ 及び ρ が translation equivariant であることは,直接確認できる:
Φ(Tτ Z) = ρ
M
i=1
φ(yi)ψ(· − (xi + τ))
= ρ
M
i=1
φ(yi)ψ((· − τ) − xi)
= ρ
M
i=1
φ(yi)ψ(· − xi) (· − τ)
= Φ(Z)(· − τ)
= Tτ Φ(Z). 22/49
定理 1 の証明
② ⇒ ① (必要条件)
Φ は permutation invariant であることを用いて,(制限 Φ|[Zm] は連続であるもとで)
Φ:
M
m=1
[Zm] → Cb(X, Y), Φ(Z) = Φ([Z])
を定義する.補題 3 により,E は逆写像を持つことから,[Z] = E−1(E([Z])) であ
る.ゆえに,
Φ(Z) = Φ([Z]) = Φ(E−1
(E([Z]))) = (Φ ◦ E−1
)
M
i=1
φ(yi)ψ(· − xi)
である.
23/49
定理 1 の証明
② ⇒ ① (必要条件) の続き
ρ = Φ ◦ E−1 を用いて ρ: H≤M → Cb(XY) と定義すると,補題 4 により,ρ は連続
である.
次に,ψ が不変カーネル1であることから,E−1 は translation equivariant である.
また,仮定より Φ が translation equivariant である.
よって,これらで構成された ρ も translation equivariant となる.
1
k(x − y) = ψ(x − y) の形を持つカーネルのこと 24/49
定理 1 の証明における重要な事項
1. ψ:RKHS に関係した正定値カーネルに設定
E に必要とする性質を持たせるために必要
(i)ψ(x, x ) ≥ 0,(ii)ψ(x, x) = σ2
> 0,(iii) x → ∞ のとき ψ(x, x ) → 0
2. φ:K 次元までの y の冪乗 (i.e. φ(y) = (y0, y1, · · · , yK)) [Zaheer et al., 2017]
集合系 (族)Zm ⊆ Zm は multiplicity K
E:カーネル ψ の RKHSH と内積 f, g HK+1 = K+1
i=1 fi, gi H で構成された
(K + 1) 次元ベクトルのヒルベルト空間 HK+1 = H × . . . × H に写像する:
Hm =
m
i=1
φ(yi)ψ(·, xi) : (xi, yi)m
i=1 ⊆ Zm ⊆ HK+1
3. ρ:連続かつ関数間で translation equivariant な写像が可能な関数近似器
25/49
Convolutional Conditional Neural Processes
ConvCNP
ConvCNP は,観測データ Z と ConvDeepSetΦ があるとき,
次の条件付き分布をモデル化する:
p(Y |X, Z) =
N
n=1
p (yn|Φθ(Z) (xn)) =
N
n=1
N (yn; µn, Σn)
with (µn, Σn) = Φθ(Z)(xn) = ρ(
m
i=1
φ(yi)ψ(· − xi))(xn)
Φ の要素である ρ,φ,ψ の設計が重要
ρ と ψ は,データが格子状にあるかないかで異なる
27/49
φ の形式について
この論文内で取り組むタスク:Z の multiplicity は 1 (i.e. K = 1)
一つの入力位置につき,一つの出力
φ はオーダーが 1 の指数系列:φ(y) = [1 y]
hi ←
N
n=1
1
yn
ψ(ti − xn)
1 次元目:データが観測されていることを示す情報
• y = 0 となるようなデータ点 x と区別をするため
• 観測点の “密度” を表現している
2 次元目以降:周辺の観測点の値をカーネルによる加重平均
獲得された関数表現 h のうち,h(0)
で h(1:)
を割る
入力位置が多様に富んでいるときに有効
28/49
off-the-grid 時の CONVCNPs
Theorem 1 の証明から残りの関数 φ と ρ は決まる:
ψ:定常性/非負/正定値を持つカーネル
指数二次 (exponentiated-quadratic; EQ) カーネルの選択が自然
φ との積で関数表現 E(Z) になる
ρ:連続/関数空間同士の写像が translation equivalent を持つ
CNN により translation equivalent は保持される
ρ の入力を離散化,CNN 適用,CNN の出力を連続関数に戻す
29/49
off-the-grid 時の順伝搬
require: ρ = (CNN, ψρ), ψ, density γ
require: context (xn, yn)N
n=1, target (x∗
m)M
m=1
1 begin
2 lower, upper ← range (xn)N
n=1 ∪ (x∗
m)M
m=1
3 (ti)T
i=1 ← uniform_grid(lower, upper; γ)
4 hi ← N
n=1
1
yn
ψ(ti − xn)
5 h
(1)
i ← h
(1)
i /h
(0)
i
6 (fµ(ti), fσ(ti))T
i=1 ← CNN((ti, hi)T
i=1)
7 µm ← T
i=1 fµ(ti)ψρ(x∗
m − ti)
8 σm ← T
i=1 exp(fσ(ti))ψρ(x∗
m − ti)
9 return (µm, σm)M
m=1
10 end 30/49
off-the-grid 時の順伝搬のイメージ
1. 観測点が与えられたときに,観測点の密度と値を使って関数表現を獲得
2. 格子状のデータ点を用意し,各点での平均と分散を畳み込んで計算
3. 格子点間の点における平均と分散をカーネルで戻して出力させる
31/49
on-the-grid 時の ConvCNPs
主に画像を入力にするときの場合を考える:ベンチマークでは画像補完タスク
off-the-grid の時に比べて実装は簡単 ピクセルの位置を利用
画像 I ∈ RH×W×C に対し,context マスク Mc を設定する
ピクセル位置 (i, j) が context に含まれている場合は 1,含まれなければ 0
φ の実装:Zc := Mc I,φ = [Mc, Zc]
あとは何回か CNN を通し,出力を 2C で出力する:平均と標準偏差
(µ, log(σ)) = Mt CNN(
E(context set)
[ conv(Mc)
density channel
; conv(Mc I)/conv(Mc)] )
32/49
on-the-grid 時の順伝搬
require: ρ = CNN, E = CONVθ
require: image I, context Mc, target mask Mt
1 begin
2 // We discretize at the pixel locations.
3 Zc ← Mc I // Extract Context set.
4 h ← CONVθ([Mc, Zc] )
5 h(1:C) ← h(1:C)/h(0)
6 ft ← Mt CNN(h)
7 µ ← f
(1:C)
t
8 σ ← pos(f
(C+1:2C)
t )
9 return (µ, σ)
10 end
33/49
ConvCNPs の学習
データセット D = {Zn}N
n=1 ⊆ Z とパラメータ θ が与えられたとき,
Zn を context set(Zn,c) と target set(Zn,t) に分割し,尤度最大化を行う:
θ∗
= arg max
θ∈Θ
N
n=1 (x,y)∈Zn,t
log p (y|Φθ(Zn,c)(x))
学習アルゴリズムとして確率的勾配降下法を適用
34/49
実験
on-the-grid 時と off-the-grid 時の両方で ConvCNPs の性能を評価
1. Translation equivariance は,性能改善に役立っているのか?
2. Translation equivariance は,ConvCNPs を訓練時と異なるデータに対して汎化
するのか?
複数の off-the-grid のデータセットでの実験:
不規則にサンプリングされた時系列 (X = R) データを利用
ガウス過程 [Williams and Rasmussen, 2006] と AttnCNP[Kim et al., 2019](潜在
パス抜き) と比較
複数の on-the-grid のデータセットでの実験:
画像データセット (X = R2)
36/49
2 種類の CNN アーキテクチャ
1D 回帰実験で使うモデル:
入力カーネル ψ と出力層 φp
学習可能な length scale パラメータありの EQ カーネル
ネットワークの大きさで 2 種類提案
ConvCNP:4 層の畳み込み,カーネルサイズ 5, [16, 32, 16, 2] チャンネル
• パラメータ数 5506 だと思うんだけど,論文では 6537
ConvCNPXL:UNet の構造から発想
• 12 層+skip coneection (最初の 6 層でチャンネル倍,終わり 6 層でチャンネル半分)
37/49
Synthetic 1D データセット
4 種類のカーネルを使ったガウス過程からサンプリングされたデータセットで回帰
EQ カーネル
Matern-5
2 カーネル
weakly-periodic カーネル
sawtooth 過程
Model Params EQ Weak Periodic Matern Sawtooth
CNP 66818 0.88 ± 3e-3 -1.10 ± 2e-3 -0.78 ± 1e-3 -0.16 ± 1e-5
AttnCNP 149250 2.58 ± 4e-3 -1.10 ± 2e-3 -0.42 ± 2e-3 0.33 ± 2e-3
ConvCNP 6537 2.06 ± 5e-3 -1.14 ± 2e-3 0.37 ± 4e-3 2.21 ± 4e-3
ConvCNPXL 50617 2.93 ± 4e-3 -0.41 ± 2e-3 0.50 ± 4e-3 2.66 ± 1e-3
AttnCNPConvCNP
38/49
PLAsTiCC データセット
大型シノプティック・サーベイ望遠鏡によって,現実的な観測条件下で観測された過
渡現象のシミュレーションデータ (Kaggle ページ)
6 種類の天文フィルタによる光子束を計測した 3,500,734 個の “光の曲線” データ
6 次元の時系列データ
比較対象:
優勝モデル:光の曲線をモデリングした GP
multi-input-multi-output の CONVCNP
Model Log-likelihood MSE
Kaggle GP [Boone, 2019] -0.335 ± 0.09 0.037 ± 4e-3
ConvCP (ours) 1.31 ± 0.30 0.040 ± 5e-3
39/49
Predator-Prey モデル:SIM2REAL
シミュレーションデータで学習して,実データでテスト
捕食–被食関係による個体数の変動を表現したロトカ・ヴォルテラの方程式を
利用して,シミュレーション
ロトカ・ヴォルテラ過程 [Papamakarios and Murray, 2016] のパラメータ推定に利用
Hudson’s Bay lynx-hare データセット (実データ) を条件づけて一部を補完
AttnNP ではできなかった
シミュレーションデータが可変長で translation equivariance が必要だから?
40/49
2D 画像補完
ピクセル座標 x∗
i の強度 y∗
i (RGB:∈ R3,グレースケール:∈ R) を予測
4 種類のよくあるベンチマークデータセットで実験
MNIST,SVHN,32 × 32,64 × 64 の CelebA
いずれも一つの物体が中央に位置 1 しているため,translation equivariance が
性能悪化させているかもしれない
複数の物体が非中央に位置している画像でもテスト
zero-shot MNIST(ZSMM)
訓練時は 1 枚辺り一個の数字,テスト時は 1 枚あたり 2 つの数字
Model Params MNIST SVHN CelebA32 CelebA64 ZSMM
AttnCNP 410k 1.08 ±0.04 3.94 ±0.02 3.18 ±0.02 -0.83 ±0.08
ConvCNP 181k 1.19 ±0.01 3.89 ±0.01 3.19 ±0.02 3.64 ±0.01 1.21 ±0.00
ConvCNPXL 408k 1.26 ±0.01 3.97 ±0.03 3.35 ±0.02 3.70 ±0.01 0.30 ±0.75
41/49
2D 画像補完の結果
ZSMM の補完における対数尤度ヒストグラムと異なる percentiles における補完結果
ConvCNP は,out-of-distribution であっても,うまく出来ている
AttnCNP:訓練データに偏り,中央に “平均” 的な数字を予測
42/49
その他の画像補完結果
CelebA や MNIST で学習させた ConvCNP を転移させる
Figure 3: 95%欠損したオスカー写真 43/49
まとめ
Neural process Family と ConvCNP について発表
Translation equivalence という帰納的バイアスを追加
Convolutional Deep Sets に関する定理を示す
畳み込みをうまくモデルに組み込む
様々な回帰タスクの実験で既存の AttentionCNP を上回る
1D 回帰及び 2D 回帰 (画像補完タスク)
感想
カーネルをうまく使ってあげることで,DNN だけでは難しいところをカバーし
ているのはうまい
きちんと証明しているのは強い (8p に及んでる)(つらい)
44/49
References i
[Boone, 2019] Boone, K. (2019).
Avocado: Photometric classification of astronomical transients with gaussian process
augmentation.
arXiv preprint arXiv:1907.04690.
[Cohen and Welling, 2016] Cohen, T. and Welling, M. (2016).
Group equivariant convolutional networks.
In Balcan, M. F. and Weinberger, K. Q., editors, Proceedings of The 33rd International Conference
on Machine Learning, volume 48 of Proceedings of Machine Learning Research, pages
2990–2999, New York, New York, USA. PMLR.
45/49
References ii
[Galashov et al., 2019] Galashov, A., Schwarz, J., Kim, H., Garnelo, M., Saxton, D., Kohli, P., Eslami, S.,
and Teh, Y. W. (2019).
Meta-learning surrogate models for sequential decision making.
arXiv preprint arXiv:1903.11907.
[Garnelo et al., 2018a] Garnelo, M., Rosenbaum, D., Maddison, C., Ramalho, T., Saxton, D., Shanahan,
M., Teh, Y. W., Rezende, D., and Eslami, S. M. A. (2018a).
Conditional neural processes.
In Dy, J. and Krause, A., editors, Proceedings of the 35th International Conference on Machine
Learning, volume 80 of Proceedings of Machine Learning Research, pages 1704–1713,
Stockholmsmässan, Stockholm Sweden. PMLR.
46/49
References iii
[Garnelo et al., 2018b] Garnelo, M., Schwarz, J., Rosenbaum, D., Viola, F., Rezende, D. J., Eslami, S., and
Teh, Y. W. (2018b).
Neural processes.
arXiv preprint arXiv:1807.01622.
[Kim et al., 2019] Kim, H., Mnih, A., Schwarz, J., Garnelo, M., Eslami, A., Rosenbaum, D., Vinyals, O., and
Teh, Y. W. (2019).
Attentive neural processes.
In International Conference on Learning Representations.
47/49
References iv
[Kondor and Trivedi, 2018] Kondor, R. and Trivedi, S. (2018).
On the generalization of equivariance and convolution in neural networks to the action of
compact groups.
In Dy, J. and Krause, A., editors, Proceedings of the 35th International Conference on Machine
Learning, volume 80 of Proceedings of Machine Learning Research, pages 2747–2755,
Stockholmsmässan, Stockholm Sweden. PMLR.
[Louizos et al., 2019] Louizos, C., Shi, X., Schutte, K., and Welling, M. (2019).
The functional neural process.
arXiv preprint arXiv:1906.08324.
[Papamakarios and Murray, 2016] Papamakarios, G. and Murray, I. (2016).
Fast -free inference of simulation models with bayesian conditional density estimation.
In Lee, D. D., Sugiyama, M., Luxburg, U. V., Guyon, I., and Garnett, R., editors, Advances in Neural
Information Processing Systems 29, pages 1028–1036.
48/49
References v
[Williams and Rasmussen, 2006] Williams, C. K. and Rasmussen, C. E. (2006).
Gaussian processes for machine learning, volume 2.
MIT press Cambridge, MA.
[Zaheer et al., 2017] Zaheer, M., Kottur, S., Ravanbakhsh, S., Poczos, B., Salakhutdinov, R. R., and
Smola, A. J. (2017).
Deep sets.
In Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R.,
editors, Advances in Neural Information Processing Systems 30, pages 3391–3401.
49/49

More Related Content

PPTX
[DL輪読会]Attentive neural processes
PDF
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
PDF
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PDF
深層生成モデルと世界モデル
PDF
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
【論文読み会】Self-Attention Generative Adversarial Networks
[DL輪読会]Attentive neural processes
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
深層生成モデルと世界モデル
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【論文読み会】Self-Attention Generative Adversarial Networks

What's hot (20)

PDF
実装レベルで学ぶVQVAE
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PPTX
Sliced Wasserstein距離と生成モデル
PDF
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
PPTX
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
PDF
POMDP下での強化学習の基礎と応用
PDF
【メタサーベイ】Neural Fields
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
PDF
PRML学習者から入る深層生成モデル入門
PDF
【メタサーベイ】基盤モデル / Foundation Models
PPTX
Graph Neural Networks
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
PDF
[DL輪読会]Disentangling by Factorising
PDF
Neural networks for Graph Data NeurIPS2018読み会@PFN
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PDF
パターン認識第9章 学習ベクトル量子化
実装レベルで学ぶVQVAE
【論文紹介】How Powerful are Graph Neural Networks?
Sliced Wasserstein距離と生成モデル
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
POMDP下での強化学習の基礎と応用
【メタサーベイ】Neural Fields
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
PRML学習者から入る深層生成モデル入門
【メタサーベイ】基盤モデル / Foundation Models
Graph Neural Networks
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
[DL輪読会]Disentangling by Factorising
Neural networks for Graph Data NeurIPS2018読み会@PFN
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
パターン認識第9章 学習ベクトル量子化
Ad

Similar to [DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介 (20)

PDF
Deep Learningの基礎と応用
PDF
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
PPTX
深層学習とTensorFlow入門
PPTX
深層学習の数理:カーネル法, スパース推定との接点
PPTX
深層学習の数理
PPTX
PDF
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
PDF
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
PPT
Deep Learningの技術と未来
PDF
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
PPTX
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
PPTX
機械学習を民主化する取り組み
PDF
PRML復々習レーン#9 前回までのあらすじ
PPTX
Image net classification with Deep Convolutional Neural Networks
PPTX
Deep Learningについて(改訂版)
PDF
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
PPTX
PRML第6章「カーネル法」
PDF
Recurrent Neural Networks
PDF
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
PDF
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
Deep Learningの基礎と応用
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
深層学習とTensorFlow入門
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
Deep Learningの技術と未来
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
機械学習を民主化する取り組み
PRML復々習レーン#9 前回までのあらすじ
Image net classification with Deep Convolutional Neural Networks
Deep Learningについて(改訂版)
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
PRML第6章「カーネル法」
Recurrent Neural Networks
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介

  • 1. DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Convolutional Conditional Neural Processes と Neural Processes Family の紹介 Makoto Kawano(@mkt_kwn), Matsuo Lab.
  • 2. 書誌情報&謝辞 著者情報: Jonathan Gordon, Wessel P. Bruinsma, Andrew Y. K. Foong, James Requeima, Yann Dubois, Richard E. Turner University of Cambridge, Invenia Labs, Microsoft Research ICLR2020(8, 8, 6) 選定理由: とりあえず強い とにかく強い ただただ強い 謝辞 本論文の理解及び発表資料作成するにあたって,貴重な時間を割いて議論していた だいた理研 AIP の熊谷亘氏と松井孝太氏に感謝いたします. 1/49
  • 3. 補足 今回の論文 ConvCNP を発表するにあたって,Neural Process から説明しますが,よ り詳細を知りたい方は,過去の資料を参照していただけると幸いです (リンク埋め込み済,クリックしてもらえれば) Conditional Neural Processes Attentive Neural Processes NP Family の実装について 2/49
  • 4. 研究概要 様々なドメインに対し,Neural Process は利用されている 時系列データや空間データ,欠損した画像データなど Translation equivariance(平行移動等価性) の考慮が理想 データが時空間方向に平行移動した場合,予測も同様の平行移動をする 帰納的バイアスとして NP のモデル仮説に組み込まれるべき 現状,データセットからこの性質を学習させており,汎化の面で非効率的 サンプリング及びパラメータ数の面でもよくない 3/49
  • 5. 研究概要 Translation equivariance を組み込むには畳み込み構造が一番良い CNN は,MLP に translation equivariance を追加 CNN のように NP に畳み込み構造は素直には入れられない (i) CNN への入力データは “格子状” である必要あり (ii) NP は部分的に観測された集合に対し演算可能だが,CNN は一般には無理 (iii) 入力の平行移動に関する等価性が自然ではない有限次元ベクトル空間へ 集合を埋め込む 関数表現を含むように集合における学習理論を拡張することで, translation equivariance を NP が考慮できるようになり解決する 4/49
  • 6. アウトライン 1. Neural Process Family 1.1 Neural Process 1.2 (Conditional) Neural Processes 1.3 Attentive Neural Processes (AttnNPs) 1.4 Functional Neural Process 2. Convolutional Deep Sets 2.1 Permutation Invariant 2.2 Translation Equivalence 2.3 Representaions of Translation Equivariant Functions on Sets 3. Convolutional Conditional Neural Processes 3.1 φ の形式について 3.2 off-the-grid 時 3.3 on-the-grid 時 4. 実験 4.1 Synthetic 1D データセット 4.2 PLAsTiCC データセット 4.3 Predator-Prey モデル:SIM2REAL 4.4 2D 画像補完 5/49
  • 7. Notation 入力空間:X = Rd 出力空間:Y ⊆ Rd (Y はコンパクト) 扱いやすくするため,スカラー出力 Y ⊆ R とする M 個の入出力ペアの集合族 (系):ZM = (X × Y)M 高々 M ペアの集合族 (系):Z≤M = M m=1 ZM 有限個ペアの集合族 (系):Z = ∞ m=1 ZM 後述の Z における permutation invariant を考えるため, Z の元 Z は集合かデータセットとして言及 [n] = {1, . . . , n} n までの自然数 7/49
  • 8. Neural Process Neural process Context 集合 Z = {xm, ym}M m=1 が観測されたとき, 入力 x における出力 y の条件付き確率 p(y|x, Z, θ) をパラメータ θ でモデル化 GP のように不確実性を扱うことができるような深層生成モデル NP の利用可能先: メタ学習 • テスト時に新しいコンテクスト集合から予測を生成することが可能 マルチタスク学習及び転移学習 • データセット間の情報を自然な形で共有することが可能 8/49
  • 9. (Conditional) Neural Processes [Garnelo et al., 2018a][Garnelo et al., 2018b] CNPs では,条件付き分布 p(y|x, Z) = p(y|Φ(x, Z), θ) を予測するモデル Φ:エンコーダ E : Z → Re と ρ: Re → Cb(X, Y) の合成 ρ ◦ E で構成 E(Z) ∈ Re は,集合 Z のベクトル表現 Cb(X, Y) は,X → Y である一様ノルムをもつ連続な有界関数空間 Neural Process の場合: E(Z) を再パラメータ化して 潜在変数 h を利用 q(h|E(Z)) をモデル化 目的関数: CNPs:尤度最大化 NPs:尤度最大化+ KL 項 9/49
  • 10. (Conditional) Neural Processes の課題 GP のように予測における不確実性を捉えることができる NP Multihead ANP Oracle GP 一方で課題がいくつか残っている: 観測点における under-fitting ⇔ 予測点における over-confidence 非滑らかさ 深層学習ならではの理論的保証がないなど 10/49
  • 11. Attentive Neural Processes (AttnNPs) [Kim et al., 2019] Attention 機構を Neural Process に持たせる 観測点と予測点の関係性 (類似性) を考慮してないからダメ ガウス過程では,ガウスカーネルによってこの帰納的バイアスを取り入れている Attention を使うことで解決 11/49
  • 12. Functional Neural Process [Louizos et al., 2019] 大域的な潜在変数ではなく,局所的な潜在変数同士の関係性をグラフで表現 入力点の潜在変数同士を積で表現: pθ(U|X) = i∈B pθ(ui|xi) 潜在変数同士の関係性をグラフで構築 inducing pointsR(赤領域) における DAG R から M = DxR(点線) への二部グラフ pθ (yB, ZB|R, G, A) dZB を求める 12/49
  • 13. Neural Process のまとめ 観測点が与えられたときの条件付き分布を予測する深層生成モデル ガウス過程のように予測の不確実性を捉えることができる 転移学習やメタ学習などにも応用可能 一部の意思決定関係の応用タスクでは GP より性能上 [Galashov et al., 2019] 一方で,未解決部分は多い 観測点において under-fitting が起きてしまう 滑らかさがない 観測点数 n → ∞ のときの一致性などが保証されていない なんらかの形で Neural process に帰納的バイアスを持たせることが大事 13/49
  • 14. Permutation Invariant (置換不変) 予測したいのは,複数の観測点集合が表現している関数 E:データ点ではなく集合を入力として受け付ける関数 集合の元には順序はなく,観測点の順番に対し,不変であるべき 性質 1:Sn-invariant と S-invariant [Zaheer et al., 2017] Sn を n ∈ N である n 個の順列集合とする.Zn の関数 Φ は, Φ(Zn) = Φ(πZn) for all π ∈ Sn and Zn ∈ Zn, であるとき,Sn-invariant と呼ぶ.ただし,Zn への π 適用は, πZn = ((xπ(1), yπ(1)), . . . , (xπ(n), yπ(n))) と定義される. また,制約 Φ|Zn が全ての n で Sn-invariant であるとき,Z における関数 Φ は, S-invariant という. 15/49
  • 15. Permutation Invariant を持つ関数 Deep Sets DeepSets [Zaheer et al., 2017] 任意の S-invariant な連続関数 f : Zn → R は,和分解可能 i.e. 適当な ρ と φ があるとき,f(Z) = ρ z∈Z φ(z) と表現できる (観測されたデータ点) 集合を潜在表現に埋め込む encoder として多くの NPs で採用 GQN では,和を使っている GQN は,NP の特殊なケースと見なすことが可能 Neural process では,和ではなく平均を使っている 16/49
  • 16. Translation Equivalence (平行移動等価性) もしデータの入力位置が τ だけ平行移動したら,出力も同様に平行移動してほしい CNN の性能が良いのは,この性質を持つため [Kondor and Trivedi, 2018, Cohen and Welling, 2016] 性質 2:集合における平行移動に対し等価な写像 H を X 上の関数空間とし,T と T を次のように定義する: T : X × Z → Z, Tτ Z = ((x1 + τ, y1), . . . , (xm + τ, ym)), T : X × H → H, Tτ h(x) = h(x − τ). 写像 Φ: Z → H が, Φ(Tτ Z) = Tτ Φ(Z) for all τ ∈ X and Z ∈ Z. であるとき,translation equivariance を持つ. 17/49
  • 17. Neural Process のエンコーダにおける Translation Equivariance 既存 NP による集合 Z のベクトル空間 Rd への写像では,X の入力平行移動に関する 等価性は well-defined ではない X 上の関数 f は τ ∈ X : f(· − τ) で平行移動可能 一方,ベクトル x ∈ Rd を関数 [d] → R,x(i) = xi とみなすと,平行移動 x(· − τ) は well-defined ではない エンコーダ E : Z → H を X 上の関数を含む (関数) 空間 H に写像するように拡張 H 上の関数は X から写像されるため,E(Z) における translation equivariance を定義可能 18/49
  • 18. Multiplicity (重複度) 定義 2:Multiplicity 系 Z ⊆ Z について,各集合 Z ∈ Z に含まれる各 x が高々 K 回出現するとき: mult Z := sup { sup { | { i ∈ [m] : xi = ˆx } | : ˆx = x1, . . . , xm number of times every x occurs } : (xi, yi)m i=1 ∈ Z } = K Z は multiplicityK を持つという.ただし,[m] = { 1, . . . , m } 例えば:時系列や画像などの実世界データ 一ヶ所の入力位置につき,一つの (多次元である) 観測であることが多い = multiplicity 1 に一致 (ほとんど 1 であることが多い) 19/49
  • 19. 主定理:ConvDeepSet 定理 1:連続かつ translation equivariant な関数 ConvDeepSet 重複度が K である適切な集合系 (族)Z≤M ⊆ Z≤M を考える.H を E の像を含む関 数空間とし,連続で translation equivariant な関数 ρ: H → Cb(X, Y) と,連続であ る φ: Y → RK+1,ψ: X → R が Φ(Z) = ρ (E(Z)) , E((x1, y1), . . . , (xm, ym)) = m i=1 φ(yi)ψ(· − xi) という形を持つとき (①),関数 Φ: Z≤M → Cb(X, Y) が,連続かつ permutation invariant/translation equivariant であること (②) と同値である. この関数 Φ を ConvDeepSet と呼ぶ. 20/49
  • 20. 定理 1 証明のための補題 1. 商位相空間 An/Sn を定義 x を並び替えた y の関係を x ∼ y とし,∼ の同値類の集合系 (族) を An /Sn とする 2. この位相空間で,E : [ZM ] → HM が同相写像である (補題 1 と補題 2) 集合系の要素数は M に固定 3. 元の数が ≤ M な集合でも E : [Z≤M ] → H≤M が同相写像である (補題 3) E は全単射であり,逆写像 E−1 が存在 4. Φ: [Z≤M → Cb(X, Y)] を連続な関数だとすると, Φ ◦ E−1 : H≤M → Cb(X, Y) は連続となる (補題 4) 21/49
  • 21. 定理 1 の証明 ① ⇒ ② (十分条件) まず が可換則と結合則をもつため,Φ は permutation invariant である.次に, Φ 及び ρ が translation equivariant であることは,直接確認できる: Φ(Tτ Z) = ρ M i=1 φ(yi)ψ(· − (xi + τ)) = ρ M i=1 φ(yi)ψ((· − τ) − xi) = ρ M i=1 φ(yi)ψ(· − xi) (· − τ) = Φ(Z)(· − τ) = Tτ Φ(Z). 22/49
  • 22. 定理 1 の証明 ② ⇒ ① (必要条件) Φ は permutation invariant であることを用いて,(制限 Φ|[Zm] は連続であるもとで) Φ: M m=1 [Zm] → Cb(X, Y), Φ(Z) = Φ([Z]) を定義する.補題 3 により,E は逆写像を持つことから,[Z] = E−1(E([Z])) であ る.ゆえに, Φ(Z) = Φ([Z]) = Φ(E−1 (E([Z]))) = (Φ ◦ E−1 ) M i=1 φ(yi)ψ(· − xi) である. 23/49
  • 23. 定理 1 の証明 ② ⇒ ① (必要条件) の続き ρ = Φ ◦ E−1 を用いて ρ: H≤M → Cb(XY) と定義すると,補題 4 により,ρ は連続 である. 次に,ψ が不変カーネル1であることから,E−1 は translation equivariant である. また,仮定より Φ が translation equivariant である. よって,これらで構成された ρ も translation equivariant となる. 1 k(x − y) = ψ(x − y) の形を持つカーネルのこと 24/49
  • 24. 定理 1 の証明における重要な事項 1. ψ:RKHS に関係した正定値カーネルに設定 E に必要とする性質を持たせるために必要 (i)ψ(x, x ) ≥ 0,(ii)ψ(x, x) = σ2 > 0,(iii) x → ∞ のとき ψ(x, x ) → 0 2. φ:K 次元までの y の冪乗 (i.e. φ(y) = (y0, y1, · · · , yK)) [Zaheer et al., 2017] 集合系 (族)Zm ⊆ Zm は multiplicity K E:カーネル ψ の RKHSH と内積 f, g HK+1 = K+1 i=1 fi, gi H で構成された (K + 1) 次元ベクトルのヒルベルト空間 HK+1 = H × . . . × H に写像する: Hm = m i=1 φ(yi)ψ(·, xi) : (xi, yi)m i=1 ⊆ Zm ⊆ HK+1 3. ρ:連続かつ関数間で translation equivariant な写像が可能な関数近似器 25/49
  • 25. Convolutional Conditional Neural Processes ConvCNP ConvCNP は,観測データ Z と ConvDeepSetΦ があるとき, 次の条件付き分布をモデル化する: p(Y |X, Z) = N n=1 p (yn|Φθ(Z) (xn)) = N n=1 N (yn; µn, Σn) with (µn, Σn) = Φθ(Z)(xn) = ρ( m i=1 φ(yi)ψ(· − xi))(xn) Φ の要素である ρ,φ,ψ の設計が重要 ρ と ψ は,データが格子状にあるかないかで異なる 27/49
  • 26. φ の形式について この論文内で取り組むタスク:Z の multiplicity は 1 (i.e. K = 1) 一つの入力位置につき,一つの出力 φ はオーダーが 1 の指数系列:φ(y) = [1 y] hi ← N n=1 1 yn ψ(ti − xn) 1 次元目:データが観測されていることを示す情報 • y = 0 となるようなデータ点 x と区別をするため • 観測点の “密度” を表現している 2 次元目以降:周辺の観測点の値をカーネルによる加重平均 獲得された関数表現 h のうち,h(0) で h(1:) を割る 入力位置が多様に富んでいるときに有効 28/49
  • 27. off-the-grid 時の CONVCNPs Theorem 1 の証明から残りの関数 φ と ρ は決まる: ψ:定常性/非負/正定値を持つカーネル 指数二次 (exponentiated-quadratic; EQ) カーネルの選択が自然 φ との積で関数表現 E(Z) になる ρ:連続/関数空間同士の写像が translation equivalent を持つ CNN により translation equivalent は保持される ρ の入力を離散化,CNN 適用,CNN の出力を連続関数に戻す 29/49
  • 28. off-the-grid 時の順伝搬 require: ρ = (CNN, ψρ), ψ, density γ require: context (xn, yn)N n=1, target (x∗ m)M m=1 1 begin 2 lower, upper ← range (xn)N n=1 ∪ (x∗ m)M m=1 3 (ti)T i=1 ← uniform_grid(lower, upper; γ) 4 hi ← N n=1 1 yn ψ(ti − xn) 5 h (1) i ← h (1) i /h (0) i 6 (fµ(ti), fσ(ti))T i=1 ← CNN((ti, hi)T i=1) 7 µm ← T i=1 fµ(ti)ψρ(x∗ m − ti) 8 σm ← T i=1 exp(fσ(ti))ψρ(x∗ m − ti) 9 return (µm, σm)M m=1 10 end 30/49
  • 29. off-the-grid 時の順伝搬のイメージ 1. 観測点が与えられたときに,観測点の密度と値を使って関数表現を獲得 2. 格子状のデータ点を用意し,各点での平均と分散を畳み込んで計算 3. 格子点間の点における平均と分散をカーネルで戻して出力させる 31/49
  • 30. on-the-grid 時の ConvCNPs 主に画像を入力にするときの場合を考える:ベンチマークでは画像補完タスク off-the-grid の時に比べて実装は簡単 ピクセルの位置を利用 画像 I ∈ RH×W×C に対し,context マスク Mc を設定する ピクセル位置 (i, j) が context に含まれている場合は 1,含まれなければ 0 φ の実装:Zc := Mc I,φ = [Mc, Zc] あとは何回か CNN を通し,出力を 2C で出力する:平均と標準偏差 (µ, log(σ)) = Mt CNN( E(context set) [ conv(Mc) density channel ; conv(Mc I)/conv(Mc)] ) 32/49
  • 31. on-the-grid 時の順伝搬 require: ρ = CNN, E = CONVθ require: image I, context Mc, target mask Mt 1 begin 2 // We discretize at the pixel locations. 3 Zc ← Mc I // Extract Context set. 4 h ← CONVθ([Mc, Zc] ) 5 h(1:C) ← h(1:C)/h(0) 6 ft ← Mt CNN(h) 7 µ ← f (1:C) t 8 σ ← pos(f (C+1:2C) t ) 9 return (µ, σ) 10 end 33/49
  • 32. ConvCNPs の学習 データセット D = {Zn}N n=1 ⊆ Z とパラメータ θ が与えられたとき, Zn を context set(Zn,c) と target set(Zn,t) に分割し,尤度最大化を行う: θ∗ = arg max θ∈Θ N n=1 (x,y)∈Zn,t log p (y|Φθ(Zn,c)(x)) 学習アルゴリズムとして確率的勾配降下法を適用 34/49
  • 33. 実験 on-the-grid 時と off-the-grid 時の両方で ConvCNPs の性能を評価 1. Translation equivariance は,性能改善に役立っているのか? 2. Translation equivariance は,ConvCNPs を訓練時と異なるデータに対して汎化 するのか? 複数の off-the-grid のデータセットでの実験: 不規則にサンプリングされた時系列 (X = R) データを利用 ガウス過程 [Williams and Rasmussen, 2006] と AttnCNP[Kim et al., 2019](潜在 パス抜き) と比較 複数の on-the-grid のデータセットでの実験: 画像データセット (X = R2) 36/49
  • 34. 2 種類の CNN アーキテクチャ 1D 回帰実験で使うモデル: 入力カーネル ψ と出力層 φp 学習可能な length scale パラメータありの EQ カーネル ネットワークの大きさで 2 種類提案 ConvCNP:4 層の畳み込み,カーネルサイズ 5, [16, 32, 16, 2] チャンネル • パラメータ数 5506 だと思うんだけど,論文では 6537 ConvCNPXL:UNet の構造から発想 • 12 層+skip coneection (最初の 6 層でチャンネル倍,終わり 6 層でチャンネル半分) 37/49
  • 35. Synthetic 1D データセット 4 種類のカーネルを使ったガウス過程からサンプリングされたデータセットで回帰 EQ カーネル Matern-5 2 カーネル weakly-periodic カーネル sawtooth 過程 Model Params EQ Weak Periodic Matern Sawtooth CNP 66818 0.88 ± 3e-3 -1.10 ± 2e-3 -0.78 ± 1e-3 -0.16 ± 1e-5 AttnCNP 149250 2.58 ± 4e-3 -1.10 ± 2e-3 -0.42 ± 2e-3 0.33 ± 2e-3 ConvCNP 6537 2.06 ± 5e-3 -1.14 ± 2e-3 0.37 ± 4e-3 2.21 ± 4e-3 ConvCNPXL 50617 2.93 ± 4e-3 -0.41 ± 2e-3 0.50 ± 4e-3 2.66 ± 1e-3 AttnCNPConvCNP 38/49
  • 36. PLAsTiCC データセット 大型シノプティック・サーベイ望遠鏡によって,現実的な観測条件下で観測された過 渡現象のシミュレーションデータ (Kaggle ページ) 6 種類の天文フィルタによる光子束を計測した 3,500,734 個の “光の曲線” データ 6 次元の時系列データ 比較対象: 優勝モデル:光の曲線をモデリングした GP multi-input-multi-output の CONVCNP Model Log-likelihood MSE Kaggle GP [Boone, 2019] -0.335 ± 0.09 0.037 ± 4e-3 ConvCP (ours) 1.31 ± 0.30 0.040 ± 5e-3 39/49
  • 37. Predator-Prey モデル:SIM2REAL シミュレーションデータで学習して,実データでテスト 捕食–被食関係による個体数の変動を表現したロトカ・ヴォルテラの方程式を 利用して,シミュレーション ロトカ・ヴォルテラ過程 [Papamakarios and Murray, 2016] のパラメータ推定に利用 Hudson’s Bay lynx-hare データセット (実データ) を条件づけて一部を補完 AttnNP ではできなかった シミュレーションデータが可変長で translation equivariance が必要だから? 40/49
  • 38. 2D 画像補完 ピクセル座標 x∗ i の強度 y∗ i (RGB:∈ R3,グレースケール:∈ R) を予測 4 種類のよくあるベンチマークデータセットで実験 MNIST,SVHN,32 × 32,64 × 64 の CelebA いずれも一つの物体が中央に位置 1 しているため,translation equivariance が 性能悪化させているかもしれない 複数の物体が非中央に位置している画像でもテスト zero-shot MNIST(ZSMM) 訓練時は 1 枚辺り一個の数字,テスト時は 1 枚あたり 2 つの数字 Model Params MNIST SVHN CelebA32 CelebA64 ZSMM AttnCNP 410k 1.08 ±0.04 3.94 ±0.02 3.18 ±0.02 -0.83 ±0.08 ConvCNP 181k 1.19 ±0.01 3.89 ±0.01 3.19 ±0.02 3.64 ±0.01 1.21 ±0.00 ConvCNPXL 408k 1.26 ±0.01 3.97 ±0.03 3.35 ±0.02 3.70 ±0.01 0.30 ±0.75 41/49
  • 39. 2D 画像補完の結果 ZSMM の補完における対数尤度ヒストグラムと異なる percentiles における補完結果 ConvCNP は,out-of-distribution であっても,うまく出来ている AttnCNP:訓練データに偏り,中央に “平均” 的な数字を予測 42/49
  • 40. その他の画像補完結果 CelebA や MNIST で学習させた ConvCNP を転移させる Figure 3: 95%欠損したオスカー写真 43/49
  • 41. まとめ Neural process Family と ConvCNP について発表 Translation equivalence という帰納的バイアスを追加 Convolutional Deep Sets に関する定理を示す 畳み込みをうまくモデルに組み込む 様々な回帰タスクの実験で既存の AttentionCNP を上回る 1D 回帰及び 2D 回帰 (画像補完タスク) 感想 カーネルをうまく使ってあげることで,DNN だけでは難しいところをカバーし ているのはうまい きちんと証明しているのは強い (8p に及んでる)(つらい) 44/49
  • 42. References i [Boone, 2019] Boone, K. (2019). Avocado: Photometric classification of astronomical transients with gaussian process augmentation. arXiv preprint arXiv:1907.04690. [Cohen and Welling, 2016] Cohen, T. and Welling, M. (2016). Group equivariant convolutional networks. In Balcan, M. F. and Weinberger, K. Q., editors, Proceedings of The 33rd International Conference on Machine Learning, volume 48 of Proceedings of Machine Learning Research, pages 2990–2999, New York, New York, USA. PMLR. 45/49
  • 43. References ii [Galashov et al., 2019] Galashov, A., Schwarz, J., Kim, H., Garnelo, M., Saxton, D., Kohli, P., Eslami, S., and Teh, Y. W. (2019). Meta-learning surrogate models for sequential decision making. arXiv preprint arXiv:1903.11907. [Garnelo et al., 2018a] Garnelo, M., Rosenbaum, D., Maddison, C., Ramalho, T., Saxton, D., Shanahan, M., Teh, Y. W., Rezende, D., and Eslami, S. M. A. (2018a). Conditional neural processes. In Dy, J. and Krause, A., editors, Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pages 1704–1713, Stockholmsmässan, Stockholm Sweden. PMLR. 46/49
  • 44. References iii [Garnelo et al., 2018b] Garnelo, M., Schwarz, J., Rosenbaum, D., Viola, F., Rezende, D. J., Eslami, S., and Teh, Y. W. (2018b). Neural processes. arXiv preprint arXiv:1807.01622. [Kim et al., 2019] Kim, H., Mnih, A., Schwarz, J., Garnelo, M., Eslami, A., Rosenbaum, D., Vinyals, O., and Teh, Y. W. (2019). Attentive neural processes. In International Conference on Learning Representations. 47/49
  • 45. References iv [Kondor and Trivedi, 2018] Kondor, R. and Trivedi, S. (2018). On the generalization of equivariance and convolution in neural networks to the action of compact groups. In Dy, J. and Krause, A., editors, Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pages 2747–2755, Stockholmsmässan, Stockholm Sweden. PMLR. [Louizos et al., 2019] Louizos, C., Shi, X., Schutte, K., and Welling, M. (2019). The functional neural process. arXiv preprint arXiv:1906.08324. [Papamakarios and Murray, 2016] Papamakarios, G. and Murray, I. (2016). Fast -free inference of simulation models with bayesian conditional density estimation. In Lee, D. D., Sugiyama, M., Luxburg, U. V., Guyon, I., and Garnett, R., editors, Advances in Neural Information Processing Systems 29, pages 1028–1036. 48/49
  • 46. References v [Williams and Rasmussen, 2006] Williams, C. K. and Rasmussen, C. E. (2006). Gaussian processes for machine learning, volume 2. MIT press Cambridge, MA. [Zaheer et al., 2017] Zaheer, M., Kottur, S., Ravanbakhsh, S., Poczos, B., Salakhutdinov, R. R., and Smola, A. J. (2017). Deep sets. In Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R., editors, Advances in Neural Information Processing Systems 30, pages 3391–3401. 49/49