MLaPP Ch.9
⼀般化線形モデルと指数型分布族
Generalized linear models
and
the exponential family
1 / 56
Generalized linear models and the exponential family
アウトライン
1. イントロダクション
2. 指数型分布族
3. ⼀般化線形モデル
4. プロビット回帰
5. マルチタスク学習
6. ⼀般化線形混合モデル
7. ランキング学習
2 / 56
Generalized linear models and the exponential family Introduction
Subsection 1
Introduction
3 / 56
Generalized linear models and the exponential family Introduction
この章で扱う内容
▶ 指数型分布族 (exponential family) と呼ばれる確率
分布の族の導⼊とその性質
▶ ⼀般化線形モデル (generalized linear model) と
呼ばれる線形回帰やロジスティック回帰を⼀般化し
たモデルの紹介と応⽤
▶ ランキング学習 (learning for rank)
4 / 56
Generalized linear models and the exponential family The exponential family
Subsection 2
The exponential family
5 / 56
Generalized linear models and the exponential family The exponential family
指数型分布族
▶ ある条件を満たす確率分布の族
▶ ガウス分布、ベルヌーイ分布、ガンマ分布...
▶ 指数分布も含まれますが特に関係ありません
▶ 様々な良い性質を持っている
▶ ⼗分統計量や共役事前分布が存在
▶ 分布に関する制約があるとき制約を満たす分布の中
で最適
▶ ⼀般化線形モデルや変分推定の考え⽅のもとになる
6 / 56
Generalized linear models and the exponential family The exponential family
1. 定義
2. 例
3. 対数分配関数
4. 指数型分布族に対する最尤推定
5. 指数型分布族に対するベイズ法
6. 最⼤エントロピー原理による指数分布族の導出
7 / 56
Generalized linear models and the exponential family The exponential family
Definition
確率密度関数または確率質量関数
p (x|θ)
(
x = (x1, . . . , xm) ∈ Xm
, θ ∈ Θ ⊆ Rd
)
が以下の形で
書けるような確率分布の族を指数型分布族と⾔う
p (x|θ) =
1
Z (θ)
h (x) exp
[
θT
ϕ (x)
]
= h (x) exp
[
θT
ϕ (x) − A (θ)
]
.
ここで
Z (θ) =
ˆ
Xm
h (x) exp
[
θT
ϕ (x)
]
dx
A (θ) = log Z (θ) .
8 / 56
Generalized linear models and the exponential family The exponential family
p (x|θ) =
1
Z (θ)
h (x) exp
[
θT
ϕ (x)
]
= h (x) exp
[
θT
ϕ (x) − A (θ)
]
Z (θ) =
ˆ
Xm
h (x) exp
[
θT
ϕ (x)
]
dx
A (θ) = log Z (θ)
▶ θ: ⾃然パラメータ (natural parameter) または
正準パラメータ (canonical parameter)
▶ ϕ (x) ∈ Rd: ⼗分統計量 (sufficient statistics)
▶ Z (x): 分配関数 (partition function) →規格化定数に対応
▶ A (θ): 対数分配関数 (log partition function) または
キュムラント⽣成関数 (cumulant function)
または⾃由エネルギー (free energy)
9 / 56
Generalized linear models and the exponential family The exponential family
p (x|θ) =
1
Z (θ)
h (x) exp
[
θT
ϕ (x)
]
= h (x) exp
[
θT
ϕ (x) − A (θ)
]
Z (θ) =
ˆ
Xm
h (x) exp
[
θT
ϕ (x)
]
dx
A (θ) = log Z (θ)
▶ h (x): スケールパラメータ
▶ 通常はh (x) = 1 (になるように ϕ を選ぶ)
▶ x ⾃⾝が⼗分統計量 (ϕ (x) = x) のとき⾃然な指数分布族
(natural exponential family) と呼ぶ (xの測度をいじれば...)
9 / 56
Generalized linear models and the exponential family The exponential family
▶ 指数型分布族の形式
p (x|θ) = h (x) exp
[
θT
ϕ (x) − A (θ)
]
をある関数 η (θ) によって
p (x|θ) = h (x) exp
[
η (θ)T
ϕ (x) − A (θ)
]
と書いたとき dim (θ) < dim (η (θ)) なら曲指数型分布族
(curved exponential family) と呼ぶ
▶ このとき⼗分統計量の次元はパラメータより多い
▶ η (θ) = θ の形を指数分布族の確率モデルの標準形
(canonical form) と呼ぶ
▶ この η (θ) = θ の時に θ を⾃然パラメータ (natural parameter) と呼ぶ
流儀もある?
10 / 56
Generalized linear models and the exponential family The exponential family
ベルヌーイ分布
Ber (x|µ) = µx
(1 − µ)1−x
= exp [x log µ + (1 − x) log (1 − µ)]
= exp
[
ϕ (x)T
θ
]
▶ ϕ (x) = [I (x = 0) , I (x = 1)] , θ = [log µ, log (1 − µ)]
▶ 上の定式化は over-complete
11 / 56
Generalized linear models and the exponential family The exponential family
ベルヌーイ分布
Ber (x|µ) = µx
(1 − µ)1−x
= (1 − µ) exp
[
x log
(
µ
1 − µ
)]
= exp
[
ϕ (x) θ − ln(1 + eθ
)
]
▶ ϕ (x) = x, θ = log
(
µ
1−µ
)
▶ θ = log
(
µ
1−µ
)
は対数オッズ (log-odds ratio)
▶ µ = sigm (θ) = 1/
(
1 + e−θ
)
11 / 56
Generalized linear models and the exponential family The exponential family
マルチヌーイ分布 (カテゴリカル分布)
Cat (x|µ) =
K∏
k=1
µxk
k = exp
[ K∑
k=1
xk log µk
]
= exp
[K−1∑
k=1
xk log
µk
µK
+ log µK
]
▶ xk = I (x = k)
▶ θ =
[
log µ1
µK
, . . . , log
µK−1
µK
]
, ϕ (x) = [x1, . . . , xK−1]
12 / 56
Generalized linear models and the exponential family The exponential family
(1変量) ガウス分布
N
(
x|µ, σ2
)
=
1
(2πσ2)1/2
exp
[
−
1
2σ2
(x − µ)2
]
=
1
(2πσ2)1/2
exp
[
−
1
2σ2
x2
+
µ
σ2
x −
1
σ2
µ2
]
▶ θ = (θ1, θ2) =
( µ
σ2 , − 1
2σ2
)
, ϕ (x) = (x, x2
)
▶ A (θ) = −
θ2
1
4θ2
− 1
2
log (−2θ2) − 1
2
log (2π)
13 / 56
Generalized linear models and the exponential family The exponential family
指数型分布族でない分布
▶ ⼀様分布 Unif (a, b)
p (x|a, b) =
{
1
b−a
a < x < b
0 otherwise
▶ 分布のサポートがパラメータに依存
▶ スチューデントのt分布
14 / 56
Generalized linear models and the exponential family The exponential family
対数分配関数について
▶ 対数分配関数A (θ)はキュムラント⺟関数とも呼ばれ
級数展開した時の各項の係数をキュムラントと呼ぶ
▶ キュムラント⺟関数やキュムラントは指数型以外の
分布にもあります (別の定義を使う)
▶ A (θ) を使って ϕ (x) の平均や分散などが計算できる
▶ dA
dθ
= E [ϕ (x)] , d2A
dθ2 = var [ϕ (x)] , ...
▶ 2A (θ) = cov [ϕ (x)]
▶ 共分散⾏列は正定値 ⇒ A (θ) は凸関数
15 / 56
Generalized linear models and the exponential family The exponential family
ベルヌーイ分布
Ber (x|µ) = µx
(1 − µ)1−x
= (1 − µ) exp
[
x log
(
µ
1 − µ
)]
= exp
[
ϕ (x) θ − ln(1 + eθ
)
]
A (θ) = ln(1 + eθ
)
dA
dθ
=
eθ
1 + eθ
=
1
1 + e−θ
= sigm (θ) = µ = E [x] = E [ϕ (x)]
d2
A
dθ2
=
(
略
)
= (1 − µ) µ = Var [x] = Var [ϕ (x)]
16 / 56
Generalized linear models and the exponential family The exponential family
指数型分布族に対する最尤推定
▶ 指数型分布族のモデルにおいてサンプル
D = (x1, . . . , xN) に対するパラメータ θ の最尤推定量
argmax
θ
p (D|θ) は次式を満たす θ になる
(
dA
dθ
=
)
E [ϕ (x)] =
1
N
N∑
i=1
ϕ (xi)
これを moment matching と呼ぶ
17 / 56
Generalized linear models and the exponential family The exponential family
▶ 指数型分布族のモデルの尤度は次のようにかける
(η (θ) = θ なら g (θ) = 1/Z (θ) とすればよい)
p (D|θ) =
[ N∏
i=1
h (xi)
]
g (θ)N
exp
(
η (θ)T
[ N∑
i=1
ϕ (xi)
])
▶ ⼗分統計量
ϕ (D) =
[ N∑
i=1
ϕ1 (xi) , . . . ,
N∑
i=1
ϕK (xi)
]
▶ (適当な正則条件の下で) 有限個の⼗分統計量を持つ
分布は指数型分布族だけである
(Pitman-Koopman-Darmois theorem)
▶ 正則条件を満たさないときは成り⽴たない
(例: ⼀様分布)
18 / 56
Generalized linear models and the exponential family The exponential family
指数型分布族に対するベイズ法
▶ 共役事前分布は有限個の⼗分統計量が存在するとき
にのみ存在
▶ 指数型分布族のモデルの尤度
p (D|θ) ∝ g (θ)N
exp
(
η (θ)T
sN
)
ただしsN =
∑N
i=1 s (xi)
▶ θ の共役事前分布は
p (θ|ν0, τ0) ∝ g (θ)ν0
exp
(
η (θ)T
τ0
)
▶ θ の事後分布は (上の2式の積だから)
p (θ|D) = p (θ|νN, τN) = p (θ|ν0 + N, τ0 + sN)
∝ g (θ)ν0+N0
exp
(
η (θ)T
(τ0 + sN)
)
19 / 56
Generalized linear models and the exponential family The exponential family
事後予測分布
▶ D = (x1, . . . , xN) が観測された下での
D′
= (˜x1, . . . , ˜xN′ ) の事後予測分布は
p (D′
|D) =
ˆ
p (D′
|θ) p (θ|D) dθ
=
[ N′
∏
i=1
h (˜xi)
]
Z ( ˜τ0 + ˜s (D) + ˜s (D′
))
Z ( ˜τ0 + ˜s (D))
▶ ˜τ0 = (ν0, τ0) , ˜s (D) = (N, s (D)) , ˜s (D′) = (N′, s (D′))
▶ Z: p (θ|˜τ) の正規化定数
(Z (˜τ) =
´
g (θ)ν
exp
(
η (θ)T
τ
)
dθ )
20 / 56
Generalized linear models and the exponential family The exponential family
最⼤エントロピー原理による導出
▶ 分布 p (x) が関数 fk と定数 Fk (k = 1, . . .) に対して
以下の制約を満たすとする
∑
x
fk (x) p (x) = Fk
▶ 上の制約の下で分布のモーメントと経験分布のモー
メントが⼀致する分布の中で最もエントロピーが⼤
きい (⼀様分布に近い) 分布は定数 λk を使って
p (x) =
1
Z
exp
(
−
∑
k
λkfk (x)
)
と指数型分布族の形でかける
▶ p (x) はギブス分布として知られている
▶ (平衡状態において系のエネルギーが従う分布)
21 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
Subsection 3
Generalized linear models (GLMs)
22 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
⼀般化線形モデル
⼀般化線形モデル (generalized linear model; GLM)
出⼒の分布が指数型分布族であり、分布の平均が⼊⼒の
線形結合 (またはその⾮線形な変換) で表されるモデル
▶ 線形回帰やロジスティック回帰を⼀般化したモデル
▶ 出⼒の分布と⼊⼒と出⼒の関係に関してより柔軟な
モデルが作れる
23 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
出⼒の分布
▶ ⼊⼒を持たず1変数の出⼒ yi を持つ簡単なモデル
p
(
yi|θ, σ2
)
= exp
[
yiθ − A (θ)
σ2
+ c
(
yi, σ2
)
]
▶ σ2: dispersion parameter
▶ θ: ⾃然パラメータ
▶ A: 分配関数
▶ c: 正規化係数
▶ 指数型分布族ではある可逆な関数 ψ によって平均 µ
と⾃然パラメータ θ が θ = ψ (µ) と書き表せる
▶ ⼀般に µ = ψ−1 (θ) = A′ (θ)
24 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
リンク関数 (link function)
▶ ⼊⼒の線形結合 ηi に関する可逆で単調な関数により
出⼒ yi の (⼊⼒が xi の条件付き) 分布の平均を表す
µi = g−1
(ηi) = g−1
(
wT
xi
)
この g−1
を mean function と呼び
g をリンク関数 (link function) と呼ぶ
▶ 要するに出⼒の平均と⼊⼒との関係を表す関数
▶ 可逆かつ適当な定義域をもつ任意の関数が使える
▶ 特に g = ψ のとき正準リンク関数 (canonical link
function) と呼ぶ
25 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
正準リンク関数を使ったGLM
▶ さっきのモデルに⼊⼒を追加
p
(
yi|xi, w, σ2
)
= exp
[
yiwT
x − A
(
wT
x
)
σ2
+ c
(
yi, σ2
)
]
出⼒の分布と対応する正準リンク関数の例
y の分布 y の範囲 リンク g (µ) θ = ψ (µ) µ = ψ−1 (θ) = E [y]
N
(
µ, σ2
)
(−∞, ∞) identity θ = µ µ = θ
Bin (N, µ) 0, . . . , N logit θ = log
(
µ
1−µ
)
µ = sigm (θ)
Poi (µ) 0, 1, 2, . . . log θ = log µ µ = eθ
26 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
線形回帰
出⼒が正規分布でリンク関数が恒等変換
log p
(
yi|xi, w, σ2
)
=
yiµi −
µ2
i
2
σ2
−
1
2
(
y2
i
σ2
+ log
(
2πσ2
)
)
▶ yi ∈ R
▶ θi = µi = wT
xi
▶ A (θ) = θ2
/2, E [yi] = µi, Var [yi] = σ2
27 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
⼆項回帰 (binomial regression)
出⼒が⼆項分布でリンク関数がロジット関数
log p (yi|xi, w) = yi log
(
πi
1 − πi
)
+ Ni log (1 − πi) + log
(
Ni
yi
)
▶ yi ∈ {0, 1, . . . , Ni}
▶ πi = sigm
(
wT
xi
)
, θi = log (πi/ (1 − πi)) = wT
xi,
σ2
= 1
▶ A (θ) = Ni log
(
1 + eθ
)
, E [yi] = Niπi,
Var [yi] = Niπi (1 − πi)
28 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
ポアソン回帰 (poisson regression)
出⼒がポアソン分布でリンク関数が対数関数
log p (yi|xi, w) = yi log (µi) + µi + log (yi!)
▶ yi ∈ {0, 1, 2, . . .}
▶ µi = exp
(
wT
x
)
, θi = log (µi) = wT
xi, σ2
= 1
▶ A (θ) = eθ
, E [yi] = Var [yi] = µi
29 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
最尤推定とMAP推定
▶ ロジスティック回帰 (8章) と同様に w を最適化
▶ 対数尤度
ℓ (w) = log p (D|w) =
1
σ2
N∑
i=1
ℓi
ℓi ≜ θiyi − A (θi)
▶ 勾配
dℓi
dwj
= (yi − µi)
dθi
dµi
dµi
dηi
xij
▶ 特に正準なリンク関数を使うとき
wℓ (w) =
1
σ2
[ N∑
i=1
(yi − µi) xi
]
▶ 2次の勾配法でより効率的に計算できる
▶ MAP推定もロジスティック回帰と同様に
30 / 56
Generalized linear models and the exponential family Generalized linear models (GLMs)
ベイズ推定
▶ w の事後分布を求める
▶ MCMC (24章)
▶ メトロポリス法, ギブスサンプリング,...
▶ ガウス近似や変分法
31 / 56
Generalized linear models and the exponential family Probit regression
Subsection 4
Probit regression
32 / 56
Generalized linear models and the exponential family Probit regression
プロビット回帰
▶ 出⼒の分布がベルヌーイ/⼆項分布のときリンク関数
としてプロビット関数 (正規分布の累積分布関数の
逆関数) を使う⽅法
−6 −4 −2 0 2 4 6
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
sigmoid
probit
33 / 56
Generalized linear models and the exponential family Probit regression
プロビット回帰の利点
▶ 最適化が簡単になる (?)
▶ 潜在変数によるモデルの解釈ができる (random
utility model; RUM)
▶ 出⼒が順序つきの離散値であるモデルへの拡張
(ordinal regression)
▶ 出⼒が多クラスのモデルへの拡張 (multinomial
probit)
34 / 56
Generalized linear models and the exponential family Multi-task learning
Subsection 5
Multi-task learning
35 / 56
Generalized linear models and the exponential family Multi-task learning
マルチタスク学習 (multi-task learning)
▶ 関係のある複数の分類や回帰モデルを学習したい時
それらのタスクが似ていると仮定することによって
同時に学習を⾏い性能を向上させる⼿法
36 / 56
Generalized linear models and the exponential family Multi-task learning
階層ベイズによるマルチタスク学習
▶ 階層ベイズ (→5章) で複数のグループを同時に扱う
▶ 例: J 校の学校にそれぞれ Nj ⼈の⽣徒がおり yij を
j 番⽬ (j = 1, . . . , J) の学校の i 番⽬
(
i = 1, . . . , Nj
)
の
⽣徒の試験の成績とする
▶ xij を yij に対応する特徴としたときに各グループに
対してそれぞれモデル p (yij|xij) を学習するのが⽬的
▶ しかし、⼀部のグループは⼤量のデータを持つ⼀⽅
多くのグループには少量のデータしかない
37 / 56
Generalized linear models and the exponential family Multi-task learning
▶ 出⼒の条件付き分布の平均をリンク関数 g で表して
各グループを特徴付けるパラメータ βj が共通の分布
に従うと仮定
E [yij|xij] = g−1
(
xT
ijβj
)
βj ∼ N
(
β∗, σ2
j
)
β∗ ∼ N
(
µ, σ2
∗
)
▶ 共通のパラメータ β∗ を通して各 βj が相関するため
サンプルが少数のグループでもうまく学習できる
(5.5節参照)
38 / 56
Generalized linear models and the exponential family Multi-task learning
マルチタスク学習の応⽤例
▶ Personalized spam filter
▶ メールがスパムかどうかをユーザー毎に予測
E [yi|xi, u = j] =
(
βT
∗ + wj
)T
xi
▶ β∗: 全ユーザーのメールから推定されるパラメータ
▶ wj: ユーザーj のメールから推定されるパラメータ
▶ Domain adaptation (ドメイン適応)
▶ 異なる分布で表されるデータ上での分類器の集合を
学習する問題
39 / 56
Generalized linear models and the exponential family Multi-task learning
▶ ⾃然⾔語処理におけるドメイン適応の例
▶ 固有表現認識 (named entity recognition)
▶ 構⽂解析
という2つのタスクに階層ベイズモデルを適⽤
Finkel, Jenny Rose, and Christopher D. Manning. ”Hierarchical bayesian domain adaptation.” Proceedings
of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the
Association for Computational Linguistics. Association for Computational Linguistics, 2009.
40 / 56
Generalized linear models and the exponential family Multi-task learning
事前分布の種類
▶ マルチタスク学習では事前分布としてガウス分布を
仮定することが多い
▶ 他の事前分布がよいこともある
▶ sparsity-promoting prior
▶ Conjoint analysis (マーケティングにおいて商品の
どの要素が最も客に好まれるかの分析) で使われる
▶ 混合ガウス分布
▶ 全てのタスクが同様に似ていると仮定できないとき
41 / 56
Generalized linear models and the exponential family Generalized linear mixed models
Subsection 6
Generalized linear mixed models
42 / 56
Generalized linear models and the exponential family Generalized linear mixed models
⼀般化線形混合モデル
▶ マルチタスク学習のモデルを⼀般化
E
[
yij|xij, xj
]
= g
(
ϕ1
(
xij
)T
βj + ϕ2
(
xj
)T
β′
j + ϕ3
(
xij
)
α + ϕ4
(
xj
)
α′
)
▶ xj: 各グループを表す特徴
▶ βj, β′
j: 各グループごとのパラメータ
▶ α, α′
: 全グループ共通のパラメータ
▶ ϕk: 基底関数
xj
xij
yij
Nj
βj
J
µβ σ2
β
αµα
σ2
α
σ2
y
43 / 56
Generalized linear models and the exponential family Generalized linear mixed models
⼀般化線形混合モデル
▶ マルチタスク学習のモデルを⼀般化
E
[
yij|xij, xj
]
= g
(
ϕ1
(
xij
)T
βj + ϕ2
(
xj
)T
β′
j + ϕ3
(
xij
)
α + ϕ4
(
xj
)
α′
)
▶ xj: 各グループを表す特徴
▶ βj, β′
j: 各グループごとのパラメータ
▶ α, α′
: 全グループ共通のパラメータ
▶ ϕk: 基底関数
▶ 頻度主義統計では βj を変量効果 (random effects)
α を固定効果 (fixed effects) と呼んで概念上区別し
これらを含んだモデルを混合モデル (mixed model)
と呼ぶ
▶ p (y|x) がGLMのとき⼀般化線形 (混合) 効果モデル
(generalized linear mixed effects model; GLMM,
GLME) と呼ぶ
43 / 56
Generalized linear models and the exponential family Generalized linear mixed models
例: 医療データ
▶ ⾻に含まれるミネラルの密度について
1. ⼈種間での違いがあるかどうか解明
2. 年齢による説明
を⾏いたい
▶ 使うデータ
▶ yij: j 番の⼈の i 回⽬に測った⾻ミネラル濃度
▶ xij: j 番の⼈の i 回⽬に測った年齢
▶ xj: j 番の⼈の⼈種 (White, Asian, Black, Hispanic)
44 / 56
Generalized linear models and the exponential family Generalized linear mixed models
▶ 線形回帰とノンパラメトリック回帰を組み合わせた
セミパラメトリックモデル (semi-parametric
model) を使う
▶ ⾻ミネラル濃度の年齢に関する⾮線形性を表すため
▶ さらに個⼈差を変量効果とみなし混合モデルで表す
▶ ϕ1
(
xij
)
= 1,ϕ2
(
xj
)
= 0
▶ ϕ3
(
xij
)
= b
(
xij
)
=
[
bk
(
xij
)]
(ノンパラ担当)
▶ bk: k 次スプライン基底関数
▶ ϕ4
(
xj
)
=
[
I
(
xj = White
)
, . . . , I
(
xj = Hispanic
)]
▶ 出⼒を正規分布、リンク関数を線形関数とすれば
最終的なモデルは
yij =βj + αT
b (xij) + ϵij
+ α′
wI (xj = W) + · · · + α′
hI (xj = H)
(教科書から微修正)
▶ ϵij ∼ N
(
0, σ2
y
)
45 / 56
Generalized linear models and the exponential family Generalized linear mixed models
22 M. P. WAND
age in years
spinalbonemineraldensity(g/cm2
)
0.6
0.8
1.0
1.2
1.4
10 15 20 25
Asian Black
Hispanic
10 15 20 25
0.6
0.8
1.0
1.2
1.4
White
Figure 9. MCMC-based estimate of the non-linear age effect in the spinal bone mineral density example.
The dashed lines correspond to pointwise 95% credible sets.
for the spinal bone mineral density example. The main difference is that y is now a binary
rather than a Gaussian node.
Wand, M. P. ”Semiparametric regression and graphical models.” Australian & New Zealand Journal of
Statistics 51.1 (2009): 9-41.
46 / 56
Generalized linear models and the exponential family Learning to rank
Subsection 7
Learning to rank
47 / 56
Generalized linear models and the exponential family Learning to rank
ランキング学習 (Learning to rank; LETOR)
▶ 項⽬をランク付けする関数を学習する問題
▶ GLMとは特に関係ないけど他に適当な場所がないのでここで紹介
▶ 代表的な応⽤は情報検索
▶ クエリqとそれに関連するかもしれないドキュメント
d1
, . . . , dm
を考える
▶ 例: q という⽂字列を含む全てのドキュメント
▶ q との適合性の⾼い順に d1
, . . . , dm
をソートして
上位 k 項をユーザーに⽰したい
48 / 56
Generalized linear models and the exponential family Learning to rank
適合性 (relevance) の評価
▶ Bag of words にもとづく確率的⾔語モデルにより
適合性を評価する例
sim (q, d) ≜ p (q|d) =
n∏
i=1
p (qi|d)
▶ qi: q の i 番⽬の単語または項 (i = 1, . . . , n)
▶ p (qi|d): d に出現する単語の頻度から推定される
マルチヌーイ分布
▶ 頻度だけでなく PageRank のような他のシグナルも
組み合わせて適合性を評価したい
PageRank webのリンク構造から導出されるwebページ
の信頼性の指標
49 / 56
Generalized linear models and the exponential family Learning to rank
The pointwise approach
▶ クエリとドキュメントの組み合わせによって決まる
特徴量 x (q, d) に対して
▶ 適合する/しないの2値分類 または
▶ 数段階の適合性に順序回帰
を⾏って事後確率 p (y = 1 or r|x (q, d)) でソート
▶ 特徴量には例えば query-document similarity
score や page rank score が含まれる
▶ 教師データのラベルはクエリのログでドキュメント
が⼀定回数以上クリックされたかどうかで与える
▶ ドキュメントのリスト上での位置を考慮しないため
リストの最下位と最上位での誤差を全く同じように
罰してしまう (??)
50 / 56
Generalized linear models and the exponential family Learning to rank
The pairwise approach
▶ 適合性を各ドキュメントに対する絶対評価ではなく
ドキュメント間の相対評価で決める
▶ ラベル yjk を、ドキュメント dj が dk より適合して
いれば 1 、そうでなければ 0 とする
▶ シグモイド関数を使えば
p
(
yjk = 1|xj, xk
)
= sigm (f (xj) − f (xk))
▶ f (x): スコア関数
▶ f (x) = wT
x とすればこのモデルは RankNet として
知られるニューラルネットワークの⼀種になる
51 / 56
Generalized linear models and the exponential family Learning to rank
The listwise approach
▶ 全ドキュメントのリストを直接モデル化
▶ 順序を Plackett-Luce distribution でモデリング
Plackett-Luce distribution
下式で表されるリストの並び替え π : j → π (j) の分布
p (π|s) =
m∏
j=1
sj
∑m
u=j su
▶ sj = s (π−1
(j)): π によって j 番⽬にランクされた
ドキュメントのスコア
▶ ドキュメントの上位への出現しやすさを表している
52 / 56
Generalized linear models and the exponential family Learning to rank
Plackett-Luce distribution の例
▶ ランキング π = (A, B, C) の確率 p (π) は
p (π|s) =
sA
sA + sB + sC
×
sB
sB + sC
×
sC
sC
▶
sA
sA+sB+sC
: A が1番⽬にランクされる確率
▶
sB
sB+sC
: A が1番⽬にランクされたときに、
B が2番⽬にランクされる確率
▶
sC
sC
: A, B が1,2番⽬にランクされたときに、
C が3番⽬にランクされる確率
53 / 56
Generalized linear models and the exponential family Learning to rank
▶ クエリ q に対する各ドキュメントのスコアを
s (d) = f (x (q, d)) とすればクエリが与えられたとき
のランクの分布が決められる
▶ f (x) = wT
x がよく使われ ListNet と呼ばれる
54 / 56
Generalized linear models and the exponential family Learning to rank
ランキングに対する損失関数
Mean reciprocal rank (MRR) クエリ q に1番適合する
ドキュメントの順位 r (q) の逆数 1/r (q)
Mean average precision (MAP) precision at k (P@k)
の適合するドキュメント (の順位の) 全体に
ついての平均 (1に近いほど良い)
P@k (π) ≜
πの上位k件中の適合するドキュメントの数
k
Normalized discounted cumulative gain (NDGG)  
適合性が数段階に表されているときに使う
Rank correlation 基準となるランキングとの相関を使う
(普通の意味での相関とは違い種類も様々)
55 / 56
Generalized linear models and the exponential family Learning to rank
▶ 損失関数はベイズか頻度かで使い⽅が変わる
▶ ベイズ的アプローチではパラメータの事後分布から
のサンプリングや平均によって期待損失を計算
▶ 頻度的アプローチでは損失を直接最⼩化
▶ 関数が微分可能ではないため最⼩化には勾配を使わ
ない最適化か計算しやすい代理の損失関数を使う
▶ 例えば precision@k (P@k) の近似として wieghted
approximate-rank pairwise (WARP) がある
56 / 56

More Related Content

PPTX
帰納バイアスが成立する条件
PDF
計算論的学習理論入門 -PAC学習とかVC次元とか-
PDF
機械学習モデルのハイパパラメータ最適化
PPTX
PRML第6章「カーネル法」
PDF
回帰不連続デザイン(Regression Discontinuity Design, RDD)
PPTX
ようやく分かった!最尤推定とベイズ推定
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PDF
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
帰納バイアスが成立する条件
計算論的学習理論入門 -PAC学習とかVC次元とか-
機械学習モデルのハイパパラメータ最適化
PRML第6章「カーネル法」
回帰不連続デザイン(Regression Discontinuity Design, RDD)
ようやく分かった!最尤推定とベイズ推定
【DL輪読会】Scaling Laws for Neural Language Models
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法

What's hot (20)

PDF
PRML輪読#2
PPTX
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
PRML学習者から入る深層生成モデル入門
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PDF
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
PPTX
モンテカルロ法と情報量
PDF
全力解説!Transformer
PDF
階層モデルの分散パラメータの事前分布について
PDF
2 3.GLMの基礎
PDF
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
PDF
Chapter2.3.6
PDF
クラシックな機械学習入門:付録:よく使う線形代数の公式
PDF
Stochastic Variational Inference
PDF
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
PDF
強化学習その2
PDF
「ベータ分布の謎に迫る」第6回 プログラマのための数学勉強会 LT資料
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
Visualizing Data Using t-SNE
PRML輪読#2
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
[DL輪読会]相互情報量最大化による表現学習
PRML学習者から入る深層生成モデル入門
【論文紹介】How Powerful are Graph Neural Networks?
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
モンテカルロ法と情報量
全力解説!Transformer
階層モデルの分散パラメータの事前分布について
2 3.GLMの基礎
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Chapter2.3.6
クラシックな機械学習入門:付録:よく使う線形代数の公式
Stochastic Variational Inference
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
強化学習その2
「ベータ分布の謎に迫る」第6回 プログラマのための数学勉強会 LT資料
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
Visualizing Data Using t-SNE
Ad

Similar to MLaPP 9章 「一般化線形モデルと指数型分布族」 (20)

PDF
【書きかけ】一般化線形モデルの流れ
PPTX
第四回統計学勉強会@東大駒場
PDF
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
PDF
データ解析のための統計モデリング入門 6.5章 後半
PDF
データ解析のための統計モデリング入門-6章後半
PDF
PRML 上 2.3.6 ~ 2.5.2
PDF
[PRML] パターン認識と機械学習(第1章:序論)
PDF
PRML_titech 2.3.1 - 2.3.7
PDF
PRML 10.4 - 10.6
PDF
20180118 一般化線形モデル(glm)
PPTX
一般線形モデル
PDF
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
PPTX
パターン認識モデル初歩の初歩
PDF
第六回「データ解析のための統計モデリング入門」前半
PDF
Stanコードの書き方 中級編
PDF
Prml2.1 2.2,2.4-2.5
PDF
PRML2.1 2.2
PDF
PRML 2.3.9-2.4.1
PDF
PRML 2.3.2-2.3.4 ガウス分布
PDF
PRML セミナー
【書きかけ】一般化線形モデルの流れ
第四回統計学勉強会@東大駒場
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
データ解析のための統計モデリング入門 6.5章 後半
データ解析のための統計モデリング入門-6章後半
PRML 上 2.3.6 ~ 2.5.2
[PRML] パターン認識と機械学習(第1章:序論)
PRML_titech 2.3.1 - 2.3.7
PRML 10.4 - 10.6
20180118 一般化線形モデル(glm)
一般線形モデル
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
パターン認識モデル初歩の初歩
第六回「データ解析のための統計モデリング入門」前半
Stanコードの書き方 中級編
Prml2.1 2.2,2.4-2.5
PRML2.1 2.2
PRML 2.3.9-2.4.1
PRML 2.3.2-2.3.4 ガウス分布
PRML セミナー
Ad

MLaPP 9章 「一般化線形モデルと指数型分布族」

  • 2. Generalized linear models and the exponential family アウトライン 1. イントロダクション 2. 指数型分布族 3. ⼀般化線形モデル 4. プロビット回帰 5. マルチタスク学習 6. ⼀般化線形混合モデル 7. ランキング学習 2 / 56
  • 3. Generalized linear models and the exponential family Introduction Subsection 1 Introduction 3 / 56
  • 4. Generalized linear models and the exponential family Introduction この章で扱う内容 ▶ 指数型分布族 (exponential family) と呼ばれる確率 分布の族の導⼊とその性質 ▶ ⼀般化線形モデル (generalized linear model) と 呼ばれる線形回帰やロジスティック回帰を⼀般化し たモデルの紹介と応⽤ ▶ ランキング学習 (learning for rank) 4 / 56
  • 5. Generalized linear models and the exponential family The exponential family Subsection 2 The exponential family 5 / 56
  • 6. Generalized linear models and the exponential family The exponential family 指数型分布族 ▶ ある条件を満たす確率分布の族 ▶ ガウス分布、ベルヌーイ分布、ガンマ分布... ▶ 指数分布も含まれますが特に関係ありません ▶ 様々な良い性質を持っている ▶ ⼗分統計量や共役事前分布が存在 ▶ 分布に関する制約があるとき制約を満たす分布の中 で最適 ▶ ⼀般化線形モデルや変分推定の考え⽅のもとになる 6 / 56
  • 7. Generalized linear models and the exponential family The exponential family 1. 定義 2. 例 3. 対数分配関数 4. 指数型分布族に対する最尤推定 5. 指数型分布族に対するベイズ法 6. 最⼤エントロピー原理による指数分布族の導出 7 / 56
  • 8. Generalized linear models and the exponential family The exponential family Definition 確率密度関数または確率質量関数 p (x|θ) ( x = (x1, . . . , xm) ∈ Xm , θ ∈ Θ ⊆ Rd ) が以下の形で 書けるような確率分布の族を指数型分布族と⾔う p (x|θ) = 1 Z (θ) h (x) exp [ θT ϕ (x) ] = h (x) exp [ θT ϕ (x) − A (θ) ] . ここで Z (θ) = ˆ Xm h (x) exp [ θT ϕ (x) ] dx A (θ) = log Z (θ) . 8 / 56
  • 9. Generalized linear models and the exponential family The exponential family p (x|θ) = 1 Z (θ) h (x) exp [ θT ϕ (x) ] = h (x) exp [ θT ϕ (x) − A (θ) ] Z (θ) = ˆ Xm h (x) exp [ θT ϕ (x) ] dx A (θ) = log Z (θ) ▶ θ: ⾃然パラメータ (natural parameter) または 正準パラメータ (canonical parameter) ▶ ϕ (x) ∈ Rd: ⼗分統計量 (sufficient statistics) ▶ Z (x): 分配関数 (partition function) →規格化定数に対応 ▶ A (θ): 対数分配関数 (log partition function) または キュムラント⽣成関数 (cumulant function) または⾃由エネルギー (free energy) 9 / 56
  • 10. Generalized linear models and the exponential family The exponential family p (x|θ) = 1 Z (θ) h (x) exp [ θT ϕ (x) ] = h (x) exp [ θT ϕ (x) − A (θ) ] Z (θ) = ˆ Xm h (x) exp [ θT ϕ (x) ] dx A (θ) = log Z (θ) ▶ h (x): スケールパラメータ ▶ 通常はh (x) = 1 (になるように ϕ を選ぶ) ▶ x ⾃⾝が⼗分統計量 (ϕ (x) = x) のとき⾃然な指数分布族 (natural exponential family) と呼ぶ (xの測度をいじれば...) 9 / 56
  • 11. Generalized linear models and the exponential family The exponential family ▶ 指数型分布族の形式 p (x|θ) = h (x) exp [ θT ϕ (x) − A (θ) ] をある関数 η (θ) によって p (x|θ) = h (x) exp [ η (θ)T ϕ (x) − A (θ) ] と書いたとき dim (θ) < dim (η (θ)) なら曲指数型分布族 (curved exponential family) と呼ぶ ▶ このとき⼗分統計量の次元はパラメータより多い ▶ η (θ) = θ の形を指数分布族の確率モデルの標準形 (canonical form) と呼ぶ ▶ この η (θ) = θ の時に θ を⾃然パラメータ (natural parameter) と呼ぶ 流儀もある? 10 / 56
  • 12. Generalized linear models and the exponential family The exponential family ベルヌーイ分布 Ber (x|µ) = µx (1 − µ)1−x = exp [x log µ + (1 − x) log (1 − µ)] = exp [ ϕ (x)T θ ] ▶ ϕ (x) = [I (x = 0) , I (x = 1)] , θ = [log µ, log (1 − µ)] ▶ 上の定式化は over-complete 11 / 56
  • 13. Generalized linear models and the exponential family The exponential family ベルヌーイ分布 Ber (x|µ) = µx (1 − µ)1−x = (1 − µ) exp [ x log ( µ 1 − µ )] = exp [ ϕ (x) θ − ln(1 + eθ ) ] ▶ ϕ (x) = x, θ = log ( µ 1−µ ) ▶ θ = log ( µ 1−µ ) は対数オッズ (log-odds ratio) ▶ µ = sigm (θ) = 1/ ( 1 + e−θ ) 11 / 56
  • 14. Generalized linear models and the exponential family The exponential family マルチヌーイ分布 (カテゴリカル分布) Cat (x|µ) = K∏ k=1 µxk k = exp [ K∑ k=1 xk log µk ] = exp [K−1∑ k=1 xk log µk µK + log µK ] ▶ xk = I (x = k) ▶ θ = [ log µ1 µK , . . . , log µK−1 µK ] , ϕ (x) = [x1, . . . , xK−1] 12 / 56
  • 15. Generalized linear models and the exponential family The exponential family (1変量) ガウス分布 N ( x|µ, σ2 ) = 1 (2πσ2)1/2 exp [ − 1 2σ2 (x − µ)2 ] = 1 (2πσ2)1/2 exp [ − 1 2σ2 x2 + µ σ2 x − 1 σ2 µ2 ] ▶ θ = (θ1, θ2) = ( µ σ2 , − 1 2σ2 ) , ϕ (x) = (x, x2 ) ▶ A (θ) = − θ2 1 4θ2 − 1 2 log (−2θ2) − 1 2 log (2π) 13 / 56
  • 16. Generalized linear models and the exponential family The exponential family 指数型分布族でない分布 ▶ ⼀様分布 Unif (a, b) p (x|a, b) = { 1 b−a a < x < b 0 otherwise ▶ 分布のサポートがパラメータに依存 ▶ スチューデントのt分布 14 / 56
  • 17. Generalized linear models and the exponential family The exponential family 対数分配関数について ▶ 対数分配関数A (θ)はキュムラント⺟関数とも呼ばれ 級数展開した時の各項の係数をキュムラントと呼ぶ ▶ キュムラント⺟関数やキュムラントは指数型以外の 分布にもあります (別の定義を使う) ▶ A (θ) を使って ϕ (x) の平均や分散などが計算できる ▶ dA dθ = E [ϕ (x)] , d2A dθ2 = var [ϕ (x)] , ... ▶ 2A (θ) = cov [ϕ (x)] ▶ 共分散⾏列は正定値 ⇒ A (θ) は凸関数 15 / 56
  • 18. Generalized linear models and the exponential family The exponential family ベルヌーイ分布 Ber (x|µ) = µx (1 − µ)1−x = (1 − µ) exp [ x log ( µ 1 − µ )] = exp [ ϕ (x) θ − ln(1 + eθ ) ] A (θ) = ln(1 + eθ ) dA dθ = eθ 1 + eθ = 1 1 + e−θ = sigm (θ) = µ = E [x] = E [ϕ (x)] d2 A dθ2 = ( 略 ) = (1 − µ) µ = Var [x] = Var [ϕ (x)] 16 / 56
  • 19. Generalized linear models and the exponential family The exponential family 指数型分布族に対する最尤推定 ▶ 指数型分布族のモデルにおいてサンプル D = (x1, . . . , xN) に対するパラメータ θ の最尤推定量 argmax θ p (D|θ) は次式を満たす θ になる ( dA dθ = ) E [ϕ (x)] = 1 N N∑ i=1 ϕ (xi) これを moment matching と呼ぶ 17 / 56
  • 20. Generalized linear models and the exponential family The exponential family ▶ 指数型分布族のモデルの尤度は次のようにかける (η (θ) = θ なら g (θ) = 1/Z (θ) とすればよい) p (D|θ) = [ N∏ i=1 h (xi) ] g (θ)N exp ( η (θ)T [ N∑ i=1 ϕ (xi) ]) ▶ ⼗分統計量 ϕ (D) = [ N∑ i=1 ϕ1 (xi) , . . . , N∑ i=1 ϕK (xi) ] ▶ (適当な正則条件の下で) 有限個の⼗分統計量を持つ 分布は指数型分布族だけである (Pitman-Koopman-Darmois theorem) ▶ 正則条件を満たさないときは成り⽴たない (例: ⼀様分布) 18 / 56
  • 21. Generalized linear models and the exponential family The exponential family 指数型分布族に対するベイズ法 ▶ 共役事前分布は有限個の⼗分統計量が存在するとき にのみ存在 ▶ 指数型分布族のモデルの尤度 p (D|θ) ∝ g (θ)N exp ( η (θ)T sN ) ただしsN = ∑N i=1 s (xi) ▶ θ の共役事前分布は p (θ|ν0, τ0) ∝ g (θ)ν0 exp ( η (θ)T τ0 ) ▶ θ の事後分布は (上の2式の積だから) p (θ|D) = p (θ|νN, τN) = p (θ|ν0 + N, τ0 + sN) ∝ g (θ)ν0+N0 exp ( η (θ)T (τ0 + sN) ) 19 / 56
  • 22. Generalized linear models and the exponential family The exponential family 事後予測分布 ▶ D = (x1, . . . , xN) が観測された下での D′ = (˜x1, . . . , ˜xN′ ) の事後予測分布は p (D′ |D) = ˆ p (D′ |θ) p (θ|D) dθ = [ N′ ∏ i=1 h (˜xi) ] Z ( ˜τ0 + ˜s (D) + ˜s (D′ )) Z ( ˜τ0 + ˜s (D)) ▶ ˜τ0 = (ν0, τ0) , ˜s (D) = (N, s (D)) , ˜s (D′) = (N′, s (D′)) ▶ Z: p (θ|˜τ) の正規化定数 (Z (˜τ) = ´ g (θ)ν exp ( η (θ)T τ ) dθ ) 20 / 56
  • 23. Generalized linear models and the exponential family The exponential family 最⼤エントロピー原理による導出 ▶ 分布 p (x) が関数 fk と定数 Fk (k = 1, . . .) に対して 以下の制約を満たすとする ∑ x fk (x) p (x) = Fk ▶ 上の制約の下で分布のモーメントと経験分布のモー メントが⼀致する分布の中で最もエントロピーが⼤ きい (⼀様分布に近い) 分布は定数 λk を使って p (x) = 1 Z exp ( − ∑ k λkfk (x) ) と指数型分布族の形でかける ▶ p (x) はギブス分布として知られている ▶ (平衡状態において系のエネルギーが従う分布) 21 / 56
  • 24. Generalized linear models and the exponential family Generalized linear models (GLMs) Subsection 3 Generalized linear models (GLMs) 22 / 56
  • 25. Generalized linear models and the exponential family Generalized linear models (GLMs) ⼀般化線形モデル ⼀般化線形モデル (generalized linear model; GLM) 出⼒の分布が指数型分布族であり、分布の平均が⼊⼒の 線形結合 (またはその⾮線形な変換) で表されるモデル ▶ 線形回帰やロジスティック回帰を⼀般化したモデル ▶ 出⼒の分布と⼊⼒と出⼒の関係に関してより柔軟な モデルが作れる 23 / 56
  • 26. Generalized linear models and the exponential family Generalized linear models (GLMs) 出⼒の分布 ▶ ⼊⼒を持たず1変数の出⼒ yi を持つ簡単なモデル p ( yi|θ, σ2 ) = exp [ yiθ − A (θ) σ2 + c ( yi, σ2 ) ] ▶ σ2: dispersion parameter ▶ θ: ⾃然パラメータ ▶ A: 分配関数 ▶ c: 正規化係数 ▶ 指数型分布族ではある可逆な関数 ψ によって平均 µ と⾃然パラメータ θ が θ = ψ (µ) と書き表せる ▶ ⼀般に µ = ψ−1 (θ) = A′ (θ) 24 / 56
  • 27. Generalized linear models and the exponential family Generalized linear models (GLMs) リンク関数 (link function) ▶ ⼊⼒の線形結合 ηi に関する可逆で単調な関数により 出⼒ yi の (⼊⼒が xi の条件付き) 分布の平均を表す µi = g−1 (ηi) = g−1 ( wT xi ) この g−1 を mean function と呼び g をリンク関数 (link function) と呼ぶ ▶ 要するに出⼒の平均と⼊⼒との関係を表す関数 ▶ 可逆かつ適当な定義域をもつ任意の関数が使える ▶ 特に g = ψ のとき正準リンク関数 (canonical link function) と呼ぶ 25 / 56
  • 28. Generalized linear models and the exponential family Generalized linear models (GLMs) 正準リンク関数を使ったGLM ▶ さっきのモデルに⼊⼒を追加 p ( yi|xi, w, σ2 ) = exp [ yiwT x − A ( wT x ) σ2 + c ( yi, σ2 ) ] 出⼒の分布と対応する正準リンク関数の例 y の分布 y の範囲 リンク g (µ) θ = ψ (µ) µ = ψ−1 (θ) = E [y] N ( µ, σ2 ) (−∞, ∞) identity θ = µ µ = θ Bin (N, µ) 0, . . . , N logit θ = log ( µ 1−µ ) µ = sigm (θ) Poi (µ) 0, 1, 2, . . . log θ = log µ µ = eθ 26 / 56
  • 29. Generalized linear models and the exponential family Generalized linear models (GLMs) 線形回帰 出⼒が正規分布でリンク関数が恒等変換 log p ( yi|xi, w, σ2 ) = yiµi − µ2 i 2 σ2 − 1 2 ( y2 i σ2 + log ( 2πσ2 ) ) ▶ yi ∈ R ▶ θi = µi = wT xi ▶ A (θ) = θ2 /2, E [yi] = µi, Var [yi] = σ2 27 / 56
  • 30. Generalized linear models and the exponential family Generalized linear models (GLMs) ⼆項回帰 (binomial regression) 出⼒が⼆項分布でリンク関数がロジット関数 log p (yi|xi, w) = yi log ( πi 1 − πi ) + Ni log (1 − πi) + log ( Ni yi ) ▶ yi ∈ {0, 1, . . . , Ni} ▶ πi = sigm ( wT xi ) , θi = log (πi/ (1 − πi)) = wT xi, σ2 = 1 ▶ A (θ) = Ni log ( 1 + eθ ) , E [yi] = Niπi, Var [yi] = Niπi (1 − πi) 28 / 56
  • 31. Generalized linear models and the exponential family Generalized linear models (GLMs) ポアソン回帰 (poisson regression) 出⼒がポアソン分布でリンク関数が対数関数 log p (yi|xi, w) = yi log (µi) + µi + log (yi!) ▶ yi ∈ {0, 1, 2, . . .} ▶ µi = exp ( wT x ) , θi = log (µi) = wT xi, σ2 = 1 ▶ A (θ) = eθ , E [yi] = Var [yi] = µi 29 / 56
  • 32. Generalized linear models and the exponential family Generalized linear models (GLMs) 最尤推定とMAP推定 ▶ ロジスティック回帰 (8章) と同様に w を最適化 ▶ 対数尤度 ℓ (w) = log p (D|w) = 1 σ2 N∑ i=1 ℓi ℓi ≜ θiyi − A (θi) ▶ 勾配 dℓi dwj = (yi − µi) dθi dµi dµi dηi xij ▶ 特に正準なリンク関数を使うとき wℓ (w) = 1 σ2 [ N∑ i=1 (yi − µi) xi ] ▶ 2次の勾配法でより効率的に計算できる ▶ MAP推定もロジスティック回帰と同様に 30 / 56
  • 33. Generalized linear models and the exponential family Generalized linear models (GLMs) ベイズ推定 ▶ w の事後分布を求める ▶ MCMC (24章) ▶ メトロポリス法, ギブスサンプリング,... ▶ ガウス近似や変分法 31 / 56
  • 34. Generalized linear models and the exponential family Probit regression Subsection 4 Probit regression 32 / 56
  • 35. Generalized linear models and the exponential family Probit regression プロビット回帰 ▶ 出⼒の分布がベルヌーイ/⼆項分布のときリンク関数 としてプロビット関数 (正規分布の累積分布関数の 逆関数) を使う⽅法 −6 −4 −2 0 2 4 6 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 sigmoid probit 33 / 56
  • 36. Generalized linear models and the exponential family Probit regression プロビット回帰の利点 ▶ 最適化が簡単になる (?) ▶ 潜在変数によるモデルの解釈ができる (random utility model; RUM) ▶ 出⼒が順序つきの離散値であるモデルへの拡張 (ordinal regression) ▶ 出⼒が多クラスのモデルへの拡張 (multinomial probit) 34 / 56
  • 37. Generalized linear models and the exponential family Multi-task learning Subsection 5 Multi-task learning 35 / 56
  • 38. Generalized linear models and the exponential family Multi-task learning マルチタスク学習 (multi-task learning) ▶ 関係のある複数の分類や回帰モデルを学習したい時 それらのタスクが似ていると仮定することによって 同時に学習を⾏い性能を向上させる⼿法 36 / 56
  • 39. Generalized linear models and the exponential family Multi-task learning 階層ベイズによるマルチタスク学習 ▶ 階層ベイズ (→5章) で複数のグループを同時に扱う ▶ 例: J 校の学校にそれぞれ Nj ⼈の⽣徒がおり yij を j 番⽬ (j = 1, . . . , J) の学校の i 番⽬ ( i = 1, . . . , Nj ) の ⽣徒の試験の成績とする ▶ xij を yij に対応する特徴としたときに各グループに 対してそれぞれモデル p (yij|xij) を学習するのが⽬的 ▶ しかし、⼀部のグループは⼤量のデータを持つ⼀⽅ 多くのグループには少量のデータしかない 37 / 56
  • 40. Generalized linear models and the exponential family Multi-task learning ▶ 出⼒の条件付き分布の平均をリンク関数 g で表して 各グループを特徴付けるパラメータ βj が共通の分布 に従うと仮定 E [yij|xij] = g−1 ( xT ijβj ) βj ∼ N ( β∗, σ2 j ) β∗ ∼ N ( µ, σ2 ∗ ) ▶ 共通のパラメータ β∗ を通して各 βj が相関するため サンプルが少数のグループでもうまく学習できる (5.5節参照) 38 / 56
  • 41. Generalized linear models and the exponential family Multi-task learning マルチタスク学習の応⽤例 ▶ Personalized spam filter ▶ メールがスパムかどうかをユーザー毎に予測 E [yi|xi, u = j] = ( βT ∗ + wj )T xi ▶ β∗: 全ユーザーのメールから推定されるパラメータ ▶ wj: ユーザーj のメールから推定されるパラメータ ▶ Domain adaptation (ドメイン適応) ▶ 異なる分布で表されるデータ上での分類器の集合を 学習する問題 39 / 56
  • 42. Generalized linear models and the exponential family Multi-task learning ▶ ⾃然⾔語処理におけるドメイン適応の例 ▶ 固有表現認識 (named entity recognition) ▶ 構⽂解析 という2つのタスクに階層ベイズモデルを適⽤ Finkel, Jenny Rose, and Christopher D. Manning. ”Hierarchical bayesian domain adaptation.” Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009. 40 / 56
  • 43. Generalized linear models and the exponential family Multi-task learning 事前分布の種類 ▶ マルチタスク学習では事前分布としてガウス分布を 仮定することが多い ▶ 他の事前分布がよいこともある ▶ sparsity-promoting prior ▶ Conjoint analysis (マーケティングにおいて商品の どの要素が最も客に好まれるかの分析) で使われる ▶ 混合ガウス分布 ▶ 全てのタスクが同様に似ていると仮定できないとき 41 / 56
  • 44. Generalized linear models and the exponential family Generalized linear mixed models Subsection 6 Generalized linear mixed models 42 / 56
  • 45. Generalized linear models and the exponential family Generalized linear mixed models ⼀般化線形混合モデル ▶ マルチタスク学習のモデルを⼀般化 E [ yij|xij, xj ] = g ( ϕ1 ( xij )T βj + ϕ2 ( xj )T β′ j + ϕ3 ( xij ) α + ϕ4 ( xj ) α′ ) ▶ xj: 各グループを表す特徴 ▶ βj, β′ j: 各グループごとのパラメータ ▶ α, α′ : 全グループ共通のパラメータ ▶ ϕk: 基底関数 xj xij yij Nj βj J µβ σ2 β αµα σ2 α σ2 y 43 / 56
  • 46. Generalized linear models and the exponential family Generalized linear mixed models ⼀般化線形混合モデル ▶ マルチタスク学習のモデルを⼀般化 E [ yij|xij, xj ] = g ( ϕ1 ( xij )T βj + ϕ2 ( xj )T β′ j + ϕ3 ( xij ) α + ϕ4 ( xj ) α′ ) ▶ xj: 各グループを表す特徴 ▶ βj, β′ j: 各グループごとのパラメータ ▶ α, α′ : 全グループ共通のパラメータ ▶ ϕk: 基底関数 ▶ 頻度主義統計では βj を変量効果 (random effects) α を固定効果 (fixed effects) と呼んで概念上区別し これらを含んだモデルを混合モデル (mixed model) と呼ぶ ▶ p (y|x) がGLMのとき⼀般化線形 (混合) 効果モデル (generalized linear mixed effects model; GLMM, GLME) と呼ぶ 43 / 56
  • 47. Generalized linear models and the exponential family Generalized linear mixed models 例: 医療データ ▶ ⾻に含まれるミネラルの密度について 1. ⼈種間での違いがあるかどうか解明 2. 年齢による説明 を⾏いたい ▶ 使うデータ ▶ yij: j 番の⼈の i 回⽬に測った⾻ミネラル濃度 ▶ xij: j 番の⼈の i 回⽬に測った年齢 ▶ xj: j 番の⼈の⼈種 (White, Asian, Black, Hispanic) 44 / 56
  • 48. Generalized linear models and the exponential family Generalized linear mixed models ▶ 線形回帰とノンパラメトリック回帰を組み合わせた セミパラメトリックモデル (semi-parametric model) を使う ▶ ⾻ミネラル濃度の年齢に関する⾮線形性を表すため ▶ さらに個⼈差を変量効果とみなし混合モデルで表す ▶ ϕ1 ( xij ) = 1,ϕ2 ( xj ) = 0 ▶ ϕ3 ( xij ) = b ( xij ) = [ bk ( xij )] (ノンパラ担当) ▶ bk: k 次スプライン基底関数 ▶ ϕ4 ( xj ) = [ I ( xj = White ) , . . . , I ( xj = Hispanic )] ▶ 出⼒を正規分布、リンク関数を線形関数とすれば 最終的なモデルは yij =βj + αT b (xij) + ϵij + α′ wI (xj = W) + · · · + α′ hI (xj = H) (教科書から微修正) ▶ ϵij ∼ N ( 0, σ2 y ) 45 / 56
  • 49. Generalized linear models and the exponential family Generalized linear mixed models 22 M. P. WAND age in years spinalbonemineraldensity(g/cm2 ) 0.6 0.8 1.0 1.2 1.4 10 15 20 25 Asian Black Hispanic 10 15 20 25 0.6 0.8 1.0 1.2 1.4 White Figure 9. MCMC-based estimate of the non-linear age effect in the spinal bone mineral density example. The dashed lines correspond to pointwise 95% credible sets. for the spinal bone mineral density example. The main difference is that y is now a binary rather than a Gaussian node. Wand, M. P. ”Semiparametric regression and graphical models.” Australian & New Zealand Journal of Statistics 51.1 (2009): 9-41. 46 / 56
  • 50. Generalized linear models and the exponential family Learning to rank Subsection 7 Learning to rank 47 / 56
  • 51. Generalized linear models and the exponential family Learning to rank ランキング学習 (Learning to rank; LETOR) ▶ 項⽬をランク付けする関数を学習する問題 ▶ GLMとは特に関係ないけど他に適当な場所がないのでここで紹介 ▶ 代表的な応⽤は情報検索 ▶ クエリqとそれに関連するかもしれないドキュメント d1 , . . . , dm を考える ▶ 例: q という⽂字列を含む全てのドキュメント ▶ q との適合性の⾼い順に d1 , . . . , dm をソートして 上位 k 項をユーザーに⽰したい 48 / 56
  • 52. Generalized linear models and the exponential family Learning to rank 適合性 (relevance) の評価 ▶ Bag of words にもとづく確率的⾔語モデルにより 適合性を評価する例 sim (q, d) ≜ p (q|d) = n∏ i=1 p (qi|d) ▶ qi: q の i 番⽬の単語または項 (i = 1, . . . , n) ▶ p (qi|d): d に出現する単語の頻度から推定される マルチヌーイ分布 ▶ 頻度だけでなく PageRank のような他のシグナルも 組み合わせて適合性を評価したい PageRank webのリンク構造から導出されるwebページ の信頼性の指標 49 / 56
  • 53. Generalized linear models and the exponential family Learning to rank The pointwise approach ▶ クエリとドキュメントの組み合わせによって決まる 特徴量 x (q, d) に対して ▶ 適合する/しないの2値分類 または ▶ 数段階の適合性に順序回帰 を⾏って事後確率 p (y = 1 or r|x (q, d)) でソート ▶ 特徴量には例えば query-document similarity score や page rank score が含まれる ▶ 教師データのラベルはクエリのログでドキュメント が⼀定回数以上クリックされたかどうかで与える ▶ ドキュメントのリスト上での位置を考慮しないため リストの最下位と最上位での誤差を全く同じように 罰してしまう (??) 50 / 56
  • 54. Generalized linear models and the exponential family Learning to rank The pairwise approach ▶ 適合性を各ドキュメントに対する絶対評価ではなく ドキュメント間の相対評価で決める ▶ ラベル yjk を、ドキュメント dj が dk より適合して いれば 1 、そうでなければ 0 とする ▶ シグモイド関数を使えば p ( yjk = 1|xj, xk ) = sigm (f (xj) − f (xk)) ▶ f (x): スコア関数 ▶ f (x) = wT x とすればこのモデルは RankNet として 知られるニューラルネットワークの⼀種になる 51 / 56
  • 55. Generalized linear models and the exponential family Learning to rank The listwise approach ▶ 全ドキュメントのリストを直接モデル化 ▶ 順序を Plackett-Luce distribution でモデリング Plackett-Luce distribution 下式で表されるリストの並び替え π : j → π (j) の分布 p (π|s) = m∏ j=1 sj ∑m u=j su ▶ sj = s (π−1 (j)): π によって j 番⽬にランクされた ドキュメントのスコア ▶ ドキュメントの上位への出現しやすさを表している 52 / 56
  • 56. Generalized linear models and the exponential family Learning to rank Plackett-Luce distribution の例 ▶ ランキング π = (A, B, C) の確率 p (π) は p (π|s) = sA sA + sB + sC × sB sB + sC × sC sC ▶ sA sA+sB+sC : A が1番⽬にランクされる確率 ▶ sB sB+sC : A が1番⽬にランクされたときに、 B が2番⽬にランクされる確率 ▶ sC sC : A, B が1,2番⽬にランクされたときに、 C が3番⽬にランクされる確率 53 / 56
  • 57. Generalized linear models and the exponential family Learning to rank ▶ クエリ q に対する各ドキュメントのスコアを s (d) = f (x (q, d)) とすればクエリが与えられたとき のランクの分布が決められる ▶ f (x) = wT x がよく使われ ListNet と呼ばれる 54 / 56
  • 58. Generalized linear models and the exponential family Learning to rank ランキングに対する損失関数 Mean reciprocal rank (MRR) クエリ q に1番適合する ドキュメントの順位 r (q) の逆数 1/r (q) Mean average precision (MAP) precision at k (P@k) の適合するドキュメント (の順位の) 全体に ついての平均 (1に近いほど良い) P@k (π) ≜ πの上位k件中の適合するドキュメントの数 k Normalized discounted cumulative gain (NDGG)   適合性が数段階に表されているときに使う Rank correlation 基準となるランキングとの相関を使う (普通の意味での相関とは違い種類も様々) 55 / 56
  • 59. Generalized linear models and the exponential family Learning to rank ▶ 損失関数はベイズか頻度かで使い⽅が変わる ▶ ベイズ的アプローチではパラメータの事後分布から のサンプリングや平均によって期待損失を計算 ▶ 頻度的アプローチでは損失を直接最⼩化 ▶ 関数が微分可能ではないため最⼩化には勾配を使わ ない最適化か計算しやすい代理の損失関数を使う ▶ 例えば precision@k (P@k) の近似として wieghted approximate-rank pairwise (WARP) がある 56 / 56