【書きかけ】一般化線形モデルの流れ

An outline of generalized linear model
Tomoshige Nakamura
2014 年 5 月 19 日
1 モデルを当てはめるプロセス
一般化線形モデルを記述する前に、まずはモデルの当てはめのプロセスについて述べる。大きく３つのプロ
セスに分けることができる。
1. モデルの選択
2. パラメータの推定
3. 未知の値の推定
現実的には、未知の値が推定できないならそれ以前のステップの仮定に誤りがあると考える。また、未知の値
の推定はここでは議論しないことにする。
1.1 モデル選択
まず、一般化線形モデルでは 2 つの仮定をおく。
1 つ目は、観測値が独立であることの仮定である。そのため、時系列などの自己相関のあるデータは除外さ
れる。独立性の仮定は、一般的な線形な回帰分析の特徴である。これを修正せずに、一般化線形モデルにも用
いる。
2 つ目の仮定は、誤差の構造に関する仮定である。誤差項はモデルないに 1 つしか存在しないというもので
ある。例えば、2 つ以上の誤差を含む場合は除外される（郡内分散・群間分散を用いるような場合は 2 つの誤
差を仮定することになる）。
次に、モデル選択においては、解析のスケールの選択も重要である。例えば、Y をそのまま用いるのか、そ
れとも対数変換をしたものを用いるのかなどである。適切なスケールは、観測値のみに依存せず、何を目的に
解析するのかという点から考える必要がある。
一般的な線形回帰モデルでは、適切な Y のスケールが、分散の定数性（不変性）、誤差の近似的な正規性、系
統的な影響の加成性を合わせ持つ。
一般化線形モデルの導入の段階で、スケールの問題は小さくなっている。また、分散が平均の関数であるこ
1

とが分かっているので、正規性と分散の不変性は必要なくなっている。効果の加成性は、一般化線形モデルの
重要な点であるが、必要があれば変換されたスケールを続けて明示する。一般化線形モデルにおいては、加性
性は正確に言えば、説明変数の期待値の特性であると仮定している。
まだ、モデル選択の課題は残っている。共変量の選択である。共変量はモデルの系統的な（Systematic な：
と本文では言っている）部分に含まれる箇所である。この話題については、線形モデルの話題として非常に多
くの議論がなされている。共変量の選択では、推定値を構築する上で（ある視点から）最も良い変数の部分集
合を見つける必要がある。
ˆµ = xjβj (1.1)
ここで、ˆµ, xj はそれぞれベクトルで、ˆµ は当てはめ値、xj はデータの j 列目の共変量ベクトル。
1.2 パラメータの推定
特定のモデルを選択したら、パラメータを推定し、推定値の精度を評価する必要がある。一般化線形モデル
においては、推定は、y の観測値とモデルから得られる推定値の間に何らかの当てはまりの良さの基準を定義
することですすめる。このような場合は、観察データに対するパラメータの尤度、または対数尤度の最大化に
よって、パラメータの推定値を得る。
f(y; θ) は、y のパラメータ θ が与えられたもとでの確率密度関数（PDF）または、確率関数を表す。する
と、対数尤度は平均値 µ = E(Y ) の関数で表すことができる。
l(µ; y) = log f(y; θ) (1.2)
独立な観測値 y1, · · · , yn に基づく対数尤度は、以下のように表される。
l(µ; y) =
i
log fi(yi; θi) (1.3)
ここで、µ = (µ1, · · · , µn) である。つまり独立な観測値 y が観測された元で対数尤度は θ の関数である。ま
た、”scaled deviance”（スケール逸脱度）は、次のように定義される。
D∗
(y; µ) = 2l(y; y) − 2l(µ; y) (1.4)
指数型分布族に対しては、l(y; y) 観測値に完全に当てはまった場合の最尤推定量であり、当てはめ値が観測
データと同じになる。l(y; y) はパラメータに依存しないので、l(µ; y) の最大化は、µ について D∗
(y; µ) の最
小化に対応する。
分散が既知である場合、1 つの観測に対する線形回帰モデルは、確率密度関数が以下で与えられる。
f(y; µ) =
1
√
2πσ2
exp(−
(y − µ)2
2σ2
) (1.5)
2

よって、対数尤度は
l(y; µ) = −
1
2
log(2πσ2
) −
(y − µ)2
2σ2
(1.6)
対数尤度を最大にする µ = y であるから、最大対数尤度は
l(y; y) = −
1
2
log(2πσ2
) (1.7)
スケール逸脱度関数は
D∗
(y; µ) = −
(y − µ)2
2σ2
(1.8)
となる。ここで、スケールパラメータが既知であることを除けば、この例では、逸脱度の関数は残差二乗和
と同じであり、最小の逸脱度は最小二乗法と同じである。
2 一般化線形モデルの基本
一般化線形モデルは、従来の線形モデルの拡張である。観測値 y を n × 1 のベクトルであるとし、確率変数
Yn×1 の実現値であると考える。また、Y の各要素は独立に平均 µn×1 の分布に従うと仮定する。モデルの系
統的な部分（Systematic Part）は、平均ベクトル µ によって記述され、µ は未知パラメータ β1, · · · , βp の関
数であると仮定する。一般的な線形モデルでは、以下のように µ が未知のパラメータ βp×1 と、既知の共変量
xj によって特徴付けられる。
µ =
p
j=1
xjβj (2.1)
また、観測値 i の平均は、i = 1, 2, · · · , n として、以下のように表される。
E(Yi) = µi =
p
j=1
xijβj (2.2)
行列の形式で書き直せば、共変量行列（モデル行列）を Xn×p として、以下のように書き直すことができる。
E(Y ) = µ = Xβ
一方で、ランダムな部分は誤差が互いに独立、一定の分散を持つと仮定する。これらの仮定は強い仮定であ
るから用いる場合には必ず確認する必要がある。特に、線形回帰モデルでは、線形モデルは誤差が分散が σ2
（一定）のガウス分布に従うと仮定する。
また、共変量の観測値には、平均値のみに影響を与えていて、誤差を伴わず観測されているという仮定をお
いているため、こちらについても同様に確認する必要がある。
3

以上を踏まえると、一般的な線形回帰モデルは次のように要約される。Y の各要素は、独立に分散 σ の正規
分布に従い、
E(Y ) = µ = Xβ (2.3)
を満たす。
2.1 一般化線形モデル
先ほどの古典的な線形回帰モデルを、一般化線形モデルへの形式で書き直すと以下のようになる。
✓ ✏
1. ランダムな要素（random component）：確率変数ベクトル Y の要素は、互いに独立に正規分布に
従い、その期待値 E(Y ) = µ であり、一定の分散 σ2
を持つ．
2. 系統的な要素（Systematic Component）：共変量 x1, · · · , xp の線形結合で表される線形予測子 η
を以下のように定義する。
η =
p
j=1
xjβj
3. ランダムな要素（random component）と、系統的な要素（Systematic Component）は以下のよ
うにリンク（link）されている。
µ = η
✒ ✑
上記のような表現が、古典的線形モデルの一般化に当たる。ここで、
ηi = g(µi)
とするとき、g(·) をリンク関数と呼ぶ。このような形式においては、古典的な線形モデルは、1 つめで正規分
布を仮定し、3 つ目でリンク関数を µ = η と指定していると解釈できる。
一般化線形モデルでは、このうち 2 つに拡張を施す。1 つ目の拡張は、要素 1 で Y 分布を指定する際に正規
分布以外の指数型分布族を仮定することである。もう１つは、要素 3 でリンク関数に微分可能な単調な関数を
仮定することである。まず、最初に分布の拡張について考えておく。
2.2 一般化線形モデルに対する尤度関数
確率変数ベクトル Y の各要素が、指数型分布族に従うとき、その密度関数は、2 つのパラメータ θ, φ を用い
て以下のように表される。
fY (y; θ, φ) = exp{(yθ − b(θ))/a(φ) + c(y, φ)} (2.4)
4

ここで、a(·), b(·), c(·) には分布に応じて特定の関数が入る。また、パラメータ θ を正準パラメータ（canonical
parameter）、φ をスケールパラメータと呼ぶ。よって、φ が既知であれば、指数型分布族は正準パラメータの
みの関数となる。
正規分布を指数型分布族形式で表す✓ ✏
fY (y; θ, φ) =
1
√
2πσ2
exp(−
(y − µ)2
2σ2
)
= exp{(yµ −
µ2
2
)/σ2
−
1
2
{y2
/σ2
+ log(2πσ2
)}}
と変形できるので、θ = µ, φ = σ2
とすれば、各関数は以下のようになる。
a(φ) = φ, b(θ) = θ2
/2, c(y, θ) = −
1
2
{y2
/σ2
+ log(2πσ2
)}
✒ ✑
さて、対数尤度関数 l(θ, φ; y) = logfY (y; θ, φ) を φ, y が与えられたもとでの、θ の関数であると考える。Y
の平均と分散は次の良く知られた 2 つの事実を用いれば比較的簡単に導くことができる。
E
∂l
∂θ
= 0 (2.5)
及び
E
∂2
l
∂θ2
+ E
∂l
∂θ
2
= 0 (2.6)
ここで、(2.4) より対数尤度は
l(θ, φ; y) = (yθ − b(θ))/a(φ) + c(y, φ)
であるから、
∂l
∂θ
= {y − b
′
(θ)}/a(φ) (2.7)
∂2
l
∂θ2
= −b
′′
(θ)/a(φ) (2.8)
上記の結果と (2.5),(2.6) の結果を用いれば、E(Y ) = µ とすると
0 = E
∂l
∂θ
= {µ − b
′
(θ)}/a(φ)
より
µ = E(Y ) = b
′
(θ)
5

である。同様に、(2.6),(2.7),(2.8) の結果を用いると、
0 = −
b
′′
(θ)
a(φ)
+
var(Y )
a2(φ)
となるので、Y の分散は以下のように表される。
var(Y ) = b
′′
(θ)a(φ)
この結果から Y の分散は 2 つの関数の積で表されることが分かった。まず、b
′′
(θ) は正準パラメータのみ依
存する関数である（先ほどの結果から µ（平均）に依存する）。また、a(φ) は φ のみに依存して θ とは独立で
あるから、b
′′
(θ) は分散関数（variance function）と呼ばれる。分散関数は µ のみに依存することから V (µ)
と書くことにする。
一般的に、a(φ) は以下のような形をしている。
a(φ) = φ/ω (2.9)
ここで、φ は σ2
を用いて書き直されるので、これを dispersion parameter（分散パラメータ）を呼ぶ。つま
り Y は分散関数と分散パラメータに依存する関数の積である。そして、ω は観測毎に与えられる既知の異なる
重みである。
このように正規分布モデルでは、各観測値は独立な m 個の尺度の平均として以下のように表される（観測値
が m 個ある場合）。
a(φ) = σ2
/m (2.10)
2.3 リンク関数
リンク関数は、線形予測子 η と、y の期待値 µ を繋ぐ関数である。古典的な線形モデルでは、平均と線形予
測子は同じものであり、このようなリンク関数（本では identity と記述）は、η と µ はともに実数直線上のす
べての値を取ることができるという点で妥当なものである。
しかしながら、カウントデータ（離散値）で、ポアソン分布の場合を考えると、µ > 0 である必要があるた
め、”Identity Link”は良いものとは言えない。なぜなら、線形予測子 η は実数直線上のすべての値を取りうる
が、µ > 0 であるからである。
そこで、クロス分類表（cross classiﬁed data）における各観測値が独立であるようなカウントデータに対す
るモデルは、乗数的な効果として表すことになる。即ち、次のような対数リンク関数を考える。
η = logµ, µ = exp(η) (2.11)
このようにすると、各説明変数が加法的に η に与える効果が、µ への乗数的な効果へと変換され、同時に µ > 0
となる。
6

2 項分布の場合には、平均は 0 < µ < 1 の値をとるので、リンク関数はこの条件を満足するようにしなくて
はならない。このようなリンク関数は複数存在している。
1. logit :
η = log{µ/(1 − µ)} (2.12)
2. probit : Φ を正規分布の累積分布関数として、
η = Φ−1
(µ) (2.13)
3. complementary log-log（相補的な log-log）
η = log{− log(1 − µ)} (2.14)
また、観測値が正の平均値を持つ場合には、乗数的なリンク関数族（family）は重要な役割を果たす。この
ようなリンク関数族は次のように記述される。
η = (µλ
− 1)/λ (2.15)
また、この極限値は
η = log µ (λ → 0) (2.16)
2.4 十分統計量
正規分布、ポアソン分布、2 項分布、ガンマ分布、逆ガンマ分布は特別なリンク関数を持っている。上記の
ような、正準パラメータ θ が用いられるとき、正準パラメータ θ が µ の関数として表される。このようなリン
ク関数を正準リンク関数と呼ぶ。正準リンク関数は、次の性質を満たす。
θ = η (2.17)
正準パラメータは、実際に、(2.4) で用いたものと同様である。正準リンク関数は、各分布に対して以下のよう
に定義される。
• 正規分布：η = µ
• ポアソン分布：η = log µ
• 2 項分布：η = log{π/(1 − π)}
• ガンマ分布：η = µ−1
• 逆ガンマ分布：η = µ−2
7

また、正準リンク関数の重要な性質として、正準リンク関数のもとで β の推定に対する十分統計量は、XT
Y
となるということがある。
ポアソン分布の正準リンク関数を導出する✓ ✏
ポアソン分布はパラメータが 1 つなので、スケールパラメータは存在しないので a(φ) = 1 として議論を
しても問題はない。ポアソン分布の確率関数は
f(y; λ) = λx
exp(−λ)/x!
= exp{(y log(λ) − λ) − log(x!)}
であるから、θ = log(λ), b(θ) = exp(θ) = λ とおけば指数型分布族であることが分かる。また、
さて、ここで正準リンク関数とは θ = η となるような関数のことであるから、log(λ) = η が正準リンク関
数である。ここで、ポアソン分布の平均は µ = λ であるから、log(µ) = η であることが分かる。よって、
正準リンク関数は log である。
✒ ✑
3 適合度
3.1 当てはめの相違
この節では、モデル適合度について記述する。ただし、モデル適合度の基準には様々なものがあるため、こ
こでは尤度比に関して説明を行う。尤度比は逸脱度を測定する基準である。
n 個の観測値が観測されたとき、n 個以下のパラメータを持つモデルを当てはめることを考える。最も単純
なモデルは nullmodel と呼ばれ、1 つのパラメータしか持たないもので、すべての y に対して共通の µ で表
す。null モデルはこのように各 y 間の変動はすべてランダムな要素に委ねるようなモデルである。
一方で、フルモデルとは n 個のパラメータを用いる方法であり、各観測値毎にパラメータを設定する。つま
り、各 µ はデータに正確に当てはまるように設定する。このようにフルモデルはすべてを系統的な要素で表
し、ランダム要素をなくすようなモデルである。
実際、null モデルは簡素過ぎるモデルであるし、フルモデルはデータを要約しないため意味のある情報は得
られない。しかしながら、フルモデルは、パラメータが p 個のモデルに対する逸脱度を測るための基準になる。
対数尤度関数を θ の関数と見るよりも、平均パラメータ µ の関数と見るほうが扱いやすい。そこで、対数
尤度関数を l(ˆµ, φ; y) を分散パラメータ φ を固定した状態で β について最大化することを考える。n 個のパラ
メータのモデルにおける最大尤度は l(y, φ; y) である。正準パラメータの推定量を ˆθ = θ(ˆµ)、˜θ = θ(y) と書く
ことにして、ai(φ) = φ/ωi と仮定すると、当てはまりの差は、2 つのモデルの最大尤度の差の 2 倍に比例する
から、以下のように書くことができる。
2ωi{yi(˜θi − ˆθi) − b(˜θi) + b(ˆθi)}/φ = D(y; ˆµ)/φ (3.1)
8

ここで、D(y; ˆµ) は用いているモデルの逸脱度として知られており、データから推定される。各分布に対す
る逸脱度は以下のように表される。
• 正規分布： (y − ˆµ)2
• ポアソン分布： 2 {y log(y/ˆµ) − (y − ˆµ)}
• ２項分布： 2 {y log(y/ˆµ) + (m − y) log[(m − y)/(m − ˆµ)]}
• ガンマ分布： 2 {− log(y/ˆµ) + (y − ˆµ)/ˆµ}
• 逆ガンマ分布： (y − ˆµ)/(ˆµ2
y)
また、モデルの差の基準として重要な指標が、ピアソンの一般化 χ2
統計量である。これは次のように表さ
れる。
χ2
= (y − ˆµ)2
/V (ˆµ) (3.2)
ここで、V (ˆµ) は分布に対する分散関数である。正規分布に対しては、これは残差二乗和になり逸脱度の関
数と一致するが、一方でポアソン分布や 2 項分布に対しては本来の χ2
統計量であるだけで、逸脱度とは関係
なくなってしまう。よって、一般的には上記の逸脱度の関数を用いることにする。しかしながら、解釈の視点
からは χ2
統計量を用いる方が直感的に理解しやすいと考えることもできる。
3.2 逸脱度の解析
4 残差
4.1 ピアソン残差
4.2 アンスコム残差（Anscombe Residuals）
4.3 逸脱度残差（deviance residuals）
5 一般化線形モデルに対するアルゴリズム
参考文献
[1] McCullagh, Peter; Nelder, John (1989). Generalized Linear Models, Second Edition. Boca Raton:
Chapman and Hall/CRC. ISBN 0-412-31760-5.
[2] Nelder, John; Wedderburn, Robert (1972). “Generalized Linear Models”. Journal of the Royal
Statistical Society. Series A (General) (Blackwell Publishing) 135 (3): 370-384.
9

【書きかけ】一般化線形モデルの流れ

More Related Content

What's hot (20)

More from Tomoshige Nakamura (20)

Recently uploaded (9)

【書きかけ】一般化線形モデルの流れ