Submit Search
【書きかけ】一般化線形モデルの流れ
2 likes
2,979 views
Tomoshige Nakamura
一般化線形モデルで日本語であんまりいい教科書ないから、自分用のメモを作成しています。まだ書きはじめたばかりで読みにくいですが、しばらくしたら言葉の修正などしていきます。
Data & Analytics
Related topics:
Data Science Insights
Read more
1 of 9
Download now
Downloaded 14 times
1
2
3
4
5
6
7
8
9
More Related Content
PDF
2 3.GLMの基礎
logics-of-blue
PPTX
心理学のためのPsychパッケージ
考司 小杉
PDF
pymcとpystanでベイズ推定してみた話
Classi.corp
PDF
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
Yasuyuki Okumura
PPTX
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
Masashi Komori
PDF
Prophet入門【R編】Facebookの時系列予測ツール
hoxo_m
PDF
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
PDF
関数データ解析の概要とその方法
Hidetoshi Matsui
2 3.GLMの基礎
logics-of-blue
心理学のためのPsychパッケージ
考司 小杉
pymcとpystanでベイズ推定してみた話
Classi.corp
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
Yasuyuki Okumura
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
Masashi Komori
Prophet入門【R編】Facebookの時系列予測ツール
hoxo_m
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
関数データ解析の概要とその方法
Hidetoshi Matsui
What's hot
(20)
PDF
SEMを用いた縦断データの解析 潜在曲線モデル
Masaru Tokuoka
PDF
Stan超初心者入門
Hiroshi Shimizu
PDF
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
PPTX
GEE(一般化推定方程式)の理論
Koichiro Gibo
PDF
一般化線形混合モデル isseing333
Issei Kurahashi
PDF
2 4.devianceと尤度比検定
logics-of-blue
PDF
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
Ken'ichi Matsui
PPTX
ブートストラップ法とその周辺とR
Daisuke Yoneoka
PDF
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
PDF
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
Hiroshi Shimizu
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
PDF
階層ベイズによるワンToワンマーケティング入門
shima o
PDF
Stanコードの書き方 中級編
Hiroshi Shimizu
PDF
みどりぼん3章前半
Akifumi Eguchi
PDF
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
logics-of-blue
PDF
これからの仮説検証・モデル評価
daiki hojo
PPT
ロジスティック回帰分析の入門 -予測モデル構築-
Koichiro Gibo
PPTX
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
PDF
階層モデルの分散パラメータの事前分布について
hoxo_m
PDF
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
SEMを用いた縦断データの解析 潜在曲線モデル
Masaru Tokuoka
Stan超初心者入門
Hiroshi Shimizu
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
GEE(一般化推定方程式)の理論
Koichiro Gibo
一般化線形混合モデル isseing333
Issei Kurahashi
2 4.devianceと尤度比検定
logics-of-blue
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
Ken'ichi Matsui
ブートストラップ法とその周辺とR
Daisuke Yoneoka
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
Hiroshi Shimizu
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
階層ベイズによるワンToワンマーケティング入門
shima o
Stanコードの書き方 中級編
Hiroshi Shimizu
みどりぼん3章前半
Akifumi Eguchi
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
logics-of-blue
これからの仮説検証・モデル評価
daiki hojo
ロジスティック回帰分析の入門 -予測モデル構築-
Koichiro Gibo
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
階層モデルの分散パラメータの事前分布について
hoxo_m
統計的因果推論への招待 -因果構造探索を中心に-
Shiga University, RIKEN
Ad
More from Tomoshige Nakamura
(20)
PDF
ベイズ推論とシミュレーション法の基礎
Tomoshige Nakamura
PDF
多重代入法(Multiple Imputation)の発表資料
Tomoshige Nakamura
PDF
20141224_水曜セミナー
Tomoshige Nakamura
PDF
20140727_第1回スポーツデータアナリティクス基礎講座
Tomoshige Nakamura
PDF
20140625_品川女子学院_講義3
Tomoshige Nakamura
PDF
2014年5月14日_水曜セミナー発表内容_FINAL
Tomoshige Nakamura
PDF
20140514_水曜セミナー発表資料_中村知繁
Tomoshige Nakamura
PDF
20140512_水曜セミナードラフトv1
Tomoshige Nakamura
PDF
20140507_品川女子学院_講義2
Tomoshige Nakamura
PDF
20140507_品川女子学院_講義2
Tomoshige Nakamura
PDF
自己紹介_140416
Tomoshige Nakamura
PDF
品川女子_講義1_共感_定義
Tomoshige Nakamura
PDF
品川女子学院_講義1_デザイン思考_共感
Tomoshige Nakamura
PDF
卒論プレゼンテーション -DRAFT-
Tomoshige Nakamura
PDF
日本を創り継ぐプロジェクト紹介資料
Tomoshige Nakamura
PDF
【第3回日本を創り継ぐプロジェクト】説明資料
Tomoshige Nakamura
PDF
Design Thinking Workshop
Tomoshige Nakamura
PDF
Design Thinking Workshop
Tomoshige Nakamura
PPT
ライフサイクルからの脱却
Tomoshige Nakamura
PDF
Workshop nara
Tomoshige Nakamura
ベイズ推論とシミュレーション法の基礎
Tomoshige Nakamura
多重代入法(Multiple Imputation)の発表資料
Tomoshige Nakamura
20141224_水曜セミナー
Tomoshige Nakamura
20140727_第1回スポーツデータアナリティクス基礎講座
Tomoshige Nakamura
20140625_品川女子学院_講義3
Tomoshige Nakamura
2014年5月14日_水曜セミナー発表内容_FINAL
Tomoshige Nakamura
20140514_水曜セミナー発表資料_中村知繁
Tomoshige Nakamura
20140512_水曜セミナードラフトv1
Tomoshige Nakamura
20140507_品川女子学院_講義2
Tomoshige Nakamura
20140507_品川女子学院_講義2
Tomoshige Nakamura
自己紹介_140416
Tomoshige Nakamura
品川女子_講義1_共感_定義
Tomoshige Nakamura
品川女子学院_講義1_デザイン思考_共感
Tomoshige Nakamura
卒論プレゼンテーション -DRAFT-
Tomoshige Nakamura
日本を創り継ぐプロジェクト紹介資料
Tomoshige Nakamura
【第3回日本を創り継ぐプロジェクト】説明資料
Tomoshige Nakamura
Design Thinking Workshop
Tomoshige Nakamura
Design Thinking Workshop
Tomoshige Nakamura
ライフサイクルからの脱却
Tomoshige Nakamura
Workshop nara
Tomoshige Nakamura
Ad
Recently uploaded
(9)
PDF
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
Netwalker lab kapper
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
yhresearch
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
QY Research株式会社
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
QY Research株式会社
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
h_yama2396
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
2418867459
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
QY Research株式会社
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
QY Research株式会社
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
QY Research株式会社
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
Netwalker lab kapper
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
yhresearch
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
QY Research株式会社
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
QY Research株式会社
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
h_yama2396
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
2418867459
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
QY Research株式会社
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
QY Research株式会社
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
QY Research株式会社
【書きかけ】一般化線形モデルの流れ
1.
An outline of
generalized linear model Tomoshige Nakamura 2014 年 5 月 19 日 1 モデルを当てはめるプロセス 一般化線形モデルを記述する前に、まずはモデルの当てはめのプロセスについて述べる。大きく3つのプロ セスに分けることができる。 1. モデルの選択 2. パラメータの推定 3. 未知の値の推定 現実的には、未知の値が推定できないならそれ以前のステップの仮定に誤りがあると考える。また、未知の値 の推定はここでは議論しないことにする。 1.1 モデル選択 まず、一般化線形モデルでは 2 つの仮定をおく。 1 つ目は、観測値が独立であることの仮定である。そのため、時系列などの自己相関のあるデータは除外さ れる。独立性の仮定は、一般的な線形な回帰分析の特徴である。これを修正せずに、一般化線形モデルにも用 いる。 2 つ目の仮定は、誤差の構造に関する仮定である。誤差項はモデルないに 1 つしか存在しないというもので ある。例えば、2 つ以上の誤差を含む場合は除外される(郡内分散・群間分散を用いるような場合は 2 つの誤 差を仮定することになる)。 次に、モデル選択においては、解析のスケールの選択も重要である。例えば、Y をそのまま用いるのか、そ れとも対数変換をしたものを用いるのかなどである。適切なスケールは、観測値のみに依存せず、何を目的に 解析するのかという点から考える必要がある。 一般的な線形回帰モデルでは、適切な Y のスケールが、分散の定数性(不変性)、誤差の近似的な正規性、系 統的な影響の加成性を合わせ持つ。 一般化線形モデルの導入の段階で、スケールの問題は小さくなっている。また、分散が平均の関数であるこ 1
2.
とが分かっているので、正規性と分散の不変性は必要なくなっている。効果の加成性は、一般化線形モデルの 重要な点であるが、必要があれば変換されたスケールを続けて明示する。一般化線形モデルにおいては、加性 性は正確に言えば、説明変数の期待値の特性であると仮定している。 まだ、モデル選択の課題は残っている。共変量の選択である。共変量はモデルの系統的な(Systematic な: と本文では言っている)部分に含まれる箇所である。この話題については、線形モデルの話題として非常に多 くの議論がなされている。共変量の選択では、推定値を構築する上で(ある視点から)最も良い変数の部分集 合を見つける必要がある。 ˆµ =
xjβj (1.1) ここで、ˆµ, xj はそれぞれベクトルで、ˆµ は当てはめ値、xj はデータの j 列目の共変量ベクトル。 1.2 パラメータの推定 特定のモデルを選択したら、パラメータを推定し、推定値の精度を評価する必要がある。一般化線形モデル においては、推定は、y の観測値とモデルから得られる推定値の間に何らかの当てはまりの良さの基準を定義 することですすめる。このような場合は、観察データに対するパラメータの尤度、または対数尤度の最大化に よって、パラメータの推定値を得る。 f(y; θ) は、y のパラメータ θ が与えられたもとでの確率密度関数(PDF)または、確率関数を表す。する と、対数尤度は平均値 µ = E(Y ) の関数で表すことができる。 l(µ; y) = log f(y; θ) (1.2) 独立な観測値 y1, · · · , yn に基づく対数尤度は、以下のように表される。 l(µ; y) = i log fi(yi; θi) (1.3) ここで、µ = (µ1, · · · , µn) である。つまり独立な観測値 y が観測された元で対数尤度は θ の関数である。ま た、”scaled deviance”(スケール逸脱度)は、次のように定義される。 D∗ (y; µ) = 2l(y; y) − 2l(µ; y) (1.4) 指数型分布族に対しては、l(y; y) 観測値に完全に当てはまった場合の最尤推定量であり、当てはめ値が観測 データと同じになる。l(y; y) はパラメータに依存しないので、l(µ; y) の最大化は、µ について D∗ (y; µ) の最 小化に対応する。 分散が既知である場合、1 つの観測に対する線形回帰モデルは、確率密度関数が以下で与えられる。 f(y; µ) = 1 √ 2πσ2 exp(− (y − µ)2 2σ2 ) (1.5) 2
3.
よって、対数尤度は l(y; µ) =
− 1 2 log(2πσ2 ) − (y − µ)2 2σ2 (1.6) 対数尤度を最大にする µ = y であるから、最大対数尤度は l(y; y) = − 1 2 log(2πσ2 ) (1.7) スケール逸脱度関数は D∗ (y; µ) = − (y − µ)2 2σ2 (1.8) となる。ここで、スケールパラメータが既知であることを除けば、この例では、逸脱度の関数は残差二乗和 と同じであり、最小の逸脱度は最小二乗法と同じである。 2 一般化線形モデルの基本 一般化線形モデルは、従来の線形モデルの拡張である。観測値 y を n × 1 のベクトルであるとし、確率変数 Yn×1 の実現値であると考える。また、Y の各要素は独立に平均 µn×1 の分布に従うと仮定する。モデルの系 統的な部分(Systematic Part)は、平均ベクトル µ によって記述され、µ は未知パラメータ β1, · · · , βp の関 数であると仮定する。一般的な線形モデルでは、以下のように µ が未知のパラメータ βp×1 と、既知の共変量 xj によって特徴付けられる。 µ = p j=1 xjβj (2.1) また、観測値 i の平均は、i = 1, 2, · · · , n として、以下のように表される。 E(Yi) = µi = p j=1 xijβj (2.2) 行列の形式で書き直せば、共変量行列(モデル行列)を Xn×p として、以下のように書き直すことができる。 E(Y ) = µ = Xβ 一方で、ランダムな部分は誤差が互いに独立、一定の分散を持つと仮定する。これらの仮定は強い仮定であ るから用いる場合には必ず確認する必要がある。特に、線形回帰モデルでは、線形モデルは誤差が分散が σ2 (一定)のガウス分布に従うと仮定する。 また、共変量の観測値には、平均値のみに影響を与えていて、誤差を伴わず観測されているという仮定をお いているため、こちらについても同様に確認する必要がある。 3
4.
以上を踏まえると、一般的な線形回帰モデルは次のように要約される。Y の各要素は、独立に分散 σ
の正規 分布に従い、 E(Y ) = µ = Xβ (2.3) を満たす。 2.1 一般化線形モデル 先ほどの古典的な線形回帰モデルを、一般化線形モデルへの形式で書き直すと以下のようになる。 ✓ ✏ 1. ランダムな要素(random component):確率変数ベクトル Y の要素は、互いに独立に正規分布に 従い、その期待値 E(Y ) = µ であり、一定の分散 σ2 を持つ. 2. 系統的な要素(Systematic Component):共変量 x1, · · · , xp の線形結合で表される線形予測子 η を以下のように定義する。 η = p j=1 xjβj 3. ランダムな要素(random component)と、系統的な要素(Systematic Component)は以下のよ うにリンク(link)されている。 µ = η ✒ ✑ 上記のような表現が、古典的線形モデルの一般化に当たる。ここで、 ηi = g(µi) とするとき、g(·) をリンク関数と呼ぶ。このような形式においては、古典的な線形モデルは、1 つめで正規分 布を仮定し、3 つ目でリンク関数を µ = η と指定していると解釈できる。 一般化線形モデルでは、このうち 2 つに拡張を施す。1 つ目の拡張は、要素 1 で Y 分布を指定する際に正規 分布以外の指数型分布族を仮定することである。もう1つは、要素 3 でリンク関数に微分可能な単調な関数を 仮定することである。まず、最初に分布の拡張について考えておく。 2.2 一般化線形モデルに対する尤度関数 確率変数ベクトル Y の各要素が、指数型分布族に従うとき、その密度関数は、2 つのパラメータ θ, φ を用い て以下のように表される。 fY (y; θ, φ) = exp{(yθ − b(θ))/a(φ) + c(y, φ)} (2.4) 4
5.
ここで、a(·), b(·), c(·)
には分布に応じて特定の関数が入る。また、パラメータ θ を正準パラメータ(canonical parameter)、φ をスケールパラメータと呼ぶ。よって、φ が既知であれば、指数型分布族は正準パラメータの みの関数となる。 正規分布を指数型分布族形式で表す✓ ✏ fY (y; θ, φ) = 1 √ 2πσ2 exp(− (y − µ)2 2σ2 ) = exp{(yµ − µ2 2 )/σ2 − 1 2 {y2 /σ2 + log(2πσ2 )}} と変形できるので、θ = µ, φ = σ2 とすれば、各関数は以下のようになる。 a(φ) = φ, b(θ) = θ2 /2, c(y, θ) = − 1 2 {y2 /σ2 + log(2πσ2 )} ✒ ✑ さて、対数尤度関数 l(θ, φ; y) = logfY (y; θ, φ) を φ, y が与えられたもとでの、θ の関数であると考える。Y の平均と分散は次の良く知られた 2 つの事実を用いれば比較的簡単に導くことができる。 E ∂l ∂θ = 0 (2.5) 及び E ∂2 l ∂θ2 + E ∂l ∂θ 2 = 0 (2.6) ここで、(2.4) より対数尤度は l(θ, φ; y) = (yθ − b(θ))/a(φ) + c(y, φ) であるから、 ∂l ∂θ = {y − b ′ (θ)}/a(φ) (2.7) ∂2 l ∂θ2 = −b ′′ (θ)/a(φ) (2.8) 上記の結果と (2.5),(2.6) の結果を用いれば、E(Y ) = µ とすると 0 = E ∂l ∂θ = {µ − b ′ (θ)}/a(φ) より µ = E(Y ) = b ′ (θ) 5
6.
である。同様に、(2.6),(2.7),(2.8) の結果を用いると、 0 =
− b ′′ (θ) a(φ) + var(Y ) a2(φ) となるので、Y の分散は以下のように表される。 var(Y ) = b ′′ (θ)a(φ) この結果から Y の分散は 2 つの関数の積で表されることが分かった。まず、b ′′ (θ) は正準パラメータのみ依 存する関数である(先ほどの結果から µ(平均)に依存する)。また、a(φ) は φ のみに依存して θ とは独立で あるから、b ′′ (θ) は分散関数(variance function)と呼ばれる。分散関数は µ のみに依存することから V (µ) と書くことにする。 一般的に、a(φ) は以下のような形をしている。 a(φ) = φ/ω (2.9) ここで、φ は σ2 を用いて書き直されるので、これを dispersion parameter(分散パラメータ)を呼ぶ。つま り Y は分散関数と分散パラメータに依存する関数の積である。そして、ω は観測毎に与えられる既知の異なる 重みである。 このように正規分布モデルでは、各観測値は独立な m 個の尺度の平均として以下のように表される(観測値 が m 個ある場合)。 a(φ) = σ2 /m (2.10) 2.3 リンク関数 リンク関数は、線形予測子 η と、y の期待値 µ を繋ぐ関数である。古典的な線形モデルでは、平均と線形予 測子は同じものであり、このようなリンク関数(本では identity と記述)は、η と µ はともに実数直線上のす べての値を取ることができるという点で妥当なものである。 しかしながら、カウントデータ(離散値)で、ポアソン分布の場合を考えると、µ > 0 である必要があるた め、”Identity Link”は良いものとは言えない。なぜなら、線形予測子 η は実数直線上のすべての値を取りうる が、µ > 0 であるからである。 そこで、クロス分類表(cross classified data)における各観測値が独立であるようなカウントデータに対す るモデルは、乗数的な効果として表すことになる。即ち、次のような対数リンク関数を考える。 η = logµ, µ = exp(η) (2.11) このようにすると、各説明変数が加法的に η に与える効果が、µ への乗数的な効果へと変換され、同時に µ > 0 となる。 6
7.
2 項分布の場合には、平均は 0
< µ < 1 の値をとるので、リンク関数はこの条件を満足するようにしなくて はならない。このようなリンク関数は複数存在している。 1. logit : η = log{µ/(1 − µ)} (2.12) 2. probit : Φ を正規分布の累積分布関数として、 η = Φ−1 (µ) (2.13) 3. complementary log-log(相補的な log-log) η = log{− log(1 − µ)} (2.14) また、観測値が正の平均値を持つ場合には、乗数的なリンク関数族(family)は重要な役割を果たす。この ようなリンク関数族は次のように記述される。 η = (µλ − 1)/λ (2.15) また、この極限値は η = log µ (λ → 0) (2.16) 2.4 十分統計量 正規分布、ポアソン分布、2 項分布、ガンマ分布、逆ガンマ分布は特別なリンク関数を持っている。上記の ような、正準パラメータ θ が用いられるとき、正準パラメータ θ が µ の関数として表される。このようなリン ク関数を正準リンク関数と呼ぶ。正準リンク関数は、次の性質を満たす。 θ = η (2.17) 正準パラメータは、実際に、(2.4) で用いたものと同様である。正準リンク関数は、各分布に対して以下のよう に定義される。 • 正規分布:η = µ • ポアソン分布:η = log µ • 2 項分布:η = log{π/(1 − π)} • ガンマ分布:η = µ−1 • 逆ガンマ分布:η = µ−2 7
8.
また、正準リンク関数の重要な性質として、正準リンク関数のもとで β の推定に対する十分統計量は、XT Y となるということがある。 ポアソン分布の正準リンク関数を導出する✓
✏ ポアソン分布はパラメータが 1 つなので、スケールパラメータは存在しないので a(φ) = 1 として議論を しても問題はない。ポアソン分布の確率関数は f(y; λ) = λx exp(−λ)/x! = exp{(y log(λ) − λ) − log(x!)} であるから、θ = log(λ), b(θ) = exp(θ) = λ とおけば指数型分布族であることが分かる。また、 さて、ここで正準リンク関数とは θ = η となるような関数のことであるから、log(λ) = η が正準リンク関 数である。ここで、ポアソン分布の平均は µ = λ であるから、log(µ) = η であることが分かる。よって、 正準リンク関数は log である。 ✒ ✑ 3 適合度 3.1 当てはめの相違 この節では、モデル適合度について記述する。ただし、モデル適合度の基準には様々なものがあるため、こ こでは尤度比に関して説明を行う。尤度比は逸脱度を測定する基準である。 n 個の観測値が観測されたとき、n 個以下のパラメータを持つモデルを当てはめることを考える。最も単純 なモデルは nullmodel と呼ばれ、1 つのパラメータしか持たないもので、すべての y に対して共通の µ で表 す。null モデルはこのように各 y 間の変動はすべてランダムな要素に委ねるようなモデルである。 一方で、フルモデルとは n 個のパラメータを用いる方法であり、各観測値毎にパラメータを設定する。つま り、各 µ はデータに正確に当てはまるように設定する。このようにフルモデルはすべてを系統的な要素で表 し、ランダム要素をなくすようなモデルである。 実際、null モデルは簡素過ぎるモデルであるし、フルモデルはデータを要約しないため意味のある情報は得 られない。しかしながら、フルモデルは、パラメータが p 個のモデルに対する逸脱度を測るための基準になる。 対数尤度関数を θ の関数と見るよりも、平均パラメータ µ の関数と見るほうが扱いやすい。そこで、対数 尤度関数を l(ˆµ, φ; y) を分散パラメータ φ を固定した状態で β について最大化することを考える。n 個のパラ メータのモデルにおける最大尤度は l(y, φ; y) である。正準パラメータの推定量を ˆθ = θ(ˆµ)、˜θ = θ(y) と書く ことにして、ai(φ) = φ/ωi と仮定すると、当てはまりの差は、2 つのモデルの最大尤度の差の 2 倍に比例する から、以下のように書くことができる。 2ωi{yi(˜θi − ˆθi) − b(˜θi) + b(ˆθi)}/φ = D(y; ˆµ)/φ (3.1) 8
9.
ここで、D(y; ˆµ) は用いているモデルの逸脱度として知られており、データから推定される。各分布に対す る逸脱度は以下のように表される。 •
正規分布: (y − ˆµ)2 • ポアソン分布: 2 {y log(y/ˆµ) − (y − ˆµ)} • 2項分布: 2 {y log(y/ˆµ) + (m − y) log[(m − y)/(m − ˆµ)]} • ガンマ分布: 2 {− log(y/ˆµ) + (y − ˆµ)/ˆµ} • 逆ガンマ分布: (y − ˆµ)/(ˆµ2 y) また、モデルの差の基準として重要な指標が、ピアソンの一般化 χ2 統計量である。これは次のように表さ れる。 χ2 = (y − ˆµ)2 /V (ˆµ) (3.2) ここで、V (ˆµ) は分布に対する分散関数である。正規分布に対しては、これは残差二乗和になり逸脱度の関 数と一致するが、一方でポアソン分布や 2 項分布に対しては本来の χ2 統計量であるだけで、逸脱度とは関係 なくなってしまう。よって、一般的には上記の逸脱度の関数を用いることにする。しかしながら、解釈の視点 からは χ2 統計量を用いる方が直感的に理解しやすいと考えることもできる。 3.2 逸脱度の解析 4 残差 4.1 ピアソン残差 4.2 アンスコム残差(Anscombe Residuals) 4.3 逸脱度残差(deviance residuals) 5 一般化線形モデルに対するアルゴリズム 参考文献 [1] McCullagh, Peter; Nelder, John (1989). Generalized Linear Models, Second Edition. Boca Raton: Chapman and Hall/CRC. ISBN 0-412-31760-5. [2] Nelder, John; Wedderburn, Robert (1972). “Generalized Linear Models”. Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing) 135 (3): 370-384. 9
Download