logistic regression in rare events data

Logistic Regression in Rare Events
Data
Gary King,Harvard University
Langche Zeng,George Washington University
(Oxford Journals February 16, 2001)

@shima_x

概要
　－何千倍もある不均衡率のデータを使った学習による過小評価の改善を行う
　－サンプリングによって調整する手法と出力値の補正によって調整によって行
2
う手法の2つを提案している

貢献
　－不均衡データによるバイアスを緩和する手法の提案
　－本稿の手法において
　　　解析的な根拠とモンテカルロシミュレーションによる実験的根拠を示した

ロジスティック回帰
◆ ベルヌーイ分布の定義
{0,1}
　－ロジスティックも基本{0,1}

ロジスティック回帰
◆ パラメタβが与えられた場合の条件付き確率

サンプリングバイアス
◆ Prior correction
　－事前情報を使ってバイアスを補正する
集合の一部についての事前情報
（センサスデータから取得）

ランダムに選択された横断データ

選択されたサンプル

サンプリングバイアス
◆ Weighting
　－バイアスを減らすようにサンプルを重みづけする手法
　－以下の重み付き対数尤度の最大化を行う

推定バイアス
◆ 推定パラメタのバイアス

◆ 近似的にバイアスを除去したパラメタ

推定バイアス
◆ 式展開（重要な部分だけ）
2
　－対数尤度の2階偏微分しフィッシャー情報行列を算出

ここでラベルによる場合分けを除外し表現を統一

推定バイアス
◆ 式展開（重要な部分だけ）
2
　－対数尤度の2階偏微分しフィッシャー情報行列を算出

推定バイアス
◆ パラメタ推定値のバイアスの期待値

0.5
0.5未満であればレアイベントと判断

バイアスを考慮した確率推定
◆ 推定
　－ tild
tildβであればバイアスは少ないし、分散も小さいのでこれを使って確率推定
を行う

しかし、バイアスが少ないと言えどもまだtildπ0でも望ましく無い。
サンプリングエラーを含むなどtildβ0が不確かであるからである。
これはβの誤差の標準誤差が0で無い事を見ればわかる。

◆ ベータの不確実性による分布の違い（バイアス）
　－ Yについて周辺化した分布の方が裾野が広い分布となっている
　　→ サンプリングバイアスなどが考慮されているため

◆ バイアスを消す方法
(1)
　(1) ランダムサンプリングを行って、それについての確率密度関数を求めその平
均値を取る
(2)
　(2) バイアスの補正を行う（本稿の手法）

直接的なバイアス

0.5
0.5未満でレアイベントと判断

0.5
※0.5
0.5を超える場合は、補正の必要性が無いため補正は行わない

◆ バイアス補正
(1)
　(1) approximate unbiased estimator
(2)
　(2) approximate Bayesian estimator
(1)
(1)は漸近的にバイアスが無い予測値となる。
(2)
(2)はバイアスが無いわけではない。しかし最小二乗誤差を減らす良い予測値とな
る。（※実験的に証明している）

実験条件
◆ サンプル数

◆ 切片

1
◆ 陽性反応率（1 - 不均衡率）

◆ 陽性確率

◆ 相対リスク

実験条件
◆ 絶対リスクと相対リスク
　－ 1,000
1,000回モンテカルロシミュレーションを行うことで確認

実　験
◆ Logit-Bayesian differences
differences（絶対リスク）
　－縦軸スケール：logit, 横軸スケール：log

← 陽性反応が占める割合

実　験
◆ Logit-Bayesian differences
differences（相対リスク）
　－縦軸スケール：logit, 横軸スケール：log

実　験
◆ リスク評価の結果
logit
　－本稿の手法は通常のlogit
logitモデルと比較して以下の場合効果が高い
　　・不均衡率が高い場合
　　・総サンプル数が少ない場合

実　験
Prior Correciton）
◆ 平均サンプリングバイアス（切片・Prior Correciton

実　験
Weighting
◆ 平均サンプリングバイアス（切片・Weighting
Weighting）

実　験
◆平均サンプリングバイアス（傾き・ Prior Correction
Correction）

実　験
Weighting
◆ 平均サンプリングバイアス（傾き・Weighting
Weighting）

実　験
◆ バイアス比較の結果
logit
　－logit
logitよりも補正をかけたほうがバイアスは小さい

実　験
Prior Correction）
◆バイアスの平均標準誤差（Prior Correction

実　験
Weighting
◆ バイアスの平均標準誤差（Weighting
Weighting）

実　験
◆ バイアスの平均標準偏差の結果
logit
　－logit
logitも補正をかけたモノも結果は理想的な値となった
logit
logitの結果グラフのみを載せた
　－したがって、logit
　－陰性のデータの削除割合を大きくするにつれて情報行列の誤差が大きくなる

実　験
(RMSW)
◆ 確率値の平均最小二乗誤差(RMSW)

実　験
◆ 確率値のバイアス

実　験
(RMSE)
◆ 確率値のバイアスと平均最小二乗誤差(RMSE)
Bayesian
2
　－ RMSE をみるとBayesian
Bayesian補正が他の2つの手法に優っている
Bayesian
Bayesian補正が最も悪い
　－バイアスではBayesian
RMSE
　－バイアスは大きいがRMSE
RMSEは十分小さいため、バランスされる

実　験
RMSE(Prior
◆ 確率値のRMSE(Prior Correction)

実　験
RMSE(Weighting)
◆確率値のRMSE(Weighting)

実　験
(RMSE)
◆ ダウンサンプリングによる平均最小二乗誤差(RMSE)
(RMSE)の絶対リスク
　－ Bayesitan
Bayesitan補正は他の手法と比較して誤差が小さい
　－ Prior Correction, Weighting
Weightingの両者において同様の結果となった

実　験
RSME(Prior
◆ 相対リスクのRSME(Prior Correciton)

実　験
RSME
◆ 相対リスクのRSME (Weighting)

実　験
(RMSE)
◆ ダウンサンプリングによる平均最小二乗誤差(RMSE)
(RMSE)の相対リスク
　－ Bayesitan
Bayesitan補正は他の手法と比較して誤差が小さい
2
　－提案手法が従来の2つの手法より良いことが証明された

結　論
5%
5%未満のレアイベントに対して大きな効果がある
－出現率5%
－多くのレアイベントの調査に適用可能な手法を提案した
　（たとえば戦争などの国同士の争いにも適用可能）
－パラメタが非常に多い場合に有効
　（時系列データとかダミーデータが多い素性の場合など）

logistic regression in rare events data

More Related Content

More from shima o (20)

logistic regression in rare events data