SlideShare a Scribd company logo
Logistic Regression in Rare Events
Data
Gary King,Harvard University
Langche Zeng,George Washington University
(Oxford Journals February 16, 2001)

@shima_x
概要
 - 何千倍もある不均衡率のデータを使った学習による過小評価の改善を行う
 - サンプリングによって調整する手法と出力値の補正によって調整によって行
2
う手法の2つを提案している
貢献
 - 不均衡データによるバイアスを緩和する手法の提案
 - 本稿の手法において
   解析的な根拠とモンテカルロシミュレーションによる実験的根拠を示した
ロジスティック回帰
◆ ベルヌーイ分布の定義
{0,1}
 - ロジスティックも基本{0,1}
ロジスティック回帰
◆ パラメタβが与えられた場合の条件付き確率
サンプリングバイアス
◆ Prior correction
 - 事前情報を使ってバイアスを補正する
集合の一部についての事前情報
(センサスデータから取得)

ランダムに選択された横断データ

選択されたサンプル
サンプリングバイアス
◆ Weighting
 - バイアスを減らすようにサンプルを重みづけする手法
 - 以下の重み付き対数尤度の最大化を行う
推定バイアス
◆ 推定パラメタのバイアス

◆ 近似的にバイアスを除去したパラメタ
推定バイアス
◆ 式展開(重要な部分だけ)
2
 -対数尤度の2階偏微分しフィッシャー情報行列を算出

ここでラベルによる場合分けを除外し表現を統一
推定バイアス
◆ 式展開(重要な部分だけ)
2
 - 対数尤度の2階偏微分しフィッシャー情報行列を算出
推定バイアス
◆ パラメタ推定値のバイアスの期待値

0.5
0.5未満であればレアイベントと判断
バイアスを考慮した確率推定
◆ 推定
 - tild
tildβであればバイアスは少ないし、分散も小さいのでこれを使って確率推定
を行う

しかし、バイアスが少ないと言えどもまだtildπ0でも望ましく無い。
サンプリングエラーを含むなどtildβ0が不確かであるからである。
これはβの誤差の標準誤差が0で無い事を見ればわかる。
バイアスを考慮した確率推定
◆ ベータの不確実性による分布の違い(バイアス)
 - Yについて周辺化した分布の方が裾野が広い分布となっている
  → サンプリングバイアスなどが考慮されているため
バイアスを考慮した確率推定
◆ バイアスを消す方法
(1)
 (1) ランダムサンプリングを行って、それについての確率密度関数を求めその平
均値を取る
(2)
 (2) バイアスの補正を行う(本稿の手法)

直接的なバイアス

0.5
0.5未満でレアイベントと判断

0.5
※0.5
0.5を超える場合は、補正の必要性が無いため補正は行わない
バイアスを考慮した確率推定
◆ バイアス補正
(1)
 (1) approximate unbiased estimator
(2)
 (2) approximate Bayesian estimator
(1)
(1)は漸近的にバイアスが無い予測値となる。
(2)
(2)はバイアスが無いわけではない。しかし最小二乗誤差を減らす良い予測値とな
る。(※実験的に証明している)
実験条件
◆ サンプル数

◆ 切片

1
◆ 陽性反応率(1 - 不均衡率)

◆ 陽性確率

◆ 相対リスク
実験条件
◆ 絶対リスクと相対リスク
 - 1,000
1,000回モンテカルロシミュレーションを行うことで確認
実 験
◆ Logit-Bayesian differences
differences(絶対リスク)
 -縦軸スケール:logit, 横軸スケール:log

← 陽性反応が占める割合
実 験
◆ Logit-Bayesian differences
differences(相対リスク)
 -縦軸スケール:logit, 横軸スケール:log
実 験
◆ リスク評価の結果
logit
 - 本稿の手法は通常のlogit
logitモデルと比較して以下の場合効果が高い
  ・不均衡率が高い場合
  ・総サンプル数が少ない場合
実 験
Prior Correciton)
◆ 平均サンプリングバイアス(切片・Prior Correciton
実 験
Weighting
◆ 平均サンプリングバイアス(切片・Weighting
Weighting)
実 験
◆平均サンプリングバイアス(傾き・ Prior Correction
Correction)
実 験
Weighting
◆ 平均サンプリングバイアス( 傾き・Weighting
Weighting)
実 験
◆ バイアス比較の結果
logit
 -logit
logitよりも補正をかけたほうがバイアスは小さい
実 験
Prior Correction)
◆バイアスの平均標準誤差(Prior Correction
実 験
Weighting
◆ バイアスの平均標準誤差(Weighting
Weighting)
実 験
◆ バイアスの平均標準偏差の結果
logit
 -logit
logitも補正をかけたモノも結果は理想的な値となった
logit
logitの結果グラフのみを載せた
 - したがって、logit
 - 陰性のデータの削除割合を大きくするにつれて情報行列の誤差が大きくなる
実 験
(RMSW)
◆ 確率値の平均最小二乗誤差(RMSW)
実 験
◆ 確率値のバイアス
実 験
(RMSE)
◆ 確率値のバイアスと平均最小二乗誤差(RMSE)
Bayesian
2
 - RMSE をみるとBayesian
Bayesian補正が他の2つの手法に優っている
Bayesian
Bayesian補正が最も悪い
 -バイアスではBayesian
RMSE
 - バイアスは大きいがRMSE
RMSEは十分小さいため、バランスされる
実 験
RMSE(Prior
◆ 確率値のRMSE(Prior Correction)
実 験
RMSE(Weighting)
◆確率値のRMSE(Weighting)
実 験
(RMSE)
◆ ダウンサンプリングによる平均最小二乗誤差(RMSE)
(RMSE)の絶対リスク
 - Bayesitan
Bayesitan補正は他の手法と比較して誤差が小さい
 - Prior Correction, Weighting
Weightingの両者において同様の結果となった
実 験
RSME(Prior
◆ 相対リスクのRSME(Prior Correciton)
実 験
RSME
◆ 相対リスクのRSME (Weighting)
実 験
(RMSE)
◆ ダウンサンプリングによる平均最小二乗誤差(RMSE)
(RMSE)の相対リスク
 - Bayesitan
Bayesitan補正は他の手法と比較して誤差が小さい
2
 - 提案手法が従来の2つの手法より良いことが証明された
結 論
5%
5%未満のレアイベントに対して大きな効果がある
- 出現率5%
- 多くのレアイベントの調査に適用可能な手法を提案した
 (たとえば戦争などの国同士の争いにも適用可能)
- パラメタが非常に多い場合に有効
 (時系列データとかダミーデータが多い素性の場合など)

More Related Content

PPTX
多変量解析
PDF
Python intro
PDF
Feathertheme
PDF
finite time analysis of the multiarmed bandit problem
PDF
normalized online learning
PDF
Beamer atau .PpT
PDF
Contexual bandit @TokyoWebMining
PDF
3 - BibTeX: Gestión de bibliografía en LaTeX
多変量解析
Python intro
Feathertheme
finite time analysis of the multiarmed bandit problem
normalized online learning
Beamer atau .PpT
Contexual bandit @TokyoWebMining
3 - BibTeX: Gestión de bibliografía en LaTeX

More from shima o (20)

PDF
[読会]Causal transfer random forest combining logged data and randomized expe...
PDF
[読会]P qk means-_ billion-scale clustering for product-quantized codes
PDF
[読会]Long tail learning via logit adjustment
PDF
[読会]A critical review of lasso and its derivatives for variable selection und...
PDF
[読会]Themis decentralized and trustless ad platform with reporting integrity
PDF
[読会]Logistic regression models for aggregated data
PDF
Introduction of introduction_to_group_theory
PDF
Squeeze and-excitation networks
PDF
Dynamic filters in graph convolutional network
PDF
Nmp for quantum_chemistry
PDF
Dl study g_learning_to_remember_rare_events
PDF
連続最適化勉強会
PDF
ReviewNet_161122
PDF
Joint optimization of bid and budget allocation in sponsored search
PDF
Towards a robust modeling of temporal interest change patterns for behavioral...
PDF
Real time bidding algorithms for performance-based display ad allocation
PDF
Fingind the right consumer - optimizing for conversion in display advertising...
PDF
Real time bid optimization with smooth budget delivery in online advertising
PDF
Estimating conversion rate in display advertising from past performance data
PDF
階層ベイズによるワンToワンマーケティング入門
[読会]Causal transfer random forest combining logged data and randomized expe...
[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]Long tail learning via logit adjustment
[読会]A critical review of lasso and its derivatives for variable selection und...
[読会]Themis decentralized and trustless ad platform with reporting integrity
[読会]Logistic regression models for aggregated data
Introduction of introduction_to_group_theory
Squeeze and-excitation networks
Dynamic filters in graph convolutional network
Nmp for quantum_chemistry
Dl study g_learning_to_remember_rare_events
連続最適化勉強会
ReviewNet_161122
Joint optimization of bid and budget allocation in sponsored search
Towards a robust modeling of temporal interest change patterns for behavioral...
Real time bidding algorithms for performance-based display ad allocation
Fingind the right consumer - optimizing for conversion in display advertising...
Real time bid optimization with smooth budget delivery in online advertising
Estimating conversion rate in display advertising from past performance data
階層ベイズによるワンToワンマーケティング入門
Ad

logistic regression in rare events data