Submit Search
logistic regression in rare events data
0 likes
1,770 views
shima o
1 of 38
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
More Related Content
PPTX
多変量解析
Yoshihiro_Handa
PDF
Python intro
rik0
PDF
Feathertheme
Lilyana Vankova
PDF
finite time analysis of the multiarmed bandit problem
shima o
PDF
normalized online learning
shima o
PDF
Beamer atau .PpT
Hirwanto Iwan
PDF
Contexual bandit @TokyoWebMining
正志 坪坂
PDF
3 - BibTeX: Gestión de bibliografía en LaTeX
Digna González
多変量解析
Yoshihiro_Handa
Python intro
rik0
Feathertheme
Lilyana Vankova
finite time analysis of the multiarmed bandit problem
shima o
normalized online learning
shima o
Beamer atau .PpT
Hirwanto Iwan
Contexual bandit @TokyoWebMining
正志 坪坂
3 - BibTeX: Gestión de bibliografía en LaTeX
Digna González
More from shima o
(20)
PDF
[読会]Causal transfer random forest combining logged data and randomized expe...
shima o
PDF
[読会]P qk means-_ billion-scale clustering for product-quantized codes
shima o
PDF
[読会]Long tail learning via logit adjustment
shima o
PDF
[読会]A critical review of lasso and its derivatives for variable selection und...
shima o
PDF
[読会]Themis decentralized and trustless ad platform with reporting integrity
shima o
PDF
[読会]Logistic regression models for aggregated data
shima o
PDF
Introduction of introduction_to_group_theory
shima o
PDF
Squeeze and-excitation networks
shima o
PDF
Dynamic filters in graph convolutional network
shima o
PDF
Nmp for quantum_chemistry
shima o
PDF
Dl study g_learning_to_remember_rare_events
shima o
PDF
連続最適化勉強会
shima o
PDF
ReviewNet_161122
shima o
PDF
Joint optimization of bid and budget allocation in sponsored search
shima o
PDF
Towards a robust modeling of temporal interest change patterns for behavioral...
shima o
PDF
Real time bidding algorithms for performance-based display ad allocation
shima o
PDF
Fingind the right consumer - optimizing for conversion in display advertising...
shima o
PDF
Real time bid optimization with smooth budget delivery in online advertising
shima o
PDF
Estimating conversion rate in display advertising from past performance data
shima o
PDF
階層ベイズによるワンToワンマーケティング入門
shima o
[読会]Causal transfer random forest combining logged data and randomized expe...
shima o
[読会]P qk means-_ billion-scale clustering for product-quantized codes
shima o
[読会]Long tail learning via logit adjustment
shima o
[読会]A critical review of lasso and its derivatives for variable selection und...
shima o
[読会]Themis decentralized and trustless ad platform with reporting integrity
shima o
[読会]Logistic regression models for aggregated data
shima o
Introduction of introduction_to_group_theory
shima o
Squeeze and-excitation networks
shima o
Dynamic filters in graph convolutional network
shima o
Nmp for quantum_chemistry
shima o
Dl study g_learning_to_remember_rare_events
shima o
連続最適化勉強会
shima o
ReviewNet_161122
shima o
Joint optimization of bid and budget allocation in sponsored search
shima o
Towards a robust modeling of temporal interest change patterns for behavioral...
shima o
Real time bidding algorithms for performance-based display ad allocation
shima o
Fingind the right consumer - optimizing for conversion in display advertising...
shima o
Real time bid optimization with smooth budget delivery in online advertising
shima o
Estimating conversion rate in display advertising from past performance data
shima o
階層ベイズによるワンToワンマーケティング入門
shima o
Ad
logistic regression in rare events data
1.
Logistic Regression in
Rare Events Data Gary King,Harvard University Langche Zeng,George Washington University (Oxford Journals February 16, 2001) @shima_x
2.
概要 - 何千倍もある不均衡率のデータを使った学習による過小評価の改善を行う - サンプリングによって調整する手法と出力値の補正によって調整によって行 2 う手法の2つを提案している
3.
貢献 - 不均衡データによるバイアスを緩和する手法の提案 - 本稿の手法において 解析的な根拠とモンテカルロシミュレーションによる実験的根拠を示した
4.
ロジスティック回帰 ◆ ベルヌーイ分布の定義 {0,1} - ロジスティックも基本{0,1}
5.
ロジスティック回帰 ◆ パラメタβが与えられた場合の条件付き確率
6.
サンプリングバイアス ◆ Prior correction -
事前情報を使ってバイアスを補正する 集合の一部についての事前情報 (センサスデータから取得) ランダムに選択された横断データ 選択されたサンプル
7.
サンプリングバイアス ◆ Weighting - バイアスを減らすようにサンプルを重みづけする手法 -
以下の重み付き対数尤度の最大化を行う
8.
推定バイアス ◆ 推定パラメタのバイアス ◆ 近似的にバイアスを除去したパラメタ
9.
推定バイアス ◆ 式展開(重要な部分だけ) 2 -対数尤度の2階偏微分しフィッシャー情報行列を算出 ここでラベルによる場合分けを除外し表現を統一
10.
推定バイアス ◆ 式展開(重要な部分だけ) 2 - 対数尤度の2階偏微分しフィッシャー情報行列を算出
11.
推定バイアス ◆ パラメタ推定値のバイアスの期待値 0.5 0.5未満であればレアイベントと判断
12.
バイアスを考慮した確率推定 ◆ 推定 - tild tildβであればバイアスは少ないし、分散も小さいのでこれを使って確率推定 を行う しかし、バイアスが少ないと言えどもまだtildπ0でも望ましく無い。 サンプリングエラーを含むなどtildβ0が不確かであるからである。 これはβの誤差の標準誤差が0で無い事を見ればわかる。
13.
バイアスを考慮した確率推定 ◆ ベータの不確実性による分布の違い(バイアス) - Yについて周辺化した分布の方が裾野が広い分布となっている →
サンプリングバイアスなどが考慮されているため
14.
バイアスを考慮した確率推定 ◆ バイアスを消す方法 (1) (1) ランダムサンプリングを行って、それについての確率密度関数を求めその平 均値を取る (2) (2)
バイアスの補正を行う(本稿の手法) 直接的なバイアス 0.5 0.5未満でレアイベントと判断 0.5 ※0.5 0.5を超える場合は、補正の必要性が無いため補正は行わない
15.
バイアスを考慮した確率推定 ◆ バイアス補正 (1) (1) approximate
unbiased estimator (2) (2) approximate Bayesian estimator (1) (1)は漸近的にバイアスが無い予測値となる。 (2) (2)はバイアスが無いわけではない。しかし最小二乗誤差を減らす良い予測値とな る。(※実験的に証明している)
16.
実験条件 ◆ サンプル数 ◆ 切片 1 ◆
陽性反応率(1 - 不均衡率) ◆ 陽性確率 ◆ 相対リスク
17.
実験条件 ◆ 絶対リスクと相対リスク - 1,000 1,000回モンテカルロシミュレーションを行うことで確認
18.
実 験 ◆ Logit-Bayesian differences differences(絶対リスク) -縦軸スケール:logit,
横軸スケール:log ← 陽性反応が占める割合
19.
実 験 ◆ Logit-Bayesian differences differences(相対リスク) -縦軸スケール:logit,
横軸スケール:log
20.
実 験 ◆ リスク評価の結果 logit - 本稿の手法は通常のlogit logitモデルと比較して以下の場合効果が高い ・不均衡率が高い場合 ・総サンプル数が少ない場合
21.
実 験 Prior Correciton) ◆ 平均サンプリングバイアス(切片・Prior
Correciton
22.
実 験 Weighting ◆ 平均サンプリングバイアス(切片・Weighting Weighting)
23.
実 験 ◆平均サンプリングバイアス(傾き・ Prior Correction Correction)
24.
実 験 Weighting ◆ 平均サンプリングバイアス( 傾き・Weighting Weighting)
25.
実 験 ◆ バイアス比較の結果 logit -logit logitよりも補正をかけたほうがバイアスは小さい
26.
実 験 Prior Correction) ◆バイアスの平均標準誤差(Prior Correction
27.
実 験 Weighting ◆ バイアスの平均標準誤差(Weighting Weighting)
28.
実 験 ◆ バイアスの平均標準偏差の結果 logit -logit logitも補正をかけたモノも結果は理想的な値となった logit logitの結果グラフのみを載せた - したがって、logit -
陰性のデータの削除割合を大きくするにつれて情報行列の誤差が大きくなる
29.
実 験 (RMSW) ◆ 確率値の平均最小二乗誤差(RMSW)
30.
実 験 ◆ 確率値のバイアス
31.
実 験 (RMSE) ◆ 確率値のバイアスと平均最小二乗誤差(RMSE) Bayesian 2 - RMSE
をみるとBayesian Bayesian補正が他の2つの手法に優っている Bayesian Bayesian補正が最も悪い -バイアスではBayesian RMSE - バイアスは大きいがRMSE RMSEは十分小さいため、バランスされる
32.
実 験 RMSE(Prior ◆ 確率値のRMSE(Prior Correction)
33.
実 験 RMSE(Weighting) ◆確率値のRMSE(Weighting)
34.
実 験 (RMSE) ◆ ダウンサンプリングによる平均最小二乗誤差(RMSE) (RMSE)の絶対リスク - Bayesitan Bayesitan補正は他の手法と比較して誤差が小さい -
Prior Correction, Weighting Weightingの両者において同様の結果となった
35.
実 験 RSME(Prior ◆ 相対リスクのRSME(Prior Correciton)
36.
実 験 RSME ◆ 相対リスクのRSME (Weighting)
37.
実 験 (RMSE) ◆ ダウンサンプリングによる平均最小二乗誤差(RMSE) (RMSE)の相対リスク - Bayesitan Bayesitan補正は他の手法と比較して誤差が小さい 2 -
提案手法が従来の2つの手法より良いことが証明された
38.
結 論 5% 5%未満のレアイベントに対して大きな効果がある - 出現率5% - 多くのレアイベントの調査に適用可能な手法を提案した (たとえば戦争などの国同士の争いにも適用可能) -
パラメタが非常に多い場合に有効 (時系列データとかダミーデータが多い素性の場合など)
Download