Analysis of Learning from Positive and Unlabeled Data

Analysis of Learning from Positive and
Unlabeled Data
Marthinus C, etc
担当： Quasi_quant2010
NIPS2014読み会1
【NIPS2014読み会】

本論文を読んだ動機
- ラベルなしデータにおける情報推薦の考察 -
NIPS2014読み会2
 PU Learning + 表現学習
 表現学習で正例らしさを自動獲得する半教師有学習が流行る?
 語義曖昧性解消・同義語獲得の際、データに意味が必ずしも付
与されてない為、データが与えられた時、自動獲得できれば最高
 その他
 例①：混合モデルによる定式化 [G.Blanchard, 10]
 正例以外はラベルなしとして扱い、
ラベルなしデータは正例・負例を混合した分布に従うとして定式化
 例②：Delayed Feedback [O.Chapelle, 14]
 1/18に推薦した記事は閲覧しなかったが、1/19に閲覧した
 タイミングを考慮し、負例->正例の変化をモデル化する

本論文の貢献
- 損失関数を適当に選んではいけない!! -
 期待誤分類率に従って正しい決定境界を得る際、PU-
-Learningでは、損失関数は対称で、非凸な関数にすべき
 PU LearningとCost-Sensitive Learningの関係
 期待誤分類率の事前分布(P[X~f1])は
主に、有効事前分布に従う
 ラベルなしデータの多くが正例に従っていれば(現実に確認できない
が) 、誤分類率は事前分布の選択にあまり影響されない
 PU Learningにおける期待誤分類率の汎化誤差解析
NIPS2014読み会3

問題設定とノーテーション
- PU Learningにおける期待誤分類率最小化-
 正例 : X1,…,Xm ~ f1(x)
 ラベルなしデータ：Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)
 α ∈ [0, 1], label ∈ {-1, 1}
 Unkown Prior P[X ~ f1(x)]
 期待誤分類率(=JL(g))を最小にする
 JL(g) ≡ α*E1[Loss{g(X)}] + (1-α)*E-1[Loss{-g(X)}]
 g(・) : Learning Function
NIPS2014読み会4
ノーテーション確率
FPR R-1 P[g(X)=1 | X~f-1]
FNR1 R1 P[g(X)=-1 | X~f1]
FNRx Rx P[g(X)=1 | X~fx]
ん？f1の分布は推定できるが、
f-1の分布は分からない
→ f-1をfxに変換し定式化。
すると, PUでは損失関数が
対称であって欲しい

Cost-Sensitive Learning
- FNRとFPRの非対称性 -
 対象によって予測の誤りに非対称性がある
 FPR = 癌と診断したものの、実際は癌でなかった
 FNR = 癌と診断しなかったものの、実際は癌だった
 誤診という意味では等しいが、FNRは起こってはいけない誤り
 定式化
R(g) = α*c1*R1(g) + (1-α)*c-1*R-1(g)
 注1) g(・)はlearning function, α = P[X~f1(x)]
 注2) 詳細は[C.Elkan, 01] ・ [G.Blanchard, 10]参照
 式の通り、非対称性を考慮しており、
混合比率αをreweightしていると解釈できる
NIPS2014読み会5

PU LearningとCost-Sensitive Learning
- PUは f1 と fx を混合したCost-Sensitive Learningと同等 -
 期待誤分類率 in Cost-Sensitive
R(g) = α*c1*FNR1 + (1-α)*c-1*FPR
= α*c1*R1(g) + (1-α)*c-1*R-1(g)
, α = P[X~f1(x)]
 期待誤分類率 in PU Learning
R(g) = α*FNR1 + (1-α)*FPR
= α*R1(g) + (1-α)*R-1(g)
= 2α*R1(g) + (1-α)* Rx(g) – α
= c1*η*R1(g) + cx*(1-η)*Rx(g) - α
, Rx(g) = α*TPR + (1-α)*FPR
= α*(1-R1(g)) + (1-α)*R-1(g)
c1=2α/η, cx=1/(1-η)
NIPS2014読み会6
R-1をRxに変換
上式と比較すると、
CS設定 = f1とf-1を混合
PU設定 = f1とfxを混合
とみることができる
FNRとFPRの
非対称性を考慮して
reweight

なぜ損失関数を適当に選んではいけないのか
- 損失関数の非対称性がSuperfluous penaltyを生む -
 Surpervied 設定：損失関数はHinge Loss
JH(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]
, LH(z) = 1/2 * max(1-z,0)
 PU 設定：損失関数はHinge Loss
JPU-H(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]
+ α*E1[LH{g(X)} + LH{-g(X)}] – α
JPU-H(g) = JH(g) + α*E1[LH{g(X)} + LH{-g(X)}] – α
 Hinge Lossの場合、PU設定はSupervied設定と比べ、
Superfluous penaltyが決定境界を悪化させる
NIPS2014読み会7
Superfluous penalty

 Surpervied 設定：損失関数はRamp Loss
JR(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]
, LR(z) = 1/2 * max(0, min(2,1-z))
 PU 設定：損失関数はRamp Loss
JPU-R(g) ≡ α*E1[LR{g(X)}] + (1-α)*E-1[LR{-g(X)}]
+ α*E1[LR{g(X)} + LR{-g(X)}] – α
JPU-R(g) = JR(g) (∵ LR{g(X)} + LR{-g(X)} = 1 )
 Ramp Lossの対称性より
PU設定はSupervied設定の決定境界と等しくなる
NIPS2014読み会8
Superfluous penalty
- 損失関数の対称性がSuperfluous penaltyを消去 -

- Superfluous penaltyの影響 -
 正例 : X1,…,Xm ~ f1(x) = N(-3,1)
 負例：Xm+1,…,Xm+n ~ f-1(x) = N(3,1)
 ラベルなしデータ：Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)
 Miss[PU設定(Ramp)] = Miss[Supervied設定(Ramp)]
 Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)]
→ PU Learningでは、損失関数は対称にすべき
NIPS2014読み会9
注）Figure2より引用
Surpervied 設定
PU設定(Ramp)
PU 設定(Hinge)

事前分布が超過リスクに与える影響
- 有効事前分布は超過リスクを最小にする -
 超過リスクを小さくしたい
 ExR(α) ≡ R(g*, α) - R(g, α)
 g* = infg∈G R(g, α), g*は誤分類率を最小化する学習関数
 R(g,α) ≡ 2α × R1(g) + (1-α) × Rx(g) – α
 この時、有効事前分布をtilde{α}とすると
tilde{α} = argminα∈P[X ~ f1(x)] ExR(α)
= (2*hat{α} – α) / Z(hat{α}, α)
, Z(hat{α}, α) = (2*hat{α} – α) + (1-α), Zは正規化項
 導出? 次ページのグラフにて示唆
R(g, hat{α}) ≡ 2*hat{α}*R1(g) + Rx(g) - hat{α}
=(2*hat{α} – α)*R1(g) + (1-α)*R-1(g) + (hat{α} – α)
NIPS2014読み会10

最小化問題に対する事前分布の感応度
- 事前分布の選択方法 -
 ①：超過リスクは
有効事前分布の時、最小
 tilde{α} =
argminα∈P[X ~ f1(x)] ExR(α)
が成立している
→ 推定事前分布が有効事前
分布に一致すると最高
 ②：真の事前分布が
大きい程、有効事前分布は
真値の周辺でほぼ一定
→ P[X~f1(x)]が大きければ、
事前分布の推定はラフでいい
注）Figure3より引用
①:超過リスク
有効事前分布
事前分布推定は[G.Blanchard, 10]を参照
推定事前分布
= 真の事前分布
事前分布
誤分類率
有効事前分布
推定事前分布
②

評価実験
- 損失関数の対称性で誤分類率が下がるか -
 タスク
 ”0”と”N”が異なることを認識, N=1,…,9
 手書き数字データ: USPSセット
 米国郵便公社より収集した数字の画像データ(MNIST)
 訓練データ：7291サンプル、テストデータ：2007サンプル
 サイト報告のエラーレートは2.5%が最高
 実験では、Positive・Unlabel、各々550サンプルを使用
 モデル(損失関数・事前分布)
 Hinge Loss
 Ramp Loss
 α = P[X~f1(x)]は0.2~0.95から決め打ち
NIPS2014読み会12

評価実験
- 損失関数の対称性で誤分類率が下がった!!-
 見どころ
 損失関数にRampを用いた方がHingeより予測が正確
 さらに、αが大きければその結果は顕著
→ superfluous penalty termによるバイアスに起因
 結果： 0 vs 6,8,9
 サイト報告の最高エラーレート2.5%を上回っている
 Ramp > Hinge
 αが大きくなる程エラー率が低下
NIPS2014読み会13
注）Table1より引用

感想
- PU設定では損失関数を適当に決めない!! -
NIPS2014読み会14
 全体
 PU設定では、対称な損失関数を使えば
Supervised設定と同程度の性能が見込める
 有効事前分布という量を導入し、
誤分類率が推定した事前分布にどの程度、依存するかを考察
 超過リスクの上限バウンドに関する理論は整理されているので、
事前分布が超過リスクに及ぼす影響をKLDなどで整理し、
既存の上限バウンドがタイトになる理論ができれば凄い
 実験
 PU設定下、Ramp・Hingeの違いによる予測率を比較するだけ
でなく、負例も使い、Supervied設定の予測も比較すべきでは？
 Miss[PU設定(Ramp)] ≒ Miss[Supervied設定(Ramp)]
 Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)]

参照
 [C.Elkan, 01] The Foundations of Cost-Sensitive
Learning, IJCA
 *[T.Zhang, 04] Statistical behavior and consistency
of classification methods based on convex risk
minimization, The Annals of Statistics
 *[G.Blanchard, 10] Semi-Supervised Novelty
Detection, JMLR
 [M.C.Plessis, 14] Class prior estimation from
positive and unlabeled data, TIS
 [O.Chapelle, 14] Modeling Delayed Feedback in
Display Advertising, KDD
NIPS2014読み会15

Analysis of Learning from Positive and Unlabeled Data

More Related Content

What's hot (19)

Viewers also liked (20)

Similar to Analysis of Learning from Positive and Unlabeled Data (20)

More from Takanori Nakai (17)

Analysis of Learning from Positive and Unlabeled Data