SlideShare a Scribd company logo
Analysis of Learning from Positive and
Unlabeled Data
Marthinus C, etc
担当: Quasi_quant2010
NIPS2014読み会1
【NIPS2014読み会】
本論文を読んだ動機
- ラベルなしデータにおける情報推薦の考察 -
NIPS2014読み会2
 PU Learning + 表現学習
 表現学習で正例らしさを自動獲得する半教師有学習が流行る?
 語義曖昧性解消・同義語獲得の際、データに意味が必ずしも付
与されてない為、データが与えられた時、自動獲得できれば最高
 その他
 例①:混合モデルによる定式化 [G.Blanchard, 10]
 正例以外はラベルなしとして扱い、
ラベルなしデータは正例・負例を混合した分布に従うとして定式化
 例②:Delayed Feedback [O.Chapelle, 14]
 1/18に推薦した記事は閲覧しなかったが、1/19に閲覧した
 タイミングを考慮し、負例->正例の変化をモデル化する
本論文の貢献
- 損失関数を適当に選んではいけない!! -
 期待誤分類率に従って正しい決定境界を得る際、PU-
-Learningでは、損失関数は対称で、非凸な関数にすべき
 PU LearningとCost-Sensitive Learningの関係
 期待誤分類率の事前分布(P[X~f1])は
主に、有効事前分布に従う
 ラベルなしデータの多くが正例に従っていれば(現実に確認できない
が) 、誤分類率は事前分布の選択にあまり影響されない
 PU Learningにおける期待誤分類率の汎化誤差解析
NIPS2014読み会3
問題設定とノーテーション
- PU Learningにおける期待誤分類率最小化-
 正例 : X1,…,Xm ~ f1(x)
 ラベルなしデータ:Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)
 α ∈ [0, 1], label ∈ {-1, 1}
 Unkown Prior P[X ~ f1(x)]
 期待誤分類率(=JL(g))を最小にする
 JL(g) ≡ α*E1[Loss{g(X)}] + (1-α)*E-1[Loss{-g(X)}]
 g(・) : Learning Function
NIPS2014読み会4
ノーテーション 確率
FPR R-1 P[g(X)=1 | X~f-1]
FNR1 R1 P[g(X)=-1 | X~f1]
FNRx Rx P[g(X)=1 | X~fx]
ん?f1の分布は推定できるが、
f-1の分布は分からない
→ f-1をfxに変換し定式化。
すると, PUでは損失関数が
対称であって欲しい
Cost-Sensitive Learning
- FNRとFPRの非対称性 -
 対象によって予測の誤りに非対称性がある
 FPR = 癌と診断したものの、実際は癌でなかった
 FNR = 癌と診断しなかったものの、実際は癌だった
 誤診という意味では等しいが、FNRは起こってはいけない誤り
 定式化
R(g) = α*c1*R1(g) + (1-α)*c-1*R-1(g)
 注1) g(・)はlearning function, α = P[X~f1(x)]
 注2) 詳細は[C.Elkan, 01] ・ [G.Blanchard, 10]参照
 式の通り、非対称性を考慮しており、
混合比率αをreweightしていると解釈できる
NIPS2014読み会5
PU LearningとCost-Sensitive Learning
- PUは f1 と fx を混合したCost-Sensitive Learningと同等 -
 期待誤分類率 in Cost-Sensitive
R(g) = α*c1*FNR1 + (1-α)*c-1*FPR
= α*c1*R1(g) + (1-α)*c-1*R-1(g)
, α = P[X~f1(x)]
 期待誤分類率 in PU Learning
R(g) = α*FNR1 + (1-α)*FPR
= α*R1(g) + (1-α)*R-1(g)
= 2α*R1(g) + (1-α)* Rx(g) – α
= c1*η*R1(g) + cx*(1-η)*Rx(g) - α
, Rx(g) = α*TPR + (1-α)*FPR
= α*(1-R1(g)) + (1-α)*R-1(g)
c1=2α/η, cx=1/(1-η)
NIPS2014読み会6
R-1をRxに変換
上式と比較すると、
CS設定 = f1とf-1を混合
PU設定 = f1とfxを混合
とみることができる
FNRとFPRの
非対称性を考慮して
reweight
なぜ損失関数を適当に選んではいけないのか
- 損失関数の非対称性がSuperfluous penaltyを生む -
 Surpervied 設定:損失関数はHinge Loss
JH(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]
, LH(z) = 1/2 * max(1-z,0)
 PU 設定:損失関数はHinge Loss
JPU-H(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]
+ α*E1[LH{g(X)} + LH{-g(X)}] – α
JPU-H(g) = JH(g) + α*E1[LH{g(X)} + LH{-g(X)}] – α
 Hinge Lossの場合、PU設定はSupervied設定と比べ、
Superfluous penaltyが決定境界を悪化させる
NIPS2014読み会7
Superfluous penalty
 Surpervied 設定:損失関数はRamp Loss
JR(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}]
, LR(z) = 1/2 * max(0, min(2,1-z))
 PU 設定:損失関数はRamp Loss
JPU-R(g) ≡ α*E1[LR{g(X)}] + (1-α)*E-1[LR{-g(X)}]
+ α*E1[LR{g(X)} + LR{-g(X)}] – α
JPU-R(g) = JR(g) (∵ LR{g(X)} + LR{-g(X)} = 1 )
 Ramp Lossの対称性より
PU設定はSupervied設定の決定境界と等しくなる
NIPS2014読み会8
Superfluous penalty
なぜ損失関数を適当に選んではいけないのか
- 損失関数の対称性がSuperfluous penaltyを消去 -
なぜ損失関数を適当に選んではいけないのか
- Superfluous penaltyの影響 -
 正例 : X1,…,Xm ~ f1(x) = N(-3,1)
 負例:Xm+1,…,Xm+n ~ f-1(x) = N(3,1)
 ラベルなしデータ:Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)
 Miss[PU設定(Ramp)] = Miss[Supervied設定(Ramp)]
 Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)]
→ PU Learningでは、損失関数は対称にすべき
NIPS2014読み会9
注)Figure2より引用
Surpervied 設定
PU設定(Ramp)
PU 設定(Hinge)
事前分布が超過リスクに与える影響
- 有効事前分布は超過リスクを最小にする -
 超過リスクを小さくしたい
 ExR(α) ≡ R(g*, α) - R(g, α)
 g* = infg∈G R(g, α), g*は誤分類率を最小化する学習関数
 R(g,α) ≡ 2α × R1(g) + (1-α) × Rx(g) – α
 この時、有効事前分布をtilde{α}とすると
tilde{α} = argminα∈P[X ~ f1(x)] ExR(α)
= (2*hat{α} – α) / Z(hat{α}, α)
, Z(hat{α}, α) = (2*hat{α} – α) + (1-α), Zは正規化項
 導出? 次ページのグラフにて示唆
R(g, hat{α}) ≡ 2*hat{α}*R1(g) + Rx(g) - hat{α}
=(2*hat{α} – α)*R1(g) + (1-α)*R-1(g) + (hat{α} – α)
NIPS2014読み会10
最小化問題に対する事前分布の感応度
- 事前分布の選択方法 -
 ①:超過リスクは
有効事前分布の時、最小
 tilde{α} =
argminα∈P[X ~ f1(x)] ExR(α)
が成立している
→ 推定事前分布が有効事前
分布に一致すると最高
 ②:真の事前分布が
大きい程、有効事前分布は
真値の周辺でほぼ一定
→ P[X~f1(x)]が大きければ、
事前分布の推定はラフでいい
注)Figure3より引用
①:超過リスク
有効事前分布
事前分布推定は[G.Blanchard, 10]を参照
推定事前分布
= 真の事前分布
事前分布
誤分類率
有効事前分布
推定事前分布
②
評価実験
- 損失関数の対称性で誤分類率が下がるか -
 タスク
 ”0”と”N”が異なることを認識, N=1,…,9
 手書き数字データ: USPSセット
 米国郵便公社より収集した数字の画像データ(MNIST)
 訓練データ:7291サンプル、テストデータ:2007サンプル
 サイト報告のエラーレートは2.5%が最高
 実験では、Positive・Unlabel、各々550サンプルを使用
 モデル(損失関数・事前分布)
 Hinge Loss
 Ramp Loss
 α = P[X~f1(x)]は0.2~0.95から決め打ち
NIPS2014読み会12
評価実験
- 損失関数の対称性で誤分類率が下がった!!-
 見どころ
 損失関数にRampを用いた方がHingeより予測が正確
 さらに、αが大きければその結果は顕著
→ superfluous penalty termによるバイアスに起因
 結果: 0 vs 6,8,9
 サイト報告の最高エラーレート2.5%を上回っている
 Ramp > Hinge
 αが大きくなる程エラー率が低下
NIPS2014読み会13
注)Table1より引用
感想
- PU設定では損失関数を適当に決めない!! -
NIPS2014読み会14
 全体
 PU設定では、対称な損失関数を使えば
Supervised設定と同程度の性能が見込める
 有効事前分布という量を導入し、
誤分類率が推定した事前分布にどの程度、依存するかを考察
 超過リスクの上限バウンドに関する理論は整理されているので、
事前分布が超過リスクに及ぼす影響をKLDなどで整理し、
既存の上限バウンドがタイトになる理論ができれば凄い
 実験
 PU設定下、Ramp・Hingeの違いによる予測率を比較するだけ
でなく、負例も使い、Supervied設定の予測も比較すべきでは?
 Miss[PU設定(Ramp)] ≒ Miss[Supervied設定(Ramp)]
 Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)]
参照
 [C.Elkan, 01] The Foundations of Cost-Sensitive
Learning, IJCA
 *[T.Zhang, 04] Statistical behavior and consistency
of classification methods based on convex risk
minimization, The Annals of Statistics
 *[G.Blanchard, 10] Semi-Supervised Novelty
Detection, JMLR
 [M.C.Plessis, 14] Class prior estimation from
positive and unlabeled data, TIS
 [O.Chapelle, 14] Modeling Delayed Feedback in
Display Advertising, KDD
NIPS2014読み会15

More Related Content

PDF
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
PDF
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PDF
Information Retrieval
PDF
常識表現となり得る用言の自動選定の検討
PDF
関数型プログラミング入門 for Matlab ユーザー
PPTX
[DL輪読会]逆強化学習とGANs
PDF
4thNLPDL
Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
強化学習と逆強化学習を組み合わせた模倣学習
Information Retrieval
常識表現となり得る用言の自動選定の検討
関数型プログラミング入門 for Matlab ユーザー
[DL輪読会]逆強化学習とGANs
4thNLPDL

What's hot (19)

PPTX
Evolved policy gradients
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
PDF
公平性を保証したAI/機械学習
アルゴリズムの最新理論
PPTX
海鳥の経路予測のための逆強化学習
PDF
Decision Transformer: Reinforcement Learning via Sequence Modeling
PDF
単語の分散表現と構成性の計算モデルの発展
PPTX
強化学習アルゴリズムPPOの解説と実験
PPTX
第五回統計学勉強会@東大駒場
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
PDF
Active Learning 入門
PDF
finite time analysis of the multiarmed bandit problem
PDF
20170422 数学カフェ Part2
PDF
パターン認識 第10章 決定木
PDF
Deep learning for acoustic modeling in parametric speech generation
PPTX
Imputation of Missing Values using Random Forest
PPTX
dont_count_predict_in_acl2014
PDF
テキストデータの理論的サンプリング
PDF
居場所を隠すために差分プライバシーを使おう
PDF
はじめての「R」
Evolved policy gradients
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
公平性を保証したAI/機械学習
アルゴリズムの最新理論
海鳥の経路予測のための逆強化学習
Decision Transformer: Reinforcement Learning via Sequence Modeling
単語の分散表現と構成性の計算モデルの発展
強化学習アルゴリズムPPOの解説と実験
第五回統計学勉強会@東大駒場
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Active Learning 入門
finite time analysis of the multiarmed bandit problem
20170422 数学カフェ Part2
パターン認識 第10章 決定木
Deep learning for acoustic modeling in parametric speech generation
Imputation of Missing Values using Random Forest
dont_count_predict_in_acl2014
テキストデータの理論的サンプリング
居場所を隠すために差分プライバシーを使おう
はじめての「R」
Ad

Viewers also liked (20)

PDF
論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth
PDF
A Safe Rule for Sparse Logistic Regression
PDF
NIPS2014読み会 NIPS参加報告
PDF
論文紹介 Semi-supervised Learning with Deep Generative Models
PDF
Python for Data Analysis第1回勉強会(+git入門)
PDF
Topic modeling with Poisson factorization (2)
PPTX
A Simple Stochastic Gradient Variational Bayes for the Correlated Topic Model
PDF
Poisson factorization
PPTX
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
PDF
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
PDF
LDA等のトピックモデル
PDF
第二回機械学習アルゴリズム実装会 - LDA
PDF
OpenCVを用いたロボコンにおける画像処理(2013年ロボコン交流会)
PDF
Kernel entropy component analysis
PPTX
20151221 public
PDF
20141008物体検出器
PDF
SMO徹底入門 - SVMをちゃんと実装する
PPTX
インターネッツの繋がるしくみ(物理層編) #sa_study
PDF
Topological data analysis
PPTX
ICML読み会2016@早稲田
論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth
A Safe Rule for Sparse Logistic Regression
NIPS2014読み会 NIPS参加報告
論文紹介 Semi-supervised Learning with Deep Generative Models
Python for Data Analysis第1回勉強会(+git入門)
Topic modeling with Poisson factorization (2)
A Simple Stochastic Gradient Variational Bayes for the Correlated Topic Model
Poisson factorization
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
第3章 変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法
LDA等のトピックモデル
第二回機械学習アルゴリズム実装会 - LDA
OpenCVを用いたロボコンにおける画像処理(2013年ロボコン交流会)
Kernel entropy component analysis
20151221 public
20141008物体検出器
SMO徹底入門 - SVMをちゃんと実装する
インターネッツの繋がるしくみ(物理層編) #sa_study
Topological data analysis
ICML読み会2016@早稲田
Ad

Similar to Analysis of Learning from Positive and Unlabeled Data (20)

PPTX
Positive-Unlabeled Learning with Non-Negative Risk Estimator
PDF
「統計的学習理論」第1章
PDF
[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
PDF
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
PDF
PRML輪読#1
PDF
Positive Unlabeled Learning for Deceptive Reviews Detection
PPTX
WAICとWBICのご紹介
PPTX
Active Learning と Bayesian Neural Network
PDF
クラシックな機械学習の入門 7. オンライン学習
PDF
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
PPTX
Noisy Labels と戦う深層学習
PDF
汎化性能測定
PDF
Active Learning from Imperfect Labelers @ NIPS読み会・関西
PDF
正則化による尤度比推定法を応用した多値分類器の改良
PDF
ma99992010id512
PPTX
DNNの曖昧性に関する研究動向
PPTX
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
PDF
Validating Causal Inference Models via Influence Functions
PDF
PDF
PRML 10.4 - 10.6
Positive-Unlabeled Learning with Non-Negative Risk Estimator
「統計的学習理論」第1章
[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
PRML輪読#1
Positive Unlabeled Learning for Deceptive Reviews Detection
WAICとWBICのご紹介
Active Learning と Bayesian Neural Network
クラシックな機械学習の入門 7. オンライン学習
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
Noisy Labels と戦う深層学習
汎化性能測定
Active Learning from Imperfect Labelers @ NIPS読み会・関西
正則化による尤度比推定法を応用した多値分類器の改良
ma99992010id512
DNNの曖昧性に関する研究動向
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Validating Causal Inference Models via Influence Functions
PRML 10.4 - 10.6

More from Takanori Nakai (17)

PPTX
Sentence-State LSTM for Text Representation
PDF
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
PDF
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
PDF
Note : Noise constastive estimation of unnormalized statictics methods
PDF
Adaptive subgradient methods for online learning and stochastic optimization ...
PDF
GBDTを使ったfeature transformationの適用例
PDF
Learning Better Embeddings for Rare Words Using Distributional Representations
PDF
Preference-oriented Social Networks_Group Recommendation and Inference
PDF
高次元データの統計:スパース正則化の近似誤差と推定誤差
PDF
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
PDF
Similarity component analysis
PDF
Query driven context aware recommendation
PDF
Unsupervised Graph-based Topic Labelling using DBpedia
PDF
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
PDF
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PDF
金利期間構造について:Forward Martingale Measureの導出
PPTX
Topic discovery through data dependent and random projections
Sentence-State LSTM for Text Representation
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Note : Noise constastive estimation of unnormalized statictics methods
Adaptive subgradient methods for online learning and stochastic optimization ...
GBDTを使ったfeature transformationの適用例
Learning Better Embeddings for Rare Words Using Distributional Representations
Preference-oriented Social Networks_Group Recommendation and Inference
高次元データの統計:スパース正則化の近似誤差と推定誤差
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Similarity component analysis
Query driven context aware recommendation
Unsupervised Graph-based Topic Labelling using DBpedia
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
金利期間構造について:Forward Martingale Measureの導出
Topic discovery through data dependent and random projections

Analysis of Learning from Positive and Unlabeled Data

  • 1. Analysis of Learning from Positive and Unlabeled Data Marthinus C, etc 担当: Quasi_quant2010 NIPS2014読み会1 【NIPS2014読み会】
  • 2. 本論文を読んだ動機 - ラベルなしデータにおける情報推薦の考察 - NIPS2014読み会2  PU Learning + 表現学習  表現学習で正例らしさを自動獲得する半教師有学習が流行る?  語義曖昧性解消・同義語獲得の際、データに意味が必ずしも付 与されてない為、データが与えられた時、自動獲得できれば最高  その他  例①:混合モデルによる定式化 [G.Blanchard, 10]  正例以外はラベルなしとして扱い、 ラベルなしデータは正例・負例を混合した分布に従うとして定式化  例②:Delayed Feedback [O.Chapelle, 14]  1/18に推薦した記事は閲覧しなかったが、1/19に閲覧した  タイミングを考慮し、負例->正例の変化をモデル化する
  • 3. 本論文の貢献 - 損失関数を適当に選んではいけない!! -  期待誤分類率に従って正しい決定境界を得る際、PU- -Learningでは、損失関数は対称で、非凸な関数にすべき  PU LearningとCost-Sensitive Learningの関係  期待誤分類率の事前分布(P[X~f1])は 主に、有効事前分布に従う  ラベルなしデータの多くが正例に従っていれば(現実に確認できない が) 、誤分類率は事前分布の選択にあまり影響されない  PU Learningにおける期待誤分類率の汎化誤差解析 NIPS2014読み会3
  • 4. 問題設定とノーテーション - PU Learningにおける期待誤分類率最小化-  正例 : X1,…,Xm ~ f1(x)  ラベルなしデータ:Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)  α ∈ [0, 1], label ∈ {-1, 1}  Unkown Prior P[X ~ f1(x)]  期待誤分類率(=JL(g))を最小にする  JL(g) ≡ α*E1[Loss{g(X)}] + (1-α)*E-1[Loss{-g(X)}]  g(・) : Learning Function NIPS2014読み会4 ノーテーション 確率 FPR R-1 P[g(X)=1 | X~f-1] FNR1 R1 P[g(X)=-1 | X~f1] FNRx Rx P[g(X)=1 | X~fx] ん?f1の分布は推定できるが、 f-1の分布は分からない → f-1をfxに変換し定式化。 すると, PUでは損失関数が 対称であって欲しい
  • 5. Cost-Sensitive Learning - FNRとFPRの非対称性 -  対象によって予測の誤りに非対称性がある  FPR = 癌と診断したものの、実際は癌でなかった  FNR = 癌と診断しなかったものの、実際は癌だった  誤診という意味では等しいが、FNRは起こってはいけない誤り  定式化 R(g) = α*c1*R1(g) + (1-α)*c-1*R-1(g)  注1) g(・)はlearning function, α = P[X~f1(x)]  注2) 詳細は[C.Elkan, 01] ・ [G.Blanchard, 10]参照  式の通り、非対称性を考慮しており、 混合比率αをreweightしていると解釈できる NIPS2014読み会5
  • 6. PU LearningとCost-Sensitive Learning - PUは f1 と fx を混合したCost-Sensitive Learningと同等 -  期待誤分類率 in Cost-Sensitive R(g) = α*c1*FNR1 + (1-α)*c-1*FPR = α*c1*R1(g) + (1-α)*c-1*R-1(g) , α = P[X~f1(x)]  期待誤分類率 in PU Learning R(g) = α*FNR1 + (1-α)*FPR = α*R1(g) + (1-α)*R-1(g) = 2α*R1(g) + (1-α)* Rx(g) – α = c1*η*R1(g) + cx*(1-η)*Rx(g) - α , Rx(g) = α*TPR + (1-α)*FPR = α*(1-R1(g)) + (1-α)*R-1(g) c1=2α/η, cx=1/(1-η) NIPS2014読み会6 R-1をRxに変換 上式と比較すると、 CS設定 = f1とf-1を混合 PU設定 = f1とfxを混合 とみることができる FNRとFPRの 非対称性を考慮して reweight
  • 7. なぜ損失関数を適当に選んではいけないのか - 損失関数の非対称性がSuperfluous penaltyを生む -  Surpervied 設定:損失関数はHinge Loss JH(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}] , LH(z) = 1/2 * max(1-z,0)  PU 設定:損失関数はHinge Loss JPU-H(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}] + α*E1[LH{g(X)} + LH{-g(X)}] – α JPU-H(g) = JH(g) + α*E1[LH{g(X)} + LH{-g(X)}] – α  Hinge Lossの場合、PU設定はSupervied設定と比べ、 Superfluous penaltyが決定境界を悪化させる NIPS2014読み会7 Superfluous penalty
  • 8.  Surpervied 設定:損失関数はRamp Loss JR(g) ≡ α*E1[LH{g(X)}] + (1-α)*E-1[LH{-g(X)}] , LR(z) = 1/2 * max(0, min(2,1-z))  PU 設定:損失関数はRamp Loss JPU-R(g) ≡ α*E1[LR{g(X)}] + (1-α)*E-1[LR{-g(X)}] + α*E1[LR{g(X)} + LR{-g(X)}] – α JPU-R(g) = JR(g) (∵ LR{g(X)} + LR{-g(X)} = 1 )  Ramp Lossの対称性より PU設定はSupervied設定の決定境界と等しくなる NIPS2014読み会8 Superfluous penalty なぜ損失関数を適当に選んではいけないのか - 損失関数の対称性がSuperfluous penaltyを消去 -
  • 9. なぜ損失関数を適当に選んではいけないのか - Superfluous penaltyの影響 -  正例 : X1,…,Xm ~ f1(x) = N(-3,1)  負例:Xm+1,…,Xm+n ~ f-1(x) = N(3,1)  ラベルなしデータ:Xm+1,…,Xm+n ~ fX(x) = (1-α) f-1(x) + α f1(x)  Miss[PU設定(Ramp)] = Miss[Supervied設定(Ramp)]  Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)] → PU Learningでは、損失関数は対称にすべき NIPS2014読み会9 注)Figure2より引用 Surpervied 設定 PU設定(Ramp) PU 設定(Hinge)
  • 10. 事前分布が超過リスクに与える影響 - 有効事前分布は超過リスクを最小にする -  超過リスクを小さくしたい  ExR(α) ≡ R(g*, α) - R(g, α)  g* = infg∈G R(g, α), g*は誤分類率を最小化する学習関数  R(g,α) ≡ 2α × R1(g) + (1-α) × Rx(g) – α  この時、有効事前分布をtilde{α}とすると tilde{α} = argminα∈P[X ~ f1(x)] ExR(α) = (2*hat{α} – α) / Z(hat{α}, α) , Z(hat{α}, α) = (2*hat{α} – α) + (1-α), Zは正規化項  導出? 次ページのグラフにて示唆 R(g, hat{α}) ≡ 2*hat{α}*R1(g) + Rx(g) - hat{α} =(2*hat{α} – α)*R1(g) + (1-α)*R-1(g) + (hat{α} – α) NIPS2014読み会10
  • 11. 最小化問題に対する事前分布の感応度 - 事前分布の選択方法 -  ①:超過リスクは 有効事前分布の時、最小  tilde{α} = argminα∈P[X ~ f1(x)] ExR(α) が成立している → 推定事前分布が有効事前 分布に一致すると最高  ②:真の事前分布が 大きい程、有効事前分布は 真値の周辺でほぼ一定 → P[X~f1(x)]が大きければ、 事前分布の推定はラフでいい 注)Figure3より引用 ①:超過リスク 有効事前分布 事前分布推定は[G.Blanchard, 10]を参照 推定事前分布 = 真の事前分布 事前分布 誤分類率 有効事前分布 推定事前分布 ②
  • 12. 評価実験 - 損失関数の対称性で誤分類率が下がるか -  タスク  ”0”と”N”が異なることを認識, N=1,…,9  手書き数字データ: USPSセット  米国郵便公社より収集した数字の画像データ(MNIST)  訓練データ:7291サンプル、テストデータ:2007サンプル  サイト報告のエラーレートは2.5%が最高  実験では、Positive・Unlabel、各々550サンプルを使用  モデル(損失関数・事前分布)  Hinge Loss  Ramp Loss  α = P[X~f1(x)]は0.2~0.95から決め打ち NIPS2014読み会12
  • 13. 評価実験 - 損失関数の対称性で誤分類率が下がった!!-  見どころ  損失関数にRampを用いた方がHingeより予測が正確  さらに、αが大きければその結果は顕著 → superfluous penalty termによるバイアスに起因  結果: 0 vs 6,8,9  サイト報告の最高エラーレート2.5%を上回っている  Ramp > Hinge  αが大きくなる程エラー率が低下 NIPS2014読み会13 注)Table1より引用
  • 14. 感想 - PU設定では損失関数を適当に決めない!! - NIPS2014読み会14  全体  PU設定では、対称な損失関数を使えば Supervised設定と同程度の性能が見込める  有効事前分布という量を導入し、 誤分類率が推定した事前分布にどの程度、依存するかを考察  超過リスクの上限バウンドに関する理論は整理されているので、 事前分布が超過リスクに及ぼす影響をKLDなどで整理し、 既存の上限バウンドがタイトになる理論ができれば凄い  実験  PU設定下、Ramp・Hingeの違いによる予測率を比較するだけ でなく、負例も使い、Supervied設定の予測も比較すべきでは?  Miss[PU設定(Ramp)] ≒ Miss[Supervied設定(Ramp)]  Miss[PU設定(Hinge)] ≠ Miss[Supervied設定(Hinge)]
  • 15. 参照  [C.Elkan, 01] The Foundations of Cost-Sensitive Learning, IJCA  *[T.Zhang, 04] Statistical behavior and consistency of classification methods based on convex risk minimization, The Annals of Statistics  *[G.Blanchard, 10] Semi-Supervised Novelty Detection, JMLR  [M.C.Plessis, 14] Class prior estimation from positive and unlabeled data, TIS  [O.Chapelle, 14] Modeling Delayed Feedback in Display Advertising, KDD NIPS2014読み会15