17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanced data
1. BRACID : a comprehensive approach to learning
rules from imbalanced data
Journal of Intelligent Information Systems,
Volume 39, Issue 2, pp 335–373, 2012
Krystyna Napierala, Jerzy Stefanowski
発表者:大木基至
2017.11.29 雑誌会
7. 2.1 Sources of difficulties in imbalanced
datasets
• Data decomposition leading to small disjuncts
– クラスが分割され、小さな固まりを表現しているよ
うに散らばっている
– Small disjunctsの存在はより大きなdisjunctsよりも分
類誤差を大きくする[Japkowicz 2003]
7
8. 2.1 Sources of difficulties in imbalanced
datasets
• Overlapping
– 異なるクラスの対象のオーバーラッピングの存在が
多いほど、分類誤差を大きくする[garcia+2007]
• Presence of noisy instances
– 決定境界より離れた別のクラスの中にノイズやレア
なサンプルがあることが分類誤差を大きくする
8
9. 2.1 Sources of difficulties in imbalanced
datasets
• Related techniques on data level
– Oneside Sampling
• 多数派クラスのサンプルを削除(決定境界付近や少数派クラ
スの中に位置づけられている)
– Oversampling
• 少数派クラスのサンプルをふやし、クラスバランスを補正す
る
– SMOTE(少数派クラスのサンプルとk近傍法の中で
ランダムに人口データを生成する)
• アンダーサンプリングと組み合わせたSMOTE-ENN
(SMOTEのあとで、k近傍で誤分類される対象を削除する)
• 他の拡張も近年提案されている
9
10. 2.2 Evaluation of classifiers learned from
imbalanced datasets
• 分類精度は多数派クラスへの影響を受ける
[He+2009]。そのため特別なMeasureを使う
• 混同行列:
10
• Sensitivity:
(Recall)
• G-mean:Geometric mean
of Sensitivity and
Specificity[Kubat+1997]
• F-measure(β=1)
11. 3.1 Influence of class imbalance on rule
classifiers
• 既存のルール抽出アルゴリズムは不均衡データ
から学習するときたくさんの問題を抱える
• Top down induction technique
– 一般的なルールの構築(空ルール)から始まって、
負例サンプルを被覆するまで新しい条件を追加して
いく
– 訓練集合の部分集合を被覆するルールを生成
– 結果としてこの方法はlarge disjunctなデータで良くは
働く
– 多数派クラスの対象に囲まれることにより、small
disjunctは形成されているため、表現力が落ちる
11
40. 5.3 Comparison with standard rule classifiers
• Sensitivityの結果
40
• G-mean、F-measureともに、ほとんどの
データで、ベストパフォーマンスを観測。
平均的なランクも最も高い。
41. 5.4 Experiments with approaches dedicated
for class imbalance
• 不均衡データに特化したアルゴリズムと比較す
る
– MODLEM-C [Grzymala+2000]
– SMOTE + PART
– SMOTE - ENN + PART
41
42. 5.4 Experiments with approaches dedicated
for class imbalance
• Sensitivityの結果
42
• G-mean, F-measureともに最もよいランク
• SMOTE-ENN+PARTが比較法では最も良い
が、15個のデータで有意差がでた