SlideShare a Scribd company logo
BRACID : a comprehensive approach to learning
rules from imbalanced data
Journal of Intelligent Information Systems,
Volume 39, Issue 2, pp 335–373, 2012
Krystyna Napierala, Jerzy Stefanowski
発表者:大木基至
2017.11.29 雑誌会
概要
この論文では、我々はあるクラス(少数派クラス)が残りの多数派クラスと比較して、標本と
して不十分である不均衡データからのルール分類器を考える
普通は少数派クラスが主要な関心になる
しかしながら、大部分のルール分類器は多数派クラスへのバイアスがかかり、それらは少数派
クラスを正しく認識することは難しくなる
この論文では、我々はデータの特性やアルゴリズム自身に関連したこれらが困難であること多
様なソースをもとに議論する
データの分布に関連した問題の中で、我々は小さいdisjuncts、クラスのオーバーラッピング、
ノイズのある対象の存在の役割に焦点をあてる
それから、我々はSequential Coveringのようなルール分類器に関する標準的な技術や、ルール
のトップダウン型の抽出、分類方法がバランスのとれたデータの分布のもとで作られていると
いうことを示し、我々は多数派クラスへのバイアスがそれらにあることを説明する
ルール分類器のいくつか修正がすでに紹介されているが、それらは個々の問題にのみ注力され
ている
それゆえ、我々は新しいアルゴリズム(BRACID)を提案する
それは不均衡データに関連した問題に包括的に取り組む
そのメインの特性は、ルールと単一の対象のハイブリッド表現、ルールのボトムアップ学習、
近傍ルールを使ったLoal分類法である
BRACIDの有用性がいくつかの不均衡データセットのもとで実験で評価される
BRACIDがよく知られたC4.5rules, RIPPER, PART, CN2, MODLEMや他の関連した分類器RISE
やKNNより有意な性能を示す
さらに、不均衡データに特化したルールアルゴリズムやSMOTE+ENNのようなアプローチに
匹敵するもしくはさらに良い結果である
最後に、少数派クラスがより良く認識を導くために、少数派クラスのルールの支持度が改善し
ていることを示す
2
読んだ動機
• BRACID + Confirmation measure [2017] の論文
を読んでて気になった
• 上記で参照されていた元論文
• 不均衡データの解析
– 各クラスの数に偏りがあることを仮定してデータ解
析を行なう
• 例:故障、異常、レア事象の解析など
3
1. Introduction
• 不均衡データでのルール分類器の改善を考える
• ルールを抽出するために、たくさんのアルゴリ
ズムが提案されてきている
• 学習データのクラス不均衡がパフォーマンスを
低下させる
– 他のクラス(多数派)より数がかなり少ない(少数
派)クラスの存在
• 我々にとって少数派クラスのほうが主要な関心
になることが多い
– 例:医療診断での患者の症状や治療、銀行の詐称、
ネットワーク侵入、装置故障など
4
1. Introduction
• 標準的な学習法は不均衡データに適切にworkし
ない
– 多数派クラスへのバイアスがかかり、少数派クラス
を分類するのが困難になる
• 他に、small disjuncts、少数派と多数派クラスの
オーバーラッピング、ノイズやレアなサンプル
の存在などが、分類器の学習を難しくさせる
5
1. Introduction
• 不均衡データからの学習を改善させる方法がい
くつか提案されている=データレベルとアルゴ
リズムレベル
• 大部分の研究はデータレベルアプローチ
– データのリサンプリングやフィルターなど
• 本論文では、アルゴリズムレベルのアプローチ
を提案する
– 不均衡データに関するいくつかのルールベースアプ
ローチが研究されている(3章で紹介)
– しかし大部分が、不均衡データのある側面に関する
問題に取り組んでいるのみ
6
2.1 Sources of difficulties in imbalanced
datasets
• Data decomposition leading to small disjuncts
– クラスが分割され、小さな固まりを表現しているよ
うに散らばっている
– Small disjunctsの存在はより大きなdisjunctsよりも分
類誤差を大きくする[Japkowicz 2003]
7
2.1 Sources of difficulties in imbalanced
datasets
• Overlapping
– 異なるクラスの対象のオーバーラッピングの存在が
多いほど、分類誤差を大きくする[garcia+2007]
• Presence of noisy instances
– 決定境界より離れた別のクラスの中にノイズやレア
なサンプルがあることが分類誤差を大きくする
8
2.1 Sources of difficulties in imbalanced
datasets
• Related techniques on data level
– Oneside Sampling
• 多数派クラスのサンプルを削除(決定境界付近や少数派クラ
スの中に位置づけられている)
– Oversampling
• 少数派クラスのサンプルをふやし、クラスバランスを補正す
る
– SMOTE(少数派クラスのサンプルとk近傍法の中で
ランダムに人口データを生成する)
• アンダーサンプリングと組み合わせたSMOTE-ENN
(SMOTEのあとで、k近傍で誤分類される対象を削除する)
• 他の拡張も近年提案されている
9
2.2 Evaluation of classifiers learned from
imbalanced datasets
• 分類精度は多数派クラスへの影響を受ける
[He+2009]。そのため特別なMeasureを使う
• 混同行列:
10
• Sensitivity:
(Recall)
• G-mean:Geometric mean
of Sensitivity and
Specificity[Kubat+1997]
• F-measure(β=1)
3.1 Influence of class imbalance on rule
classifiers
• 既存のルール抽出アルゴリズムは不均衡データ
から学習するときたくさんの問題を抱える
• Top down induction technique
– 一般的なルールの構築(空ルール)から始まって、
負例サンプルを被覆するまで新しい条件を追加して
いく
– 訓練集合の部分集合を被覆するルールを生成
– 結果としてこの方法はlarge disjunctなデータで良くは
働く
– 多数派クラスの対象に囲まれることにより、small
disjunctは形成されているため、表現力が落ちる
11
3.1 Influence of class imbalance on rule
classifiers
• Improper evaluation measures
– 評価指標(accuracyやgenerality)によってルールの
追加は決められるが、少数派サンプルのせいで、
accuracyやgeneralityの重要度はより小さくなる
• Greedy, sequential covering technique
– すべての対象が被覆されるまで繰り返されるアルゴ
リズム
– 抽出する過程で、事前に抽出したルールが被覆する
対象に強くする依存する
– 数が小さすぎる対象はルールの最後のほうに抽出さ
れ、統計的に重要度の低いルールになるかもしれな
い
12
3.1 Influence of class imbalance on rule
classifiers
• Biased classification strategy
– 少数派クラスのルールは普通数が少ない対象によっ
て支持されるので、評価指標によって多数派クラス
のルールより悪いものとして特徴づけられ得る
13
3.2 Related works on rules and class
imbalance
• 不均衡データでのルール分類器はいくつか提案
されている
• RLSD (Zhang+2004)
– 少数派クラスのルールのみを学習するOne-Class学習
• BRUTE (Riddle+1994)
– より包括的な探索を行い、正確なルールを探す
– Small disjunctsを見つけることができた
• EXPLORE (Stefanowski+2009)
– 閾値をみたす少数派ルールを探索し、標準的な被覆
アルゴリズムで多数派ルールを探索する
– 結果として、少数派ルールを多く見つけることがで
きる
14
3.2 Related works on rules and class
imbalance
• CN2のBiasを改良 (Holte+1989)
– Small disjunctsに関するルールを多く見つけるようい
• ELEM2 (An+2001)
– 評価指標の修正とルール抽出後の事後処理で改良
• SHRINK (Kubat+1997)
– クラス間の境界領域に集中したアプローチ
• Ensemble Approach (Blaszczynski+2010)
• ルール分類器の集合と進化計算を使ったハイブ
リッドアプローチ(Milar+2011)
15
3.3 Bottom-up rule induction and hybrid
representations
• ルールと対象のハイブリッドな方法やボトム
アップ法で単一の対象からルールを抽出する関
連研究を紹介する
• IBL(Instance-based Learning)
– 対象とその近傍の類似度によって分類する方法
– このLazyな学習法は、複雑で非線形であり、少ない
対象で良く働く
– C4.5とのハイブリッドアプローチ(Ting1994)
• RISE (Domingos1996)
– 対象の全集合と等しいルールの初期集合をつくる
– 全体的なaccuracyが改善するまで一般化していく
16
4.1 Motivations
• 前節のアプローチはすべて選択的なアプローチ
であった。我々はすべての欠点を正確に扱うア
ルゴリズムを提案する
17
4.2 Notation and basic concepts
• BRACID:Bottom-up induction of Rules And
Cases for Imbalanced Data
• 対象 x は属性とその値のペア( )集合とし
て表現される
– :i番目の属性
– :その属性からの値
• :クラスラベル( )
• BRACIDは2クラス問題を扱う
– クラスラベルの集合は、
18
4.2 Notation and basic concepts
19
• ルールR:
– P:条件部
– K:結論部
• ルールのすべての条件部を対象が満たせばルー
ルはその対象を被覆するという
• それぞれの対象は近傍の特性を用いて追加のタ
グ情報によりラベル付けされる
– SAFEとUNSAFE
• Safe対象は、そのk近傍により正しく対象を分類
できる
• UNSAFE対象は分類ができない対象
4.2 Notation and basic concepts
20
• ボトムアップアプローチや対象を分類するときの近
傍を決定するために、対象間(またはルールと)の
距離を計算する必要がある
• 我々はHVDM(Heterogenous Value Difference
Metrics)を選択した
• 名義属性: • 数値属性:
N(xi):xの属性iと同じ対象の数
x_{max,min}:属性iのmax値とmin値
4.3 Algorithm Description
アルゴリズム1:BRACID(初期化)
21
• Bottom-up induction
– 1行目:単一の対象に対するルールとして初期化
– 9行目〜36行目:一般化していく
4.3 Algorithm Description
22
• Bottom-up induction
– 10行目:FindNeighboursで
ルールRの近傍を探す。ただ
し、ルールRのクラスと近傍
のクラスが一致し、かつそ
の近傍をルールが被覆して
いないもの
– 12行目と14行目:ルールR
のタグに応じてルールが改
善できるかを判定
– 17行目:改善されないなら、
Extend操作を行う
– 31-32行目:同一のルールは
取り除く
アルゴリズム1:BRACID(繰り返し部)
4.3 Algorithm Description
アルゴリズム3:AddOneBestRule
23
4行目:近傍に基づいてルール
の一般化を行なう
6行目:作られたルール集合RS
をF-measureで評価
4.3 Algorithm Description
アルゴリズム2:MostSpecificGeneralization
24
⇒ 近傍に基づいてルールの一般化を行なう
4.3 Algorithm Description
25
• Facing borderline
– 20から22行目:ルールの結
論部が多数派クラスでタグ
がSAFE / UNSAFEなら、1
つの近傍のみ / k近傍を使う
– 12行目:ルールの結論部が
少数派クラスでタグがSAFE
なら、k個の近傍を使って
ルールの改善を行なう
– 14行目:ルールの結論部が
少数派クラスでタグが
UNSAFEなら、それらは境
界領域にいると考えられる。
最近傍のルールに対して
MSG(Alg.2)を行う。そし
て次の近傍にMSGを行なっ
ていく(AddAllGoodRules)
4.3 Algorithm Description
26
• Noisy examples
– 26から28行目:多数派クラ
スのノイズを削除する
– 少数派クラスの場合は、十
分に表現するサンプルがな
いものとみなし、削除しな
い
4.3 Algorithm Description
27
• Underrepresentation of the
minority class
– 少数派クラスの対象は、十
分なサンプルがないので、
決定境界が少数派クラスの
対象に近くなりすぎている
ことがある
– 少数派ルールの領域を拡張
する(17行目)
4.3 Algorithm Description
28
アルゴリズム4:EXTEND
ルールRの結論部と近傍のクラス
が異なり、ルールRが被覆してい
ないk個の反近傍
名義属性の場合とルー
ルRの条件部にXiがな
いときは何もしない
反近傍に基づいて範囲
を大きくする処理を行
なう
4.4 Evaluation of computational costs
• 最悪ケース:
– e :対象の数
– a :属性の数
• CN2アルゴリズムは、
– b :ビームサイズ
• 最もコストの大きい処理はk近傍の計算
• 実験では、BRACIDの計算時間はRISEアルゴリ
ズムと匹敵していた
29
4.5 Classification strategy based on the
nearest rule
• 抽出されたルール集合を用いて対象を分類する
方法を考える
– 典型的な方法は評価指標に基づくルールによる投票
• BRACIDでは、分類する対象のLocal近傍に基づ
いて分類を行う
– その対象の最近傍ルールを探すこと
– この戦略は多数派ルールの支配によるインパクトを
減らすかもしれない
• 最近傍ルールを計算するために、HVDM指標を
用いる
30
4.5 Classification strategy based on the
nearest rule
• しかし、複数のルールが対象を被覆し、異なる
クラスを結論部にもつ(つまりdistance = 0など
同じ値を取る)=コンフリクト
• 事前の実験で20%の対象がコンフリクトを起こ
した
• BRACIDでは、Conflictの場合、分類する対象e
のクラスを決めるときに、等しい距離であった
ルール集合のsupportの合計を用いる
31
4.5 Classification strategy based on the
nearest rule
• この戦略がうまくいく例
– ?は少数派の対象
– 4つのルールが同じ距離でコンフリクトを起こした
– 従来のLaplace指標に基づくと多数派ルールに分類さ
れる
– 我々の方法では、少数派の対象に分類される
32
5.1 Experimental Setup
• 22種類のデータを用意
33
5.1 Experimental Setup
• 3つの評価指標(2章参照)
– 少数派クラスのSensitivity
– G-mean
– F-measure
• A stratified 10-fold cross-validationを 5 回を行う
34
5.2 Studying the role of BRACID’s components
• BRACIDの各構成要素の効果検証を行う
– 新しい分類戦略(4.5節):略称C
– ノイズとなる多数派サンプルの削除:略称N
– Extend Operatorの使用:略称E
35
5.2 Studying the role of BRACID’s components
Sensitivityの結果
36
• すべての要素を入れることで改善
• 特に、Cの要素が改善に影響している
5.2 Studying the role of BRACID’s components
G-meanの結果
37
• すべての要素を入れることで改善
• F-measureも同様だった(省略)
5.2 Studying the role of BRACID’s components
少数派クラスの
Supportの結果
38
• Supportが増加している
• ノイズな多数派サンプルの削除と
Extend Operator の効果
5.3 Comparison with standard rule classifiers
• 標準的なルール分類器と比較
– CN2 [Clark+1989]
– PART [Frank+1998]
– RIPPER [Cohen1995]
– C4.5 [Quinlan1993]
– MODLEM [Stefanowski1998]
• BRACIDの唯一のパラメータkはk=3,5,7でテスト
し、最も性能の良かったk=5で評価
• その他に、k-NNとRISEでも比較
• WEKA等のオープン実装を利用
39
5.3 Comparison with standard rule classifiers
• Sensitivityの結果
40
• G-mean、F-measureともに、ほとんどの
データで、ベストパフォーマンスを観測。
平均的なランクも最も高い。
5.4 Experiments with approaches dedicated
for class imbalance
• 不均衡データに特化したアルゴリズムと比較す
る
– MODLEM-C [Grzymala+2000]
– SMOTE + PART
– SMOTE - ENN + PART
41
5.4 Experiments with approaches dedicated
for class imbalance
• Sensitivityの結果
42
• G-mean, F-measureともに最もよいランク
• SMOTE-ENN+PARTが比較法では最も良い
が、15個のデータで有意差がでた
6. Conclusions and future works
• 不均衡データからのルール分類器の学習
• 22種類のImbalanced dataを用いて評価
• 今後は、特別な人口データでの実験を予定
– Noisy, outliers, minority classes などを作る
– どのようなデータで性能を発揮するのかを検証
43
以下はメモ

More Related Content

PPTX
Data Mining 6.5 Rule-Based Classification
PPTX
Learning in a small world
PDF
【CVPR 2019】Striking the Right Balance with Uncertainty
PDF
Jubatusにおける大規模分散オンライン機械学習
PDF
機械学習 入門
PDF
公平性を保証したAI/機械学習
アルゴリズムの最新理論
PDF
Deep learning勉強会20121214ochi
PDF
パターン認識 08 09 k-近傍法 lvq
Data Mining 6.5 Rule-Based Classification
Learning in a small world
【CVPR 2019】Striking the Right Balance with Uncertainty
Jubatusにおける大規模分散オンライン機械学習
機械学習 入門
公平性を保証したAI/機械学習
アルゴリズムの最新理論
Deep learning勉強会20121214ochi
パターン認識 08 09 k-近傍法 lvq

Similar to 17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanced data (20)

PPTX
MLaPP輪講 Chapter 1
PDF
Jubatusの特徴変換と線形分類器の仕組み
PDF
A systematic study of the class imbalance problem in convolutional neural net...
PDF
多数のグラフからの統計的機械学習 (2014.7.24 人工知能学会 第94回人工知能基本問題研究会 招待講演)
PDF
Casual datascience vol3
PDF
コンピュータ先端ガイド2巻3章勉強会(SVM)
PDF
データマイニング勉強会3
PDF
EMNLP 2011 reading
PDF
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
PDF
PRML 4.1 輪講スライド
PDF
Large Scale Incremental Learning
PPTX
DNNの曖昧性に関する研究動向
PPTX
Machine Learning Seminar (2)
PPTX
第14章集団学習
PDF
Active Learning from Imperfect Labelers @ NIPS読み会・関西
PDF
PRML勉強会@長岡 第4章線形識別モデル
PDF
SSA-SOINN
PPTX
機械学習の基礎
PDF
Introduction to ensemble methods for beginners
PDF
PRML輪読#4
MLaPP輪講 Chapter 1
Jubatusの特徴変換と線形分類器の仕組み
A systematic study of the class imbalance problem in convolutional neural net...
多数のグラフからの統計的機械学習 (2014.7.24 人工知能学会 第94回人工知能基本問題研究会 招待講演)
Casual datascience vol3
コンピュータ先端ガイド2巻3章勉強会(SVM)
データマイニング勉強会3
EMNLP 2011 reading
読書会 「トピックモデルによる統計的潜在意味解析」 第6回 4.3節 潜在意味空間における分類問題
PRML 4.1 輪講スライド
Large Scale Incremental Learning
DNNの曖昧性に関する研究動向
Machine Learning Seminar (2)
第14章集団学習
Active Learning from Imperfect Labelers @ NIPS読み会・関西
PRML勉強会@長岡 第4章線形識別モデル
SSA-SOINN
機械学習の基礎
Introduction to ensemble methods for beginners
PRML輪読#4
Ad

More from LINE Corp. (20)

PDF
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
PDF
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
PDF
17.04.27_JSAI Cup 2017_5th winner's solution
PDF
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
PDF
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
PDF
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
PDF
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
PDF
13.03.09_決定ルール解析のための頑健性指標
PDF
14.09.12_インターネット測定システムの開発と運用
PPTX
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
PDF
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
PDF
Rによるテキストマイニングの一例
PPTX
Rによる決定木解析の一例
PPTX
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
PPTX
13.12.21_大ヒットの方程式数理モデル解説
PPTX
13.12.07 CIKM2013読み会
PDF
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
PDF
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
PDF
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
PDF
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
17.04.27_JSAI Cup 2017_5th winner's solution
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
13.03.09_決定ルール解析のための頑健性指標
14.09.12_インターネット測定システムの開発と運用
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
Rによるテキストマイニングの一例
Rによる決定木解析の一例
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
13.12.21_大ヒットの方程式数理モデル解説
13.12.07 CIKM2013読み会
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
Ad

Recently uploaded (9)

PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【初心者向け】生成AI SimonW/LLMとOllama・llamafile無料APIでコマンドラインをAI革命するセミナー。CPUでもGPUでも。Ne...

17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanced data

Editor's Notes

  • #45: Thank you. That’s all for my presentation.