SlideShare a Scribd company logo
Online Linear Classifiers
        ~PerceptronからCWまで~

      機械学習勉強会 2011/06/23
     中川研 修士課程2年 大岩 秀和




1
概要
     オンライン学習による線形分類器の紹介
      Perceptron
      MIRA
      Passive-Aggressive
      Confidence-Weighted Algorithms


     条件設定
      今回の発表は,2値分類に限定
      多クラスへの拡張は容易




2
Notation (Linear Classifier)
     入力
      入力ベクトルの各成分は,特徴(feature)と呼ばれる
      Ex. 文書中の単語出現回数を並べたベクトル


     出力
      構造学習(Structured Learning)の場合はベクトル


     教師データ
      入力と出力のどちらもが既知



3
Notation (Linear Classifier)
     重みベクトル
      重みベクトルと入力ベクトルの内積で出力値を予測

      例:ニュース記事分類
                        : スポーツ記事

                        : スポーツ以外の記事

                                      としたい
     バイアス項
      多くの場合,バイアス項を導入する
      全データで1となる特徴を1つ増やせば良い


4
Linear Classifierの一般化


                               :損失関数          :正則化項



     多くのアルゴリズムがこの形式で表せる
      Naïve Bayes
      SVM(Support Vector Machine)
      Logistic Regression(Maximum Entropy)
      Conditional Random Field
      Online Linear Classifiers

5
Online Learning
     データを一つ受け取るたび,逐次的に       を更新
    学習データ




    学習データ

                          ここの更新則を
                          上手く設定する


    学習データ



6
                      …
Online Learningの長所
     学習の省メモリ化
      重みベクトルの更新に1データのみ使用
      全データを一度に扱えない場合に有用


     再学習が容易
      再学習:学習器を一度構築した後,新しいデータを
       用いて学習器を改良
      新しいデータのみを用いて,再学習が可能
      訓練データが逐次的にやってくる場合,昔のデータ
       を捨てたい場合に有用


7
     多くの場合,実装が簡単
Perceptron [Rosenblatt 1958]
     アルゴリズム
       誤識別したら,正解ラベル方向へ入力データを重み
       ベクトルに足す




                               の時,更新




8
Perceptronの更新の妥当性
     更新後の重みベクトルは,更新前の重みベクトル
    よりも,誤識別したデータを上手く識別する




      同じデータに対して,よりよい識別が可能になっている


9
線形分離可能
      以下の条件をみたしつつ,全データを正しく識別
     する重みベクトル・パラメータが存在するとき,
     線形分離可能と呼ぶ

         重みベクトル
         パラメータ




      このとき, をマージンと呼ぶ


10
パーセプトロンの収束定理
             [Block, 1962] [Novikoff, 1962] [Collins,2002]



      データが線形分離可能ならば,以下の定理が成立


      パーセプトロンによる誤識別回数




      重みベクトルのノルムの上限・下限から示す

11
収束定理の証明 [1/3]



             より,




       さらに         より,

                   下限



12
収束定理の証明 [2/3]



      第2項は,入力ベクトルのノルム上限より
      第3項は,パーセプトロンの更新基準より

           より,

                 上限



13
収束定理の証明 [3/3]
     下限              上限




          重みベクトルの更新回数の上限回数が導出できる


14
Perceptronの亜種
      Voted Perceptron [Freund and Schapire, 1988]
         過去の全重みベクトルで識別,多数決を取る
         kが変化しない生存期間に応じて重み付け


      Averaged Perceptron [Collins+, 2002]
         過去の全重みベクトルの平均を取って識別


      その他にもたくさん etc..
         Second Order Perceptron
         p-norm Perceptron
         Margitron
15
MIRA [Crammer+ 2003]
      Margin Infused Relaxed Algorithm
        Ultraconservative Online Algorithmsの一種
                                          [Crammer+ 2003]


      マージン最大化を目指したアルゴリズム
        Perceptronは,マージンを最大化する重みベクトルを
         導出するアルゴリズムではない
        Max-margin Perceptron, Online SVMと呼ばれることも

                 SVM (Support Vector Machine)



16
MIRAのアルゴリズム


                          二次計画最適化問題に帰着
                         多クラスの場合は全制約を同
                           時に満たすものを探す




      構造問題の場合は,マージンをラベル間の編集距
       離と置くことも
      累積損失の上限値が求められる (Passive-Aggressiveで詳しく
      説明します)
17
Online Passive-Aggressive
                            [Crammer+, 2006]
      Hinge-Lossを定義




      更新式を以下のように記述する
       2値分類の時は,MIRAと同じ




18
PAの定式化
      2値の場合,アルゴリズムはMIRAと同じ
      上の定式化をする意図は?
       最適化問題の拡張が容易 (回帰問題,PA-I,PA-II,etc..)




      Ex. 回帰問題への適用




19
PAの閉じた解の導出
      ラグランジュ乗数法を用いる




                  を計算すれば…




20
PAの特性
      今受け取ったデータを正しく判別できるように,
     重みベクトルを更新する
       一方,ノイズに脆弱




         Passive    Aggressive

21
PA-I, PA-II
      ノイズに頑健な拡張を加える
            はAggressiveness parameter

     PA-I




     PA-II




                            誤識別を許容
22
PAの累積損失上限
                    と定義した時,




      特に,線形分離可能な時




23
PA累積損失上限の証明 [1/3]
                      と定義し,

         の上限と下限から導く




                 上限


24
PA累積損失上限の証明 [2/3]
                のとき,




                         下限
     最後の丌等式は,以下の条件式より




25              のとき,
PA累積損失上限の証明 [3/3]
              上限


                                       下限

                                    より,




                                    が導出される


        線形分離時や,PA-I,PA-IIも同様に証明可能

26
CW以前のアルゴリズムの問題点
      NLP等の分類問題は特徴次元数が大
      多くの特徴は低頻度
       低頻度の特徴が分類上重要な役割を果たすことも


      既存手法では,データ中に特徴が出現した時の
     み,対応するパラメータが更新される
       高頻度の特徴は,パラメータも頻繁に更新
       低頻度の特徴は,余り更新されない


      過去の更新回数をパラメータ更新に用いていない
       非効率的
27
Ex. Passive-Aggressive



                              スカラー




                                     スカラー


                        特徴ベクトルのスカラー倍

                                       [Crammer+, 2006]
28          パラメータの更新は,出現頻度と独立
Confidence-Weighted Algorithms(CW)
                                                            [Clammer+, 2008]
      重みベクトル上にガウス分布を導入
      重みベクトルの平均・共分散を逐次的に更新

     1.2                                     1.2
       1                              既存手法     1
     0.8                                     0.8
     0.6                                     0.6
     0.4                                     0.4
     0.2                                     0.2
       0                                       0
              -1




            0.35




                                                      -1
           -0.85
            -0.7
           -0.55
            -0.4
           -0.25
            -0.1
            0.05
             0.2

             0.5
            0.65
             0.8
            0.95




                                                   -0.85
                                                    -0.7
                                                   -0.55
                                                    -0.4
                                                   -0.25
                                                    -0.1
                                                    0.05
                                                     0.2
                                                    0.35
                                                     0.5
                                                    0.65
                                                     0.8
                                                    0.95
                   1                                      2.5
                  0.8
                                       CW                  2
                  0.6                                     1.5
                  0.4                                      1
                  0.2                                     0.5
                   0                                       0
29    -1   -0.5         0   0.5   1           -1   -0.5         0   0.5    1
CWの特性
      分散の大きい(自信のない)パラメータは大きく
     更新,分散の小さい(自信のある)パラメータは
     小さく更新
       毎回更新するたびに,分散は小さくする


      収束速度が高速
       収束に至るまでのデータ数が非常に尐ない
         稀な特徴を上手く利用しているため

       一方,稀な特徴を持つデータにラベルノイズが載っ
      ていると,性能が急激に悪化する


30
CWの重みベクトルを再定義
      重みベクトル
       平均
       分散


      この時,     が正しく識別される確率




31
最適化問題                  以前の多変量ガウス分布に
                           最も近いガウス分布を選択する




                      誤識別率が1-η以下となるガウス分布の中で




      Motivationは,PAと同じ
        i番目の重みベクトルから(KL-divergenceの意味で)一番近い,制約を
         満たす重みベクトルへ更新
        今回受け取ったデータを正確に識別するガウス分布へ移動
           その制約を外したもの…AROW, NAROW等

32
最適化問題を展開



          ここで,           :標準正規分布


     これをラグランジュ乗数法で解くと,




                          まだ,
                          閉じた解には
33                        なっていない
もう少し頑張ると…




                 [Clammer+, 2008]

34
Mistake Bound for CW
      これまでのデータを全て正しく識別できる最適な
      ガウス分布が存在する場合には,更新回数の上限
      が定められる




                                   [Clammer+, 2008]
                            証明は略

35
実験結果 (CW)

                 CW




                      [Dredze+, 2008]




36
さらなる発展形
      AROW [Crammer+, 2009], NAROW [Orabona+, 2010]
        PAに対するPA-I等と似たMotivation
        ノイズに頑健


      Adaptive SubGradient Methods (AdaGrad)
                                                     [Dutch+, 2010]
        二次の補正をかけた劣勾配法に拡張
        CW, AROWと同様の効果を持つ(更新回数を考慮)
        以下のブログ記事の考察も興味深いです
          http://atpassos.posterous.com/the-similarity-between-confidence-
           weighted-le


37
参考:Algorithm(AROW)
     C (μ, )  DKL ( N (μ, ) N (μt 1 , t 1 ))  1 h2 ( yt , μ  xt )  2 xT  xt
                                                                                  t


                                              h2 ( yt , μ  xt )  (max{ 0,1  yt (μ  xt )})2

  第一項-- DKL ( N (μ, ) N (μt 1 , t 1 ))           x  R :特徴ベクトル
                                                            d


       以前のパラメータから大きく更新 μ  R : 重みベクトルの平均
                              d


        しない             σ  R d : 重みベクトルの分散
  第二項--  h 2 ( yt , μ  xt )                          R d d : 重みベクトルの共分散
       損失関数を最小にする            w ~ N (μ, ) : 重みベクトル
       Hinge-loss以外の損失関数でも良い
  第三項-- xT  xt
          t                                           y   1,1: 正解ラベル
       学習するにつれ、∑を小さくする   (0.5,1] :しきい値
                        1 , 2 : hyperparameters

38
まとめ
      Online Linear Classifierについて紹介
        特に,CWはSVMとも遜色ない精度
        BatchのLinearSVM, OnlineのPA,CWは線形識別器におけ
        るベンチマーク

      オンライン学習の特性を最大限利用
        高速に収束(特に冗長データに対して)
        空間計算量を節約
        実装が単純




39

More Related Content

PPTX
Online algorithms in Machine Learning
PDF
NIPS2014読み会 NIPS参加報告
PDF
SGD+α: 確率的勾配降下法の現在と未来
PDF
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PPTX
Online Optimization Problem-1 (Online machine learning)
PDF
IBMModel2
PDF
PoisoningAttackSVM (ICMLreading2012)
PDF
Pfi last seminar
Online algorithms in Machine Learning
NIPS2014読み会 NIPS参加報告
SGD+α: 確率的勾配降下法の現在と未来
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
Online Optimization Problem-1 (Online machine learning)
IBMModel2
PoisoningAttackSVM (ICMLreading2012)
Pfi last seminar

Viewers also liked (7)

PDF
Incentive Compatible Regression Learning (Mathematical Informatics Reading)
PDF
PDF
Online Machine Learning: introduction and examples
PPTX
Scaling up Machine Learning Algorithms for Classification
PDF
Distributed Online Machine Learning Framework for Big Data
PDF
Prml 4.3
PDF
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Online Machine Learning: introduction and examples
Scaling up Machine Learning Algorithms for Classification
Distributed Online Machine Learning Framework for Big Data
Prml 4.3
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
Ad

OnlineClassifiers

  • 1. Online Linear Classifiers ~PerceptronからCWまで~ 機械学習勉強会 2011/06/23 中川研 修士課程2年 大岩 秀和 1
  • 2. 概要  オンライン学習による線形分類器の紹介  Perceptron  MIRA  Passive-Aggressive  Confidence-Weighted Algorithms  条件設定  今回の発表は,2値分類に限定  多クラスへの拡張は容易 2
  • 3. Notation (Linear Classifier)  入力  入力ベクトルの各成分は,特徴(feature)と呼ばれる  Ex. 文書中の単語出現回数を並べたベクトル  出力  構造学習(Structured Learning)の場合はベクトル  教師データ  入力と出力のどちらもが既知 3
  • 4. Notation (Linear Classifier)  重みベクトル  重みベクトルと入力ベクトルの内積で出力値を予測 例:ニュース記事分類 : スポーツ記事 : スポーツ以外の記事 としたい  バイアス項  多くの場合,バイアス項を導入する  全データで1となる特徴を1つ増やせば良い 4
  • 5. Linear Classifierの一般化 :損失関数 :正則化項  多くのアルゴリズムがこの形式で表せる  Naïve Bayes  SVM(Support Vector Machine)  Logistic Regression(Maximum Entropy)  Conditional Random Field  Online Linear Classifiers 5
  • 6. Online Learning  データを一つ受け取るたび,逐次的に を更新 学習データ 学習データ ここの更新則を 上手く設定する 学習データ 6 …
  • 7. Online Learningの長所  学習の省メモリ化  重みベクトルの更新に1データのみ使用  全データを一度に扱えない場合に有用  再学習が容易  再学習:学習器を一度構築した後,新しいデータを 用いて学習器を改良  新しいデータのみを用いて,再学習が可能  訓練データが逐次的にやってくる場合,昔のデータ を捨てたい場合に有用 7  多くの場合,実装が簡単
  • 8. Perceptron [Rosenblatt 1958]  アルゴリズム  誤識別したら,正解ラベル方向へ入力データを重み ベクトルに足す の時,更新 8
  • 9. Perceptronの更新の妥当性  更新後の重みベクトルは,更新前の重みベクトル よりも,誤識別したデータを上手く識別する 同じデータに対して,よりよい識別が可能になっている 9
  • 10. 線形分離可能  以下の条件をみたしつつ,全データを正しく識別 する重みベクトル・パラメータが存在するとき, 線形分離可能と呼ぶ 重みベクトル パラメータ  このとき, をマージンと呼ぶ 10
  • 11. パーセプトロンの収束定理 [Block, 1962] [Novikoff, 1962] [Collins,2002]  データが線形分離可能ならば,以下の定理が成立 パーセプトロンによる誤識別回数  重みベクトルのノルムの上限・下限から示す 11
  • 12. 収束定理の証明 [1/3] より, さらに より, 下限 12
  • 13. 収束定理の証明 [2/3]  第2項は,入力ベクトルのノルム上限より  第3項は,パーセプトロンの更新基準より より, 上限 13
  • 14. 収束定理の証明 [3/3] 下限 上限 重みベクトルの更新回数の上限回数が導出できる 14
  • 15. Perceptronの亜種  Voted Perceptron [Freund and Schapire, 1988]  過去の全重みベクトルで識別,多数決を取る  kが変化しない生存期間に応じて重み付け  Averaged Perceptron [Collins+, 2002]  過去の全重みベクトルの平均を取って識別  その他にもたくさん etc..  Second Order Perceptron  p-norm Perceptron  Margitron 15
  • 16. MIRA [Crammer+ 2003]  Margin Infused Relaxed Algorithm  Ultraconservative Online Algorithmsの一種 [Crammer+ 2003]  マージン最大化を目指したアルゴリズム  Perceptronは,マージンを最大化する重みベクトルを 導出するアルゴリズムではない  Max-margin Perceptron, Online SVMと呼ばれることも SVM (Support Vector Machine) 16
  • 17. MIRAのアルゴリズム 二次計画最適化問題に帰着 多クラスの場合は全制約を同 時に満たすものを探す  構造問題の場合は,マージンをラベル間の編集距 離と置くことも  累積損失の上限値が求められる (Passive-Aggressiveで詳しく 説明します) 17
  • 18. Online Passive-Aggressive [Crammer+, 2006]  Hinge-Lossを定義  更新式を以下のように記述する  2値分類の時は,MIRAと同じ 18
  • 19. PAの定式化  2値の場合,アルゴリズムはMIRAと同じ  上の定式化をする意図は?  最適化問題の拡張が容易 (回帰問題,PA-I,PA-II,etc..)  Ex. 回帰問題への適用 19
  • 20. PAの閉じた解の導出  ラグランジュ乗数法を用いる を計算すれば… 20
  • 21. PAの特性  今受け取ったデータを正しく判別できるように, 重みベクトルを更新する  一方,ノイズに脆弱 Passive Aggressive 21
  • 22. PA-I, PA-II  ノイズに頑健な拡張を加える  はAggressiveness parameter PA-I PA-II 誤識別を許容 22
  • 23. PAの累積損失上限 と定義した時, 特に,線形分離可能な時 23
  • 24. PA累積損失上限の証明 [1/3] と定義し, の上限と下限から導く 上限 24
  • 25. PA累積損失上限の証明 [2/3] のとき, 下限 最後の丌等式は,以下の条件式より 25 のとき,
  • 26. PA累積損失上限の証明 [3/3] 上限 下限 より, が導出される 線形分離時や,PA-I,PA-IIも同様に証明可能 26
  • 27. CW以前のアルゴリズムの問題点  NLP等の分類問題は特徴次元数が大  多くの特徴は低頻度  低頻度の特徴が分類上重要な役割を果たすことも  既存手法では,データ中に特徴が出現した時の み,対応するパラメータが更新される  高頻度の特徴は,パラメータも頻繁に更新  低頻度の特徴は,余り更新されない  過去の更新回数をパラメータ更新に用いていない  非効率的 27
  • 28. Ex. Passive-Aggressive スカラー スカラー 特徴ベクトルのスカラー倍 [Crammer+, 2006] 28 パラメータの更新は,出現頻度と独立
  • 29. Confidence-Weighted Algorithms(CW) [Clammer+, 2008]  重みベクトル上にガウス分布を導入  重みベクトルの平均・共分散を逐次的に更新 1.2 1.2 1 既存手法 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0 -1 0.35 -1 -0.85 -0.7 -0.55 -0.4 -0.25 -0.1 0.05 0.2 0.5 0.65 0.8 0.95 -0.85 -0.7 -0.55 -0.4 -0.25 -0.1 0.05 0.2 0.35 0.5 0.65 0.8 0.95 1 2.5 0.8 CW 2 0.6 1.5 0.4 1 0.2 0.5 0 0 29 -1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
  • 30. CWの特性  分散の大きい(自信のない)パラメータは大きく 更新,分散の小さい(自信のある)パラメータは 小さく更新  毎回更新するたびに,分散は小さくする  収束速度が高速  収束に至るまでのデータ数が非常に尐ない  稀な特徴を上手く利用しているため  一方,稀な特徴を持つデータにラベルノイズが載っ ていると,性能が急激に悪化する 30
  • 31. CWの重みベクトルを再定義  重みベクトル  平均  分散  この時, が正しく識別される確率 31
  • 32. 最適化問題 以前の多変量ガウス分布に 最も近いガウス分布を選択する 誤識別率が1-η以下となるガウス分布の中で  Motivationは,PAと同じ  i番目の重みベクトルから(KL-divergenceの意味で)一番近い,制約を 満たす重みベクトルへ更新  今回受け取ったデータを正確に識別するガウス分布へ移動  その制約を外したもの…AROW, NAROW等 32
  • 33. 最適化問題を展開 ここで, :標準正規分布 これをラグランジュ乗数法で解くと, まだ, 閉じた解には 33 なっていない
  • 34. もう少し頑張ると… [Clammer+, 2008] 34
  • 35. Mistake Bound for CW  これまでのデータを全て正しく識別できる最適な ガウス分布が存在する場合には,更新回数の上限 が定められる [Clammer+, 2008] 証明は略 35
  • 36. 実験結果 (CW) CW [Dredze+, 2008] 36
  • 37. さらなる発展形  AROW [Crammer+, 2009], NAROW [Orabona+, 2010]  PAに対するPA-I等と似たMotivation  ノイズに頑健  Adaptive SubGradient Methods (AdaGrad) [Dutch+, 2010]  二次の補正をかけた劣勾配法に拡張  CW, AROWと同様の効果を持つ(更新回数を考慮)  以下のブログ記事の考察も興味深いです  http://atpassos.posterous.com/the-similarity-between-confidence- weighted-le 37
  • 38. 参考:Algorithm(AROW) C (μ, )  DKL ( N (μ, ) N (μt 1 , t 1 ))  1 h2 ( yt , μ  xt )  2 xT  xt t  h2 ( yt , μ  xt )  (max{ 0,1  yt (μ  xt )})2  第一項-- DKL ( N (μ, ) N (μt 1 , t 1 )) x  R :特徴ベクトル d  以前のパラメータから大きく更新 μ  R : 重みベクトルの平均 d しない σ  R d : 重みベクトルの分散  第二項--  h 2 ( yt , μ  xt )   R d d : 重みベクトルの共分散  損失関数を最小にする w ~ N (μ, ) : 重みベクトル  Hinge-loss以外の損失関数でも良い  第三項-- xT  xt t y   1,1: 正解ラベル  学習するにつれ、∑を小さくする   (0.5,1] :しきい値 1 , 2 : hyperparameters 38
  • 39. まとめ  Online Linear Classifierについて紹介  特に,CWはSVMとも遜色ない精度  BatchのLinearSVM, OnlineのPA,CWは線形識別器におけ るベンチマーク  オンライン学習の特性を最大限利用  高速に収束(特に冗長データに対して)  空間計算量を節約  実装が単純 39