OnlineClassifiers

Online Linear Classifiers
~PerceptronからCWまで~

機械学習勉強会 2011/06/23
中川研修士課程2年大岩秀和

1

概要
 オンライン学習による線形分類器の紹介
 Perceptron
 MIRA
 Passive-Aggressive
 Confidence-Weighted Algorithms

 条件設定
 今回の発表は，2値分類に限定
 多クラスへの拡張は容易

2

Notation (Linear Classifier)
 入力
 入力ベクトルの各成分は，特徴(feature)と呼ばれる
 Ex. 文書中の単語出現回数を並べたベクトル

 出力
 構造学習(Structured Learning)の場合はベクトル

 教師データ
 入力と出力のどちらもが既知

3

Notation (Linear Classifier)
 重みベクトル
 重みベクトルと入力ベクトルの内積で出力値を予測

例：ニュース記事分類
：スポーツ記事

：スポーツ以外の記事

としたい
 バイアス項
 多くの場合，バイアス項を導入する
 全データで1となる特徴を1つ増やせば良い

4

Linear Classifierの一般化

：損失関数：正則化項

 多くのアルゴリズムがこの形式で表せる
 Naïve Bayes
 SVM(Support Vector Machine)
 Logistic Regression(Maximum Entropy)
 Conditional Random Field
 Online Linear Classifiers

5

Online Learning
 データを一つ受け取るたび，逐次的にを更新
学習データ

学習データ

ここの更新則を
上手く設定する

学習データ

6
…

Online Learningの長所
 学習の省メモリ化
 重みベクトルの更新に1データのみ使用
 全データを一度に扱えない場合に有用

 再学習が容易
 再学習：学習器を一度構築した後，新しいデータを
用いて学習器を改良
 新しいデータのみを用いて，再学習が可能
 訓練データが逐次的にやってくる場合，昔のデータ
を捨てたい場合に有用

7
 多くの場合，実装が簡単

Perceptron [Rosenblatt 1958]
 アルゴリズム
 誤識別したら，正解ラベル方向へ入力データを重み
ベクトルに足す

の時，更新

8

Perceptronの更新の妥当性
 更新後の重みベクトルは，更新前の重みベクトル
よりも，誤識別したデータを上手く識別する

同じデータに対して，よりよい識別が可能になっている

9

線形分離可能
 以下の条件をみたしつつ，全データを正しく識別
する重みベクトル・パラメータが存在するとき，
線形分離可能と呼ぶ

重みベクトル
パラメータ

 このとき，をマージンと呼ぶ

10

パーセプトロンの収束定理
[Block, 1962] [Novikoff, 1962] [Collins,2002]

 データが線形分離可能ならば，以下の定理が成立

パーセプトロンによる誤識別回数

 重みベクトルのノルムの上限・下限から示す

11

収束定理の証明 [1/3]

より，

さらにより，

下限

12


 第2項は，入力ベクトルのノルム上限より
 第3項は，パーセプトロンの更新基準より

より，

上限

13

下限上限

重みベクトルの更新回数の上限回数が導出できる

14

Perceptronの亜種
 Voted Perceptron [Freund and Schapire, 1988]
 過去の全重みベクトルで識別，多数決を取る
 kが変化しない生存期間に応じて重み付け

 Averaged Perceptron [Collins+, 2002]
 過去の全重みベクトルの平均を取って識別

 その他にもたくさん etc..
 Second Order Perceptron
 p-norm Perceptron
 Margitron
15

MIRA [Crammer+ 2003]
 Margin Infused Relaxed Algorithm
 Ultraconservative Online Algorithmsの一種
[Crammer+ 2003]

 マージン最大化を目指したアルゴリズム
 Perceptronは，マージンを最大化する重みベクトルを
導出するアルゴリズムではない
 Max-margin Perceptron, Online SVMと呼ばれることも

SVM (Support Vector Machine)

16

MIRAのアルゴリズム

二次計画最適化問題に帰着
多クラスの場合は全制約を同
時に満たすものを探す

 構造問題の場合は，マージンをラベル間の編集距
離と置くことも
 累積損失の上限値が求められる (Passive-Aggressiveで詳しく
説明します)
17

Online Passive-Aggressive
[Crammer+, 2006]
 Hinge-Lossを定義

 更新式を以下のように記述する
 2値分類の時は，MIRAと同じ

18

PAの定式化
 2値の場合，アルゴリズムはMIRAと同じ
 上の定式化をする意図は？
 最適化問題の拡張が容易 (回帰問題,PA-I,PA-II,etc..)

 Ex. 回帰問題への適用

19

PAの閉じた解の導出
 ラグランジュ乗数法を用いる

を計算すれば…

20

PAの特性
 今受け取ったデータを正しく判別できるように，
重みベクトルを更新する
 一方，ノイズに脆弱

Passive Aggressive

21

PA-I, PA-II
 ノイズに頑健な拡張を加える
 はAggressiveness parameter

PA-I

PA-II

誤識別を許容
22

PAの累積損失上限
と定義した時，

特に，線形分離可能な時

23

PA累積損失上限の証明 [1/3]
と定義し，

の上限と下限から導く

上限

24

のとき，

下限
最後の丌等式は，以下の条件式より

25 のとき，

上限

下限

より，

が導出される

線形分離時や，PA-I,PA-IIも同様に証明可能

26

CW以前のアルゴリズムの問題点
 NLP等の分類問題は特徴次元数が大
 多くの特徴は低頻度
 低頻度の特徴が分類上重要な役割を果たすことも

 既存手法では，データ中に特徴が出現した時の
み，対応するパラメータが更新される
 高頻度の特徴は，パラメータも頻繁に更新
 低頻度の特徴は，余り更新されない

 過去の更新回数をパラメータ更新に用いていない
 非効率的
27

Ex. Passive-Aggressive

スカラー

スカラー

特徴ベクトルのスカラー倍

[Crammer+, 2006]
28 パラメータの更新は，出現頻度と独立

Confidence-Weighted Algorithms(CW)
[Clammer+, 2008]
 重みベクトル上にガウス分布を導入
 重みベクトルの平均・共分散を逐次的に更新

1.2 1.2
1 既存手法 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
-1

0.35

-1
-0.85
-0.7
-0.55
-0.4
-0.25
-0.1
0.05
0.2

0.5
0.65
0.8
0.95

-0.85
-0.7
-0.55
-0.4
-0.25
-0.1
0.05
0.2
0.35
0.5
0.65
0.8
0.95
1 2.5
0.8
CW 2
0.6 1.5
0.4 1
0.2 0.5
0 0
29 -1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1

CWの特性
 分散の大きい（自信のない）パラメータは大きく
更新，分散の小さい（自信のある）パラメータは
小さく更新
 毎回更新するたびに，分散は小さくする

 収束速度が高速
 収束に至るまでのデータ数が非常に尐ない
 稀な特徴を上手く利用しているため

 一方，稀な特徴を持つデータにラベルノイズが載っ
ていると，性能が急激に悪化する

30

CWの重みベクトルを再定義
 重みベクトル
 平均
 分散

 この時，が正しく識別される確率

31

最適化問題以前の多変量ガウス分布に
最も近いガウス分布を選択する

誤識別率が1-η以下となるガウス分布の中で

 Motivationは，PAと同じ
 i番目の重みベクトルから(KL-divergenceの意味で)一番近い，制約を
満たす重みベクトルへ更新
 今回受け取ったデータを正確に識別するガウス分布へ移動
 その制約を外したもの…AROW, NAROW等

32

最適化問題を展開

ここで，：標準正規分布

これをラグランジュ乗数法で解くと，

まだ，
閉じた解には
33 なっていない

もう少し頑張ると…

[Clammer+, 2008]

34

Mistake Bound for CW
 これまでのデータを全て正しく識別できる最適な
ガウス分布が存在する場合には，更新回数の上限
が定められる

[Clammer+, 2008]
証明は略

35

実験結果 (CW)

CW

[Dredze+, 2008]

36

さらなる発展形
 AROW [Crammer+, 2009], NAROW [Orabona+, 2010]
 PAに対するPA-I等と似たMotivation
 ノイズに頑健

 Adaptive SubGradient Methods (AdaGrad)
[Dutch+, 2010]
 二次の補正をかけた劣勾配法に拡張
 CW, AROWと同様の効果を持つ（更新回数を考慮）
 以下のブログ記事の考察も興味深いです
 http://atpassos.posterous.com/the-similarity-between-confidence-
weighted-le

37

参考：Algorithm(AROW)
C (μ, )  DKL ( N (μ, ) N (μt 1 , t 1 ))  1 h2 ( yt , μ  xt )  2 xT  xt
t

 h2 ( yt , μ  xt )  (max{ 0,1  yt (μ  xt )})2

 第一項-- DKL ( N (μ, ) N (μt 1 , t 1 )) x  R ：特徴ベクトル
d

 以前のパラメータから大きく更新 μ  R : 重みベクトルの平均
d

しない σ  R d : 重みベクトルの分散
 第二項--  h 2 ( yt , μ  xt )   R d d : 重みベクトルの共分散
 損失関数を最小にする w ~ N (μ, ) : 重みベクトル
 Hinge-loss以外の損失関数でも良い
 第三項-- xT  xt
t y   1,1: 正解ラベル
 学習するにつれ、∑を小さくする   (0.5,1] :しきい値
1 , 2 : hyperparameters

38

まとめ
 Online Linear Classifierについて紹介
 特に，CWはSVMとも遜色ない精度
 BatchのLinearSVM, OnlineのPA,CWは線形識別器におけ
るベンチマーク

 オンライン学習の特性を最大限利用
 高速に収束（特に冗長データに対して）
 空間計算量を節約
 実装が単純

39

OnlineClassifiers

More Related Content

Viewers also liked (7)

OnlineClassifiers