SlideShare a Scribd company logo
V n t t v Nh n d ng và Phân lo i
              Võ Đình Phong
         vdphong@fit.hcmus.edu.vn
        B môn Khoa h c máy tính
        Đ i h c Khoa h c t nhiên
227 Nguy n Văn C , Qu n 5, Tp.H Chí Minh

              Phiên b n 0.1




                    1
M t s thu t ng
Classification Phân lo i

Recognition Nh n d ng
Mixture H n t p
Detection Dò tìm
Supervised Có giám sát

Unsupervised Không giám sát
Clustering Gom c m
SupportVectorMachine Máy phân l p vector h tr

NearestNeighor Láng gi ng g n nh t




                                 2
M cl c
1 Dò tìm và Phân lo i                                                                                          4
  1.1 Phân lo i Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                  4
  1.2 Dò tìm: Có/Không . . . . . . . . . . . . . . . . . . . . . . . . . .                                     6

2 H c có giám sát                                                                                              9
  2.1 T p hu n luy n . . . . . . . . . . . .    . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   10
  2.2 H c có tham s . . . . . . . . . . . .     . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   10
  2.3 H c không tham s . . . . . . . . . .      . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   10
      2.3.1 Phân l p láng gi ng g n nh t        . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   10
      2.3.2 Bi t phân tuy n tính Fisher .       . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   11
      2.3.3 Phân l p v i hàm tuy n tính         . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   14
      2.3.4 Máy phân l p dùng vector h          tr    .   .   .   .   .   .   .   .   .   .   .   .   .   .   17
      2.3.5 M ng neuron truy n th ng .          . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   23

3 H c không giám sát                                                                                          23
  3.1 Tinh gi n đ c trưng . . . . . . . . . . . .         .   .   .   .   .   .   .   .   .   .   .   .   .   23
      3.1.1 PCA - Phân tích thành ph n chính              .   .   .   .   .   .   .   .   .   .   .   .   .   23
  3.2 Gom c m . . . . . . . . . . . . . . . . . .         .   .   .   .   .   .   .   .   .   .   .   .   .   25
      3.2.1 Thu t toán K-means . . . . . . . .            .   .   .   .   .   .   .   .   .   .   .   .   .   25
      3.2.2 H n t p Gauss . . . . . . . . . . .           .   .   .   .   .   .   .   .   .   .   .   .   .   25




                                        3
Hình 1: T ng quát c a m t h th ng phân lo i


1       Dò tìm và Phân lo i
Phân lo i m u là đ ng tác gán nhãn cho đ i tư ng c n đư c phân lo i. Đ i
tư ng đây có th là d ng v t ch t, m t khái ni m, m t s ki n, ho c m t chu
trình. Phép gán nhãn ph i luôn luôn d a vào các k t qu đo ti n hành trên đ i
tư ng.
    [hình]
    [b ng]
    Ta gi s r ng s lư ng các s li u có đư c t nh ng phép đo là c đ nh. Do
đó, ngư i ta s p các s li u thành m t b , dư i d ng m t vector dòng ho c c t.
Vector này hi n nhiên có chi u b ng v i s lư ng phép đo. H p t t c các giá
tr có th trong vector đo t o thành không gian đo. Thông thư ng, khái ni m
“phép đo” và “đ c trưng” là m t.
    Trong đi u ki n lý tư ng, các thu c tính đư c ch n đ đo ph i có kh năng
tách bi t gi a các đ i tư ng khác lo i càng nhi u càng t t, sao cho trong không
gian đo, m i m t c m các đ i tư ng c a cùng m t l p s tách bi t hoàn toàn
v i các đ i tư ng c a các l p khác.

1.1       Phân lo i Bayes
Gi s có m t thí nghi m ng u nhiên, đư c đ nh nghĩa b i m t t p Ω =
(ω1 , ω2 , . . . , ωK ) g m K l p đôi m t khác nhau. Xác su t P (ωk ) có l p ωk
g i là xác su t tiên nghi m 1 . Nó bi u di n tri th c mà chúng ta có v m t l p
trư c khi có đư c các thông tin đo đ c. Ta có ràng bu c
                                      K
                                          P (ωk ) = 1                       (1)
                                      k=1

   H th ng c m bi n tr v m t vector đo z có s chi u N . T t c các phép đo
đ u b nh hư ng ít nhi u b i nhi u trong h th ng c m bi n (ho c thu nh n
    1 prior   probability


                                             4
d li u), ví d : nhi u do nhi t, nhi u lư ng t , nhi u lư ng hóa. Các y u t này
là hoàn toàn không đoán trư c, do đó có tính ng u nhiên. Các y u t này đư c
bi u di n b ng hàm m t đ xác su t c a z.
    Hàm m t đ xác su t có đi u ki n c a vector đo z đư c ký hi u là p (z | ωk ),
là m t đ c a z trên các phép đo l p ωk . N u z không đư c bi t trư c l p c
th , ta có
                                           K
                                 p (z) =       p (z | ωk ) P (ωk )                       (2)
                                           k=1

  Hàm quy t đ nh ω (·) s ánh x không gian đo vào t p các l p, vi t l i ánh
                 ˆ
x như sau
                            ω (·) : RN → Ω
                            ˆ
   B phân l p Bayes là m t b phân l p m u d a trên hai đi u ki n tiên quy t:
   • Thi t h i, hay m t mát, khi đ i tư ng b phân l p nh m, có th đư c đ nh
     lư ng như m t lo i phí t n.
   • Kỳ v ng c a phí t n có th coi như m t tiêu chí đ t i ưu.
M t phép gán nh m m t l p cho m t đ i tư ng s gây thi t h i nào đó (ho c
m t mát, phí t n), đư c đ nh lư ng b ng m t hàm phí t n2 C (ˆ | ωk ). Nói cách
                                                             ω
khác, ánh x C (· | ·) : Ω × Ω → R bi u di n phí t n x y ra khi m t đ i tư ng
đư c li t vào l p ω trong khi phân l p đúng c a nó là ωk . Ta có th bi u di n
                    ˆ
t t c các phí t n b ng m t ma tr n kích thư c K × K. Phí t n âm đư c hi u
là l i ích (t c là trong trư ng h p phân l p đúng).
    Theo đ nh lý Bayes cho xác su t có đi u ki n, xác su t h u nghi m 3 là xác
su t P (ωk | z)m t đ i tư ng thu c v m t l p c th ωk , cho trư c vector đo z

                                                 p (z | ωk ) P (ωk )
                               P (ωk | z) =                                              (3)
                                                        p (z)

   Ta có kỳ v ng c a phí t n đư c tính
                                                          K
                R (ˆ i | z) = E [C (ˆ i | ωk ) | z] =
                   ω                ω                         C (ˆ i | ωk ) P (ωk | z)
                                                                 ω                       (4)
                                                          k=1

Đ i lư ng này bi u di n phí t n 4 kỳ v ng c a phép gán l p ωi cho đ i tư ng có
                                                               ˆ
k t qu đo z. Đây đư c g i là r i ro 5 có đi u ki n R (ˆ i (z) | z) v i hàm quy t
                                                        ω
đ nh ωi (z) d a trên đi u ki n z. Suy ra t ng r i ro ph i h ng ch u trong toàn
     ˆ
không gian đo là
                                         ˆ
                R = E [R (ˆ i (z) | z)] = R (ˆ i (z) | z) p (z) dz
                           ω                 ω                               (5)
                                                      z
  2 cost   function ho c loss function
  3 posterior   probability
  4 cost
  5 risk




                                                  5
Tiêu chí th hai trong b phân l p Bayes nói r ng m t b phân l p t i ưu
s có t ng phí t n R nh nh t. Do đó, phân l p Bayes s có d ng:

        ωBAY ES (z) = ωi sao cho R (ˆ i | z) ≤ R (ˆ j | z) i, j = 1 . . . , K
        ˆ             ˆ             ω             ω

hay vi t ng n g n dư i d ng:

                              ωBAY ES (z) = argmin {R (ω | z)}
                              ˆ                                                           (6)
                                                  ω∈Ω


   Thay các bi u th c (3) và (4) ta đư c công th c cu i cùng
                                                 K
              ωBAY ES (z)
              ˆ                 =    argmin            C (ω | ωk ) P (ωk | z)
                                       ω∈Ω       k=1
                                                  K
                                =    argmin            C (ω | ωk ) p(z|ωp(z) (ωk )
                                                                        k )P
                                                                                          (7)
                                       ω∈Ω       k=1
                                                  K
                                =    argmin            C (ω | ωk ) p (z | ωk ) P (ωk )
                                       ω∈Ω       k=1


Hàm phí t n đ ng đ u
N u m t đ i tư ng b phân l p nh m s t n m t đơn v phí t n, và không t n
đơn v nào n u đư c phân l p đúng, ta có khái ni m hàm phí t n đ ng đ u 6

                                                                     1 n ui=k
                C (ˆ i | ωk ) = 1 − δ (i, k) v i δ (i, k) =
                   ω                                                                      (8)
                                                                     0 ngư c l i

   V i hàm phí t n trên, r i ro có đi u ki n                  (4) đư c đơn gi n còn
                                         K
                     R (ˆ i | z) =
                        ω                     P (ωk | z) = 1 − P (ˆ i | z)
                                                                  ω                       (9)
                                       k=1,k=i


C c ti u r i ro tương đương v i c c đ i xác su t h u nghi m P (ˆ i | z). Do đó,
                                                               ω
v i hàm phí t n đ ng đ u, hàm quy t đ nh Bayes tr thành b phân l p c c đ i
xác su t h u nghi m (MAP)

              ωM AP (z) = argmax {P (ω | z)} = argmax {p (z | ω) P (ω)}
              ˆ                                                                          (10)
                                 ω∈Ω                          ω∈Ω


1.2    Dò tìm: Có/Không
Dò tìm là m t trư ng h p c th c a bài toán phân l p, trong đó s l p K = 2.
D a theo (10), ta có phép th sau:

                              p (z | ω1 ) P (ω1 ) > p (z | ω2 ) P (ω2 )                  (11)
  6 uniform   cost function



                                                  6
B ng 1: Phân lo i l i
                                     ω = ω1              ω = ω2
               ω (z) = ω1
               ˆ                Quy t đ nh đúng I       L i lo i II
               ω (z) = ω2
               ˆ                    L i lo i I     Quy t đ nh đúng II


                                  B ng 2: Phân lo i l i
                                           D ki n th c t
     Tiên đoán                  ω = ω1                      ω = ω2
                              (v ng m t)                   (có m t)
     ω (z) = ω1
     ˆ                       true negative        missed event/false negative
     (negative)                lo i đúng                    b t sót
     ω (z) = ω2
     ˆ                false alarm/false positive detection/hit/true positive
     (positive)                b t nh m                    b t đúng


N u phép th sai, ta ch n ω2 , ngư c l i là ω1
                                                  ω1
                            p (z | ω1 ) P (ω1 )        p (z | ω2 ) P (ω2 )      (12)
                                                  ω2


G i m t đ xác su t có đi u ki n p (z | ωk ) là hàm likelihood theo bi n ωk , ta
có t s likelihood đư c đ nh nghĩa b ng công th c:

                                                  p (z | ω1 )
                                      L (z) =                                   (13)
                                                  p (z | ω2 )

V n đ phân lo i tr thành phép th t s likelihood
                                               ω1     P (ω2 )
                                       L (z)                                    (14)
                                               ω2     P (ω1 )
                 P (ω2 )
trong đó t s     P (ω1 )   có th xem như ngư ng quy t đ nh.
   Trong m t h th ng dò tìm, hai lo i l i đư c quan tâm. Gi s ωi là quy t
                                                                 ˆ
đ nh tr v c a h th ng v i vector đo đ u vào là z. L p th c s mà đ i tư ng
thu c v có th là ω1 ho c ω2 (v n còn là n s ). B n trư ng h p có th x y ra:
   M t b dò tìm s quy t đ nh m t đ i tư ng có xu t hi n ω = ω2 hay không
ω = ω1 , tương t , m t s ki n có x y ra hay không. Đ d nh , ta hay dùng các
thu t ng sau
   Hai lo i l i b t nh m và b t sót đư c dùng đ đánh giá hi u qu dò tìm.
Đ nh lư ng chúng dư i d ng xác su t có đi u ki n:
                                            def
                                  Pmiss     =          P (ˆ 1 | ω2 )
                                                          ω
                                            def
                                   Pf a     =          P (ˆ 2 | ω1 )
                                                          ω                     (15)
                                            def
                                   Pdet     =          P (ˆ 2 | ω2 )
                                                          ω


                                                  7
Rõ ràng các xác su t này ph thu c vào ngư ng quy t đ nh, và d a trên (14),
ta suy ra:
                                                                 ´
                                                                 T
                 Pf a (T )        = P (L(z) < T | ω1 ) =             p (L (z) | ω1 ) dL
                                                                −∞
                                                                 ´
                                                                +∞                        (16)
                Pmiss (T )        =    P (L(z) < T | ω2 ) =          p (L (z) | ω2 ) dL
                                                                 T
                 Pdet (T )        =                    1 − Pmiss (T )
   Đ n đây ta khó có th phân tích thêm vì không bi t d ng hàm c a L (z).
Đ đơn gi n, n u gi đ nh r ng bi n ng u nhiên z có phân ph i chu n trong t
nhiên (phân ph i Gauss), quay l i (14), ta có:
                           ω1                                             P (ω2 )
                   Λ (z)         T v i Λ (z) = lnL (z) và T = ln                          (17)
                           ω2                                             P (ω1 )
Đ i lư ng ln L (z) b ng thương c a hai hàm Gauss, sau khi lư c gi n (đ c gi
t khai tri n) tr thành:
         1                                 T −1                     T −1
Λ (z) = −   ln |C1 | − ln |C2 | + (z − µ1 ) C1 (z − µ1 ) − (z − µ2 ) C2 (z − µ2 )
         2
                                                                            (18)
N u tăng ràng bu c cho bài toán, gi s ti p r ng C1 = C2 = C, (18) tr thành:
                                                           T
                                            1
                       Λ (z) =         z−     (µ1 + µ2 )       C −1 (µ1 − µ2 )            (19)
                                            2
Vì z có phân ph i chu n, và Λ (z) tuy n tính theo z, Λ (z) cũng có phân ph i
chu n v i kỳ v ng và phương sai:
                                                                     T
                E [Λ (z) | ω1 ]       = E[z | ω1 ]- 2 (µ1 + µ2 ) C −1 (µ1 − µ2 )
                                                    1
                                                            T
                                      = µ1 − 1 (µ1 + µ2 ) C −1 (µ1 − µ2 )
                                               2
                                                                                          (20)
                                        1          T    −1
                                      = 2 (µ1 +µ2 ) C (µ1 − µ2 )
                                         1          T
                    E [Λ (z) | ω1 ] = − (µ1 -µ2 ) C −1 (µ1 + µ2 )                         (21)
                                         2
                                                             T
           Var [Λ (z | ω2 )] = Var [Λ (z | ω2 )] = (µ1 − µ2 ) C −1 (µ1 − µ2 )             (22)
                   7
   Đ đo SNR :
                                                       2
                        (E [Λ | ω2 ] − E [Λ | ω1 ])            T
            SN R =                                  = (µ1 -µ2 ) C −1 (µ1 − µ2 )           (23)
                               Var [Λ | ω2 ]
                             T
    Đ i lư ng (µ1 -µ2 ) C −1 (µ1 − µ2 ) là bình phương kho ng cách Mahalanobis
                         def √
gi a µ1 và µ2 . Kho ng d = SN R có th đánh giá đ t t trong kh năng phân
bi t l p đúng sai c a b dò tìm. Theo Hình 2, ta d th y khi d tăng thì mi n
di n tích c a Pf a và Pmiss gi m.
    Hình (3) cho th y s bi n đ i c a Pmiss , Pf a , Pdet khi ngư ng T thay đ i.
Nh t thi t ph i có s đánh đ i gi a Pf a và Pmiss . Đư ng cong ROC8 có th
  7 signal-to-noise
  8 receiver   operating curve


                                                   8
Hình 2: M t đ xác su t có đi u ki n trong trư ng h p phân ph i Gauss




          Hình 3: Hi u su t b dò tìm trong trư ng h p phân ph i Gauss


minh h a m i tương quan gi a Pf a và Pdet khi ngư ng T thay đ i. Ta có trư ng
h p lý tư ng n u Pf a = 0 và Pdet = 1. Trong trư ng h p đơn gi n trên, ROC
có đư c thông qua công th c và các gi s nghiêm ng t. Trong th c t , ta v
ROC d a trên k t qu thí nghi m.


2      H c có giám sát
Khi vi c phân lo i d a trên m t mô hình toán h c c th , nó đòi h i hai đ i
lư ng m t đ xác su t có đi u ki n và xác su t tiên nghi m ph i có th đư c
bi u di n tư ng minh d ng mô hình toán h c. Nhưng trong th c t , vi c mô
ph ng d a trên nh ng mô hình đ y quá ph c t p đ có th th c hi n. Lúc này,
hư ng ti p c n h c trên ví d 9 s t ra hi u qu hơn. Hư ng ti p c n này đòi
    9 learning   from examples


                                      9
h i t n t i m t qu n th các đ i tư ng c n phân lo i, đ t đó chúng s đư c
l y m u (ch l a ch n m t ph n trong toàn qu n th ). Các đ c trưng đo l y
t nh ng m u này s là tiêu chu n đ t ng quát hóa, thông qua giai đo n h c
(hay còn g i là hu n luy n), thành m t b phân l p.
    N u m i m u h c đư c bi t trư c l p th c s mà nó thu c v , quá trình h c
có th đư c “giám sát”, hay g i v n t t là h c có giám sát 10 , ngư c l i cho khái
ni m h c không giám sát 11 .

2.1        T p hu n luy n
M t t p các m u đư c l a ch n cho quá trình h c thông thư ng đư c g i là
t p hu n luy n (hay còn g i là t p h c)12 . Chúng ta gi đ nh m t cách lý tư ng
r ng s phân b các m u h c là đ ng nh t và đ c l p l n nhau. Nói cách khác,
m i m u đư c l a ch n không đư c phép ph thu c vào nh ng l a ch n trư c
đó.
    Ký hi u s lư ng m u trong t p h c là NS , v i các m u đư c đánh s
n = 1, . . . , NS . M u n có vector đo zn . Phân l p th c s mà m u zn thu c v
là θn ∈ Ω. Như v y t p h c s g m NS b m u (zn , θn ):

                                  TS = {(zn , θn )} v i n = 1, . . . , NS   (24)

2.2        H c có tham s
Quá trình h c s quy v vi c tìm ki m b tham s phù h p cho mô hình phân
ph i đư c gi đ nh trên d li u đ u vào.
   [còn ti p]

2.3        H c không tham s
Đây là các phương pháp h c mà d ng th c c a phân ph i xác su t có đi u ki n
không đu c bi t, ho c không đư c s d ng tư ng minh. Tho t đ u, có v đây
là phương pháp không c n tìm ho c đi u ch nh m t tham s nào c . Tuy nhiên,
h u h t các phương pháp h c không tham s l i yêu c u nhi u tham s hơn c .
Khác bi t ch chúng không ph i là các tham s c a phân ph i có đi u ki n.
    Có khá ít tri th c trên d li u c n x lý, các phương pháp h c không tham
s có v khó hơn các phương pháp h c có tham s . Nhưng bù l i, tính t ng quát
c a chúng khá cao. Nhưng đ đ t đư c m c đ t ng quát y, lư ng m u trong
t p h c ph i đ l n đ có th phác h a đúng m t đ phân ph i n bên dư i d
li u.

2.3.1        Phân l p láng gi ng g n nh t
[]
     10 supervised  learning
     11 unsupervised   learning
     12 training set




                                                    10
Hình 4:


2.3.2   Bi t phân tuy n tính Fisher
Thư ng đư c bi t đ n v i tên g i Linear Discriminant Analysis hay Fisher’s
Linear Discriminant, mà ta quy ư c g i là “bi t phân Fisher” hay “bi t phân
tuy n tính Fisher”. Ý tư ng c a bi t phân Fisher là gi m chi u d li u đ có
th phân bi t gi a các l p v i nhau b ng m t phân l p tuy n tính. Trên bình
di n này, nó khá tương đ ng v i phương pháp gi m chi u nói chung, c th là
k thu t phân tích thành ph n chính PCA. Tuy nhiên, PCA là phương pháp
gi m chi u không giám sát, trong khi bi t phân Fisher là phương pháp có giám
sát.
    Gi s ta có m t vector đi m m u x v i D chi u, chi u xu ng không gian
m t chi u b ng phương trình
                                  y = wT x                               (25)
N u ch n đư c m t giá tr ngư ng trong mi n giá tr c a y sao cho x thu c v
C1 n u y ≥ ω0 , và x thu c v C2 trong trư ng h p còn l i, ta có b phân l p
tuy n tính. Trong đa s các trư ng h p, phép gi m chi u như trên không b o
toàn thông tin. Trong không gian D chi u, hai phân b có th khá tách bi t
nhau, tuy nhiên khi đư c chi u xu ng không gian m t chi u thì m t s ho c có
th toàn b hai phân b ph ch ng lên nhau.
   Xét trư ng h p c n phân bi t hai phân b thu c v hai l p khác nhau. Cách
đơn gi n nh t đ phân bi t hai phân b này trên không gian m t chi u là tìm
kho ng cách gi a hai trung bình đi m c a hai phân b đó:

                         m2 − m1 = wT (m2 − m1 )                         (26)

trong đó
                                mk = wT mk                               (27)
là trung bình đi m c a phân b c a l p Ck sau khi chi u. Dùng t i ưu Lagrange
ngư i ta nh n th y vector tr c giao v i m t ph ng chi u w ∝ (m2 − m1 ).
    Quan sát Hình 2.3.2 bên trái ta th y tính bi t phân không cao v i k t qu
chi u hai phân b lên đư ng th ng n i trung bình đi m c a hai phân b đó: có


                                     11
m t ph n hai phân b ph ch ng lên nhau. Đi u này x y ra khi ma tr n hi p
phương sai c a m i phân b không ph i là ma tr n chéo (các đi m m u đ c l p
l n nhau - i.i.d13 ). Ý tư ng c a bi t phân Fisher là c c đ i m t hàm nào đó,
sao cho nó c c đ i hóa kho ng cách gi a các trung bình đi m sau chi u, đ ng
th i c c ti u hóa s phân tán bên trong m i l p, do đó c c ti u hóa đư c m c
đ ph ch ng gi a các l p.
   Công th c 25 chi u các đi m m u đư c gán nhãn trong không gian D chi u
thành các đi m m u đư c gán nhãn trong không gian m t chi u. Do đó, m c
phân tán n i l p c a l p Ck là

                                                            2
                                 s2 =
                                  k            (yn − mk )                             (28)
                                        n∈Ck


v i yn = wT x. T ng m c phân tán n i l p14 trên toàn t p d li u (trư ng h p
2 l p) s là s2 + s2 . Tiêu chu n Fisher phát bi u trên đư c bi u di n đ nh
             1    2
lư ng b ng t s gi a m c phân tán liên l p15 và t ng m c phân tán n i l p
                                                           2
                                             (m2 − m1 )
                                 J (w) =                                              (29)
                                               s2 + s2
                                                1    2

Thay th các công th c 25, 26, 28 và bi n đ i ta đư c

                                                 wT SB w
                                   J (w) =                                            (30)
                                                 wT SW w

v i SB là ma tr n hi p phương sai liên l p
                                                                T
                            SB = (m2 − m1 ) (m2 − m1 )                                (31)

và SW là ma tr n t ng hi p phương sai n i l p
                                             T                                    T
     SW =            (xn − m1 ) (xn − m1 ) +              (xn − m2 ) (xn − m2 )       (32)
              n∈C1                                 n∈C2


L y đ o hàm 30 theo w ta th y J (w) đ t c c đ i khi và ch khi

                          wT SB w SW w = wT SW w SB w                                 (33)

Theo công th c 31 ta th y lư ng SB w tuân theo hư ng c a vector hi u m2 −m1
(ch ng minh?). Hơn n a, ta không quan tâm đ n đ l n c a w, mà ch quan
tâm đ n hư ng c a nó, nên hoàn toàn có th b qua hai đ i lư ng vô hư ng
 wT SB w và wT SW w . Sau đó nhân c hai v c a 33 v i S−1 cu i cùng ta
                                                             W
đư c
                             w ∝ S−1 (m2 − m1 )
                                   W                                     (34)
 13 independent and identical distribution
 14 within-classvariation
 15 between-class variation




                                             12
N u phân b n i l p có tính đ ng hư ng16 thì SW là ma tr n chéo và ta có
trư ng h p đ c bi t như đã trình bày đ u m c.
    Sau khi đã chi u d li u theo phương sao cho các đi m sau chi u đư c phân
bi t kh dĩ nh t, hoàn toàn ta có th tìm m t ngư ng quy t đ nh đ phân l p.
Cũng có th mô hình hóa các phân b sau chi u b ng các phân ph i Gauss, t
đó ư c lư ng ra b tham s c n thi t, và cu i cùng là tìm đư c ngư ng quy t
đ nh.
    V i s l p K > 2, ta chi u các đi m m u trong không gian D chi u v không
                          T
gian D chi u v i yk = wk x, v i k = 1, . . . , D . N u gom các tr vô hư ng yk
thành vector y, và s p các vector tr ng s {wk } thành các c t c a ma tr n W,
ta đư c công th c chi u
                                   y = WT x                              (35)
Ma tr n hi p phương sai n i l p b ng t ng các ma tr n hi p phương sai n i l p
thành ph n
                                             K
                                    SW =         Sk                      (36)
                                            k=1

v i
                                                              T
                     Sk    =         (xn − mk ) (xn − mk )
                               n∈Ck
                                1                                        (37)
                     mk    =   Nk      xn
                                  n∈Ck

v i Nk là s lư ng đi m m u trong l p Ck . Đ tìm d ng t ng quát c a ma tr n
hi p phương sai liên l p, ta liên h v i ma tr n hi p phương sai trên toàn b
t p d li u
                                N
                                                          T
                       ST =          (xn − m) (xn − m)                   (38)
                               n=1

v i m là trung bình trên toàn t p d li u
                                    N             K
                               1         1
                          m=        xn =              Nk mk              (39)
                               N n=1     N
                                                  k=1

Ma tr n hi p phương sai t ng có th đư c phân tích thành t ng c a ma tr n
hi p phương sai n i l p và ma tr n SB , đư c quy ư c là ma tr n hi p phương
sai liên l p
                               ST = SW + SB                             (40)
v i
                            N
                                                              T
                     SB =         Nk (mk − m) (mk − m)                   (41)
                            k=1
 16 isotropic




                                        13
Ta có th đ nh nghĩa các ma tr n tương t trong không gian chi u D chi u:
                            K
                                                                 T
                     sW =              (yn − µk ) (yn − µk )              (42)
                            k=1n∈Ck


và
                                N
                                                             T
                       sB =          Nk (µk − µ) (µk − µ)                 (43)
                               k=1

v i
                                         1
                                µk =                 yn                   (44)
                                         Nk
                                              n∈Ck

                                            K
                                        1
                                µ=               Nk µk                    (45)
                                        N
                                            k=1

Ta l i thi t l p m t t s vô hư ng v i tính ch t t s này s l n khi m c phân
tán liên l p l n và m c phân tán n i l p nh . Có th đ nh nghĩa t s này b ng

                              J (W) = Tr s−1 sB
                                          W                               (46)

N u bi u di n hàm J (.) theo ma tr n chi u W, ta có
                                                    −1
                  J (w) = Tr        WSW WT                WSB WT          (47)

C c đ i J (w) cho ta k t qu w là các vector riêng ng v i D tr riêng l n nh t
gi i đư c t ma tr n S−1 SB .
                      W


2.3.3   Phân l p v i hàm tuy n tính
Hàm phân l p là nh ng hàm có d ng gk (z) , k = 1, . . . , K đư c s d ng trong
vi c ra quy t đ nh:

                     ω (z) = ωn v i n = argmax {gk (z)}
                     ˆ                                                    (48)
                                                 k=1,...,K


N u gk (z) đư c coi là xác su t h u nghi m P (ωk |z), (48) quy v hàm quy t
đ nh Bayes v i hàm phí t n đ ng đ u. Vì chúng ta không th bi t xác su t h u
nghi m, đ i lư ng xác su t s đư c thay th b i các d ng hàm gk (z) v i các
tham s c a hàm đư c rút ra t t p hu n luy n.
    Đ đơn gi n, d li u đư c gi đ nh có th đư c phân l p b ng các đư ng
biên phân l p tuy n tính (hay còn g i là các siêu ph ng 17 khi s chi u l n hơn
3):
                                        T
                             gk (z) = wk z + wk                            (49)
 17 hyperplane




                                            14
Ta g i chúng là các hàm tuy n tính phân l p 18 , hay còn g i dư i m t cái tên có
liên quan v sau, máy tuy n tính phân l p 19 .
                        z              wk
    N u vi t g p y =       , wk =           , (49) đư c bi u di n d ng t ng
                        1              wk
quát hơn:
                                          T
                                gk (y) = wk y                               (50)
    D th y hàm tuy n tính phân l p ph thu c vào t p các tham s wk . Như
v y v b n ch t, quá trình h c đư c quy v tìm ki m các tham s sao cho hàm
quy t đ nh (48) phân l p thành công t t c các m u trong t p hu n luy n. K
thu t đi u ch nh tham s đư c chia làm hai lo i, l p và không l p. K thu t
không l p đư c s d ng n u hi u su t phân l p có th đư c t i ưu thông qua
công c gi i tích trên mi n liên t c. N u hàm đo hi u su t là m t hàm liên
t c J (w) c a w, l i gi i t i ưu s có đư c t vi c gi i phương trình đ o hàm
∂J(w)
  ∂w = 0.
    Khi hàm đo hi u su t d a trên phương pháp s , k thu t l p đư c áp d ng.
V i k thu t này, t ng m u h c s đư c h th ng phân l p, sau đó k t qu phân
l p đư c so sánh v i l p th c c a m u đó, nh m quy t đ nh có đi u ch nh tham
s hay không. Hi n nhiên quá trình hi u ch nh ph i đư c th c hi n sao cho hi u
su t phân l p tăng d n. Sau m t s bư c l p đ l n, ta kỳ v ng r ng h th ng
đ t đư c t i ưu toàn c c
    Chi n thu t tìm ki m thông d ng nh t cho k thu t l p là phương pháp
tăng gradient 20 . Gi s J (w) là hàm đo hi u su t phân l p, liên t c trong mi n
c a w, có vector gradient J (w) = ∂J(w) . Phương pháp tăng gradient có quy
                                      ∂w
t c c p nh t tham s như sau:

                         w (i + 1) = w (i) + η (i) J (w (i))               (51)

trong đó ký hi u w (i) là tham s t i bư c l p th i, η (i) đư c g i là t c đ
h c. Quá trình c p nh t s h i t ch m n u t c đ h c quá nh , nhưng n u t c
đ h c quá l n thì quá trình c p nh t có th “v t” quá c c tr , b “giam” quanh
qu n trong vùng g n c c tr . Trong ph n còn l i, chúng ta s kh o sát v thu t
toán h c perceptron, m t phương pháp cơ b n và có nhi u liên quan v sau.

H c perceptron
Xét bài toán phân l p trên hai l p, (48) tương đương v i phép ki m tra g1 (y) −
g2 (y) > 0, TRUE cho l p ω1 , FALSE cho l p ω2 . Perceptron đư c đ nh nghĩa
là hàm tuy n tính phân l p (50) v i g (y) = g1 (y) − g2 (y). Ta có c u trúc tính
toán c a perceptron như Hình ... v i k t qu phân lo i đư c mã hóa v hai tr ng
thái +1 và −1.
    Đ có th áp d ng phương pháp phân l p v i hàm tuy n tính, ta c n trang
b cho thu t toán h c perceptron m t hàm đo hi u su t. Áp d ng k thu t h c
 18 lineardiscriminant functions
 19 linearmachine
 20 gradient ascent




                                         15
Hình 5: Mô hình perceptron


d a trên l p, ta quy ư c hàm đo hi u su t chính là hàm đ m s m u b phân
l p sai. M c tiêu c a bài toán là c c ti u hóa con s này. N u yn là m t m u
c n đư c phân lo i và g (yn ) phân lo i sai, thì:

                               < 0 ω (yn ) = ω2 , θn = ω1
                                   ˆ
                   g (yn ) =                                              (52)
                               > 0 ω (yn ) = ω1 , θn = ω2
                                   ˆ

  ng v i m i trư ng h p, ta tăng thêm ho c gi m đi m t đ i lư ng dương đ
đi u ch nh hàm phân l p như mong mu n:

                               > 0 ω (yn ) = ω1 , θn = ω1
                                   ˆ
                   g (yn ) =                                              (53)
                               < 0 ω (yn ) = ω2 , θn = ω2
                                   ˆ

   N u g i Y1 (w) là t p các m u h c có θn = ω1 b phân l p sai, và Y2 (w) là
t p các m u h c có θn = ω2 , hàm đo hi u su t đư c đ nh nghĩa là:

                  Jperceptron (w) = −          wT y +          wT y       (54)
                                        y∈Y1            y∈Y2


Phép l y đ o hàm theo w cho ta:

                       Jperceptron (w) = −            y+          y       (55)
                                               y∈Y1        y∈Y2


   Thay (55) vào (51) ta có lu t h c cu i cùng:
                                                                     

                  w (i + 1) = w (i) − η −            y+          y      (56)
                                               y∈Y1        y∈Y2




                                     16
Hình 6: L đư c đ nh nghĩa là kho ng cách tr c giao gi a m t ph ng quy t đ nh
và đi m m u g n nó nh t. V trí c a m t ph ng quy t đ nh đư c xác đ nh b i
m t t p con các đi m m u, hay còn g i là các vector h tr .


v i i là bi n đ m vòng l p. Lu t h c s ng ng đư c c p nh t khi w (i + 1) =
w (i), nói cách khác là t t c các m u trong t p hu n luy n đư c phân vào đúng
l p. Ta g i nh ng t p hu n luy n đ t đư c đi u ki n trên là kh phân tuy n
tính 21 .

2.3.4    Máy phân l p dùng vector h tr
N n t ng cơ s c a máy phân l p dùng vector h tr khá gi ng v i n n t ng
perceptron. C hai máy phân l p đ u là tuy n tính, gi đ nh r ng d li u kh
phân tuy n tính. Trong trư ng h p c a perceptron, l i gi i ph thu c vào tr
kh i t o ban đ u w và w0 , cũng như trình t h c các đi m m u (trong trư ng
h p h c t ng m u đơn). N u có nhi u l i gi i có th cho m t bài toán phân
l p, ta mong mu n tìm ra l i gi i v i t l l i th p nh t. Máy phân l p dùng
vector h tr gi i quy t v n đ này thông qua khái ni m l 22 , đư c đ nh nghĩa là
kho ng cách nh nh t gi a m t ph ng quy t đ nh và m t trong các đi m m u.
    Trư c khi xây d ng hàm đo hi u su t, khái ni m l c n đư c làm rõ trên
khía c nh hình h c gi i tích. Nh c l i hàm tuy n tính phân l p có d ng phương
trình siêu ph ng:
                               g (z) = wT z + w0                          (57)
v i w là vector tr ng s , và w0 là h s t do so v i g c t a đ . Vector x đư c
gán cho l p ω1 n u g (z) ≥ 0 và đư c gán cho l p ω2 trong trư ng h p ngư c l i.
Xét hai đi m zA và zB cùng thu c siêu ph ng. Vì g (zA ) = g (zB ) = 0 nên ta có
wT (zA − zB ) = 0, đ ng nghĩa v i vector w tr c giao v i m i vector n m trong
siêu ph ng, đ ng th i cũng có nghĩa vector w xác đ nh phương c a siêu ph ng
phân cách. N u m t đi m x n m trên đư ng biên phân cách thì g (z) = 0, t
đó ta cũng có kho ng cách tr c chu n t g c t a đ đ n m t phân cách
                                wT z    w0
                                     =−                                   (58)
                                 w      w

Có th nh n th y h s t do quy t đ nh v trí c a m t ph ng phân cách.
 21 linear   separable
 22 margin




                                      17
Hình 7: Hàm tuy n tính phân l p trong không gian hai chi u. M t ph ng quy t
đ nh (màu đ ) vuông góc v i vector w, v i đi m đ t đư c quy t đ nh b i h
s t do w0 . Kho ng cách đ i s t m t đi m đ n m t ph ng quy t đ nh là
g (z) / w .




                                    18
Ngoài ra, giá tr g (z) cho phép xác đ nh kho ng cách đ i s t m t đi m z
đ n m t ph ng quy t đ nh. Gi s g i z⊥ là nh c a z qua phép chi u tr c giao
lên m t ph ng quy t đ nh, ta có
                                            w
                                z = z⊥ + r                              (59)
                                            w
Nhân hai v v i wT và sau đó c ng hai v v i w0 , m t khác g (z) = wT z + w0
và g (z⊥ ) = wT z⊥ + w0 = 0, ta có
                                        g (z)
                                  r=                                     (60)
                                         w
Như v y l c a m t ph ng quy t đ nh là đ i lư ng r. Trong máy phân l p dùng
vector h tr , m t ph ng quy t đ nh đư c l a ch n sao cho th a mãn tiêu chí l
c a nó đ t c c đ i. M c nhiên các máy tuy n tính phân l p ch có kh năng x
lý hai l p ω1 ω2 , hay theo (24) ta có θn = {+1, −1}. Gi s đã có m t t p các
l i gi i có th phân l p đúng hoàn toàn các m u h c (m t h các m t ph ng
phân cách ch ng h n), tương đương v i θn g (zn ) > 0. Kho ng cách t m t đi m
xn đ n m t ph ng phân cách b ng
                        θn g (xn )   θn wT zn + w0
                                   =                                     (61)
                            w              w
chính là kho ng cách tr c giao đ n đi m zn trong t p hu n luy n. Đ t i ưu đ
đo hi u su t, c n hi u ch nh tham s w, w0 sao cho l đ t c c đ i. Di n đ t
d ng t i ưu toán h c:
                              1
                   argmax       min θn wT zn + w0                        (62)
                     w,w0     w n

   đây ta c n l a ch n ba b tham s w, w0 và n sao cho bi u th c trên đ t c c
đ i. Đ i lư ng 1/ w đư c đưa ra ngoài vì nó đ c l p v i vi c l a ch n n. Hàm
t i ưu trên khá ph c t p và s đư c chuy n đ i v d ng tương đương nhưng d
gi i hơn, b ng cách l y t l w → κw và w0 → κw0 nhưng kho ng cách t m t
ph ng quy t đ nh đ n đi m m u wn v n không đ i, b ng θn g (zn ) / w . Gi
s ta ch n đư c t l sao cho
                            θn wT zn + w0 = 1                            (63)
v i xn là đi m m u g n m t ph ng phân cách nh t. Do đó, m i đi m m u s
th a b t phương trình
                     θn wT zn + w0 ≥ 1, n = 1, . . . , NS                (64)
hay còn đư c g i là d ng chính t c 23 c a siêu ph ng quy t đ nh. Vì luôn luôn
có ít nh t hai m u khác l p trong t p hu n luy n, đ ng th c luôn x y ra. T i
ưu hàm (62) gi đây đư c chuy n v d ng c c ti u hàm
                                         1      2
                               argmin      w                             (65)
                                 w,w0    2
 23 canonical




                                        19
D ng chu n24
Bài toán quy v quy ho ch b c hai, v i hàm c n c c ti u và m t t p các b t
phương trình ràng bu c. Đ gi i bài toán t i ưu có ràng bu c, ta bi u di n l i
b ng cách s d ng b i Lagrang an ≥ 0 v i m t b i s an ng v i m i m t ràng
bu c b t phương trình trong (64):
                                                        N
                                    1       2
               L (w, b, a) =          w         −            an θn wT zn + w0 − 1    (66)
                                    2               n=1

                          T
v i a = {a1 , . . . , aN } . C c ti u L (w, b, a) tương đương c c ti u v ph i th
nh t và c c đ i v ph i th hai (vì sao?) L y đ o hàm ∂L/∂w và ∂L/∂w0 ta
đư c:
                                                        N
                                            w=               an θn zn                (67)
                                                    n=1
                                                        N
                                            0=                  an θn                (68)
                                                        n=1

    Ch m t s trong t ng s an có giá tr l n hơn 0. Các đi m m u zn tương
 ng v i an > 0 chính là các vector h tr n m trên l phân cách. Khái ni m h
tr có th hi u là l c a siêu ph ng quy t đ nh đư c h tr b i (hay đư c “đ ”
b i) các vector m u đó. Các vector này do đó th a mãn (64) v i d u đ ng th c
x y ra. H s t do w0 = wzn − θn và thư ng đư c tính trung bình t ng c a
t t c các vector h tr :
                                                    NSV
                                        1
                                    b=                       (wzn − θn )             (69)
                                       NSV          i=1


D ng đ i ng u25
Thay (67) và (68) vào (66) ta có bi u di n đ i ng u c a hàm c c ti u L (w, b, a):
                                N                   N       N
                                            1
                      L (a) =        an −            an am θn θm k (zn , zm )        (70)
                                n=1
                                            2 n=1m=1

                                    an          ≥ 0,             n = 1, . . . , NS
                                N                                                    (71)
                                    an θn       =       0.
                              n=1

v i hàm h ch k (xn , xm ) = xT xm là k t qu tích vô hư ng gi a hai vector
                26
                               n
đi m m u. Vi c gi i nh ng hàm t i ưu b c hai đã có s n công c , và không
đư c đ c p trong tài li u này.
 24 primal  form
 25 dual form
 26 kernel function




                                                        20
Nh n th y r ng hàm t i ưu ban đ u (65) có M bi n s v i M là s chi u
c a không gian m u và đ ph c t p thu t toán c a bài toán quy ho ch b c
hai là Θ M 3 . Khi (65) đư c chuy n v d ng (70), s bi n s là N , v i N là
s lư ng đi m m u trong t p hu n luy n. D ng đ i ng u s tr nên b t l i khi
N l n, nhưng phát bi u l i bài toán có d a trên khái ni m hàm h ch, có kh
năng phân l p trong không gian phi tuy n (s trình bày bên dư i), đ ng th i
làm vi c đư c v i nh ng t p m u mà s chi u l n hơn (có th hơn nhi u cho
đ n vô h n chi u) s lư ng đi m m u.
    Đ phân lo i m t m u d a trên mô hình h c v a đư c hu n luy n trên,
ta xét d u c a g (z) trong phương trình (57). Bi u di n theo các tham s {an }
và hàm h ch cho ta:
                                   N
                         g (z) =       an θn k (z, zn ) + w0               (72)
                                   n=1

Như đã kh ng đ nh trong bi u di n d ng chu n, ch có an tương ng v i các
vector h tr là khác 0. M t khi đã đư c hu n luy n, ta ch quan tâm đ n các
vector h tr và b qua các đi m m u khác.

Phân l p phi tuy n
Hai thu t toán perceptron và phân l p dùng vector h tr đ u đư c xây d ng
trên gi thi t d li u kh phân tuy n tính. Nói cách khác, hai phân l p ω1 và
ω2 có th đư c phân tách trong không gian m u b ng m t siêu ph ng. Trong
th c t có nhi u trư ng h p d li u đư c phân b ph c t p hơn, như đan xen
l n nhau gi a hai l p, phân b xo n,... Đ i v i các bài toán phi tuy n như v y,
phương pháp h ch27 đư c s d ng đ gi i quy t d li u phi tuy n b ng các
thu t toán phân l p tuy n tính. C th , d li u trong không gian phi tuy n
hi n t i đư c ánh x sang không gian có s chi u đ l n sao cho d li u có th
đư c phân l p b ng thu t toán phân l p tuy n tính. Như v y, phân l p tuy n
tính trong không gian m i tương đương v i phân l p phi tuy n trong không
gian ban đ u. Ta g i φ (z) là m t ánh x vào không gian đ c trưng có tính ch t
như v y. Ti p theo, c n đ nh nghĩa m t đ đo đ đ nh lư ng s tương đ ng gi a
hai vector trong không gian đ c trưng b ng tích vô hư ng:
                                               T
                            k (z, z ) = φ (z) φ (z )                       (73)

D th y k (z, z ) = k (z , z) và trong trư ng h p đơn gi n nh t ta có φ (z) = z,
nên k (z, z ) = zT z . V y ý tư ng c a phương pháp h ch có l i ích gì trong vi c
gi i bài toán phân l p dùng vector h tr ? Trong trư ng h p d li u phi tuy n,
ta thay th z b ng φ (z) đ thu t toán tuy n tính có th phân lo i đư c. Công
th c (57) tr thành
                               g (z) = wT φ (z) + w0                        (74)
 27 kernel   methods




                                         21
và công th c (70) tr thành:
                            N            N   N
                                       1
                L (a) =         an −            an am θn θm k (zn , zm )   (75)
                            n=1
                                       2 n=1m=1

v i công th c (73) xu t hi n trong hàm t i ưu. Rõ ràng là thay vì tính toán
                                                                T
tư ng minh φ (z), φ (z ), và tính tích vô hư ng gi a chúng φ (z) φ (z ), ta có
th thay th b ng hàm h ch k (z, z ) đơn gi n hơn. V m t toán h c, (73) đư c
đ m b o b ng đ nh lý Mercer, phát bi u r ng b t kỳ m t hàm không âm, liên
t c trong mi n xác đ nh, và đ i x ng k (z, z ) có th đư c bi u di n b ng tích
vô hư ng trong không gian cao chi u.
    Tính ch t trên đư c mình h a trong m t s ví d ti p theo đây. Trư c tiên
ta ph i xây d ng các hàm h ch. Hư ng ti p c n th nh t là l a ch n ánh x
φ (z) và sau đó dùng chúng đ tìm h ch tương ng. Công th c hàm h ch cho
không gian đ u vào m t chi u:
                                                    M
                                        T
                   k (z, z ) = φ (z) φ (z ) =             φi (z) φ (z )    (76)
                                                    i=1

v i φi (z) là các hàm cơ s .
    [hình]
    Cũng có th xây d ng hàm h ch tr c ti p, b ng cách ch n m t hàm sao cho
nó tương đương v i tích vô hư ng trong không gian đ c trưng cao chi u. L y ví
d :
                                              2
                              k (z, x) = zT x                            (77)
Trong trư ng h p không gian m u hai chi u z = (z1 , z2 ), tri n khai theo hàm
h ch và sau đó gom l i, ta đư c bi u di n c a tích vô hư ng:
                                        2                        2
                 k (z, x)    = zT x = (z1 x1 + z2 x2 )
                             = z1 x2√ 2z1 z1 z2 x2 + z√x2
                                2
                                    1+
                                                      2
                                                      2 2
                                                                           (78)
                             = z1 , 2z1 z2 , z2 x2 , 2x1 x2 , x2
                                  2           2
                                                    1          2
                                     T
                             = φ (z) φ (x)

                         2
                           √          2
D th y ánh x φ (z) = z1 , 2z1 z2 , z2 bao g m t t c các đa th c b c hai có
th cùng v i tr ng s . Ta g i (77) là hàm h ch đa th c b c hai. M t hàm h ch
thông d ng khác là h ch Gauss
                                                             2
                                                   z−z
                            k (z, z ) = exp −                              (79)
                                                    2σ 2




                                             22
Hình 8: Phân l p d li u hai l p trong không gian m u hai chi u v i các vector
h tr đư c đánh d u b ng khoanh tròn, và các đư ng đ ng m c có giá tr g (z)
b ng nhau.


2.3.5    M ng neuron truy n th ng

3       H c không giám sát
3.1     Tinh gi n đ c trưng
3.1.1    PCA - Phân tích thành ph n chính28
K thu t phân tích thành ph n chính đư c s d ng r ng rãi trong lĩnh v c gi m
chi u không gian29 , nén có m t mát thông tin30 , rút trích đ c trưng31 , và ki n
hóa d li u32 . PCA còn đư c bi t đ n v i tên g i phép bi n đ i Karhunen-Loève.
    T hai phương di n khác nhau, PCA đư c đ nh nghĩa và xây d ng theo hai
cách. Th nh t, PCA là phép chi u tr c giao d li u lên m t không gian tuy n
tính v i s chi u th p hơn, hay còn g i là không gian con chính 33 , sao cho đ
phân tán c a d li u sau phép chi u đ t c c đ i. Th hai, PCA cũng có th
đư c đ nh nghĩa là phép chi u tuy n tính làm c c ti u phí t n trung bình, chính
là trung bình t ng bình phương kho ng cách 34 gi a các đi m m u và nh c a nó
qua phép chi u. Ta s xem xét c hai khía c nh này.
 28 principal component analysis
 29 dimensionality  reduction
 30 lossy data compression
 31 feature extraction
 32 data visualization
 33 principal subspace
 34 mean squared distance




                                       23
C c đ i hóa đ phân tán
                                          N
Xét t p d li u v i các quan sát {xn }n=1 , và xn là m t vector trong không gian
Euclid v i s chi u D. M c tiêu c a ta là chi u d li u vào không gian có s
chi u M < D đ ng th i t i đa hóa đ phân tán c a đi m nh. Ta gi s s chi u
M đư c bi t trư c.
    Trư c tiên xét phép chi u lên không gian m t chi u M = 1. Dùng vector u1
v i s chi u D có th xác đ nh đư c hư ng c a không gian đích. Vì ch quan
tâm đ n chi u, ta ch n u1 là vector đơn v , uT u1 = 1. Qua phép chi u, m i
                                                1
đi m nh xn có nh uT xn . L y trung bình c a nh chi u ta đư c uT x v i x là
                      1                                              1
trung bình c a t p m u
                                         N
                                      1
                                 x=         xn                             (80)
                                     N n=1

Đ phân tán c a d li u sau chi u b ng
                               N
                             1                    2
                                   uT xn − uT x       = uT Su1            (81)
                             N n=1 1        1            1



v i S là ma tr n hi p phương sai c a d li u ban đ u
                                      N
                                   1                      T
                             S=          (xn − x) (xn − x)                (82)
                                   N n=1

Ta   ph i c c đ i đ phân tán d li u sau chi u uT Su1 theo bi n u1 . Đ ngăn
                                                1
ch   n u1 → ∞, ta có thêm ràng bu c t lúc đ u uT u1 = 1. K t h p hàm t i
                                                  1
ưu   và ràng bu c tương ng b ng b i Lagrang ta có c c đ i hàm không ràng
bu   c
                           uT Su1 + λ1 1 − uT u1
                            1               1                          (83)
L y đ o hàm theo u1 đ tìm giá tr c a u1 mà t i đó (83) đ t c c đ i

                                       Su1 = λ1 u1                        (84)

Đây chính là phương trình vector riêng35 theo ma tr n S. N u nhân bên trái
hai v cho uT
           1
                               uT Su1 = λ1
                                 1                                   (85)
    s nh n th y đ phân tán (v trái) đ t c c đ i khi u1 là vector riêng v i λ1
là tr riêng l n nh t tương ng. Vector riêng này đư c g i là thành ph n chính
th nh t.
    Trong trư ng h p gi m chi u d li u v M > 1, phép chi u t i ưu sao cho
đ phân tán d li u sau chi u đ t c c đ i đư c xác đ nh b ng m t t p M các
                  M                          M
vector riêng {ui }i=1 ng v i M tr riêng {λi }i=1 l n nh t gi i t phương trình
vector riêng trên ma tr n hi p phương sai S.
 35 eigenvector   equation



                                           24
C c ti u hóa đ l i

3.2     Gom c m
3.2.1   Thu t toán K-means
3.2.2   H n t p Gauss




                             25

More Related Content

PDF
10 mat102-bai 7-v1.0
DOC
Ltdh ptluong gia cmoi soanco giai
DOC
Cđ van dung bdt giai pt hpt
PDF
Do do-tich-phan mearsure intergral
PDF
Đề tài: Bài toán phương trình đạo hàm riêng dạng elliptic, HAY
PDF
Đề tài: Một số phương pháp giải bài toán phương trình đạo hàm riêng biên trị
PDF
Intro probability 1
PDF
Manifold Learning
10 mat102-bai 7-v1.0
Ltdh ptluong gia cmoi soanco giai
Cđ van dung bdt giai pt hpt
Do do-tich-phan mearsure intergral
Đề tài: Bài toán phương trình đạo hàm riêng dạng elliptic, HAY
Đề tài: Một số phương pháp giải bài toán phương trình đạo hàm riêng biên trị
Intro probability 1
Manifold Learning

Similar to Giới thiệu Pattern Recognition V0.1 (20)

PDF
CAO HỌC : Xác suất thống kê và Quá trình ngẫu nhiên
PDF
Độ đo véc tơ và độ đo ngẫu nhiên.pdf
PDF
Lawoflargenumber
PDF
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng, HOT, 9đ
PDF
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng của nó, 9đ
PDF
bai-giang-thong-ke-xa-hoi-hoc-2022.pdf
PDF
Chuong4-Ly thuyet mau
PPT
Do Khong Dam Bao Do
DOC
Phân Tích Phân Biệt, Phân Loại Và Phân Tích Cụm.doc
PDF
Giáo trình Quy hoạch thực nghiệm, Nguyễn Doãn Ý.pdf
PDF
Bai Giang Dia Thong Ke
PDF
Tailieu.vncty.com 21 lv-09_dhkh_toanud_pham van dung
PDF
Bgxlth clc chuong_i-ii _ tin hieu lien tuc_sv
PDF
Bài giảng môn xác suất thống kê
PDF
Slide bài giảng tổng hợp xác suất thống kê
PPTX
SLIDE BÀI GIẢNG THỐNG KÊ TOÁN, TOÁN ĐẠI CƯƠNG
PDF
Chương 4_ Ước lượng tham số.pdf.........
PDF
Luận văn: Một số phương pháp rút gọn thuộc tính trong bảng quyết định
PDF
Xs cao hochsn
DOC
Tốc Độ Hội Tụ Trong Một Số Định Lý Giới Hạn Trung Tâm Theo Trung Bình Của Dãy...
CAO HỌC : Xác suất thống kê và Quá trình ngẫu nhiên
Độ đo véc tơ và độ đo ngẫu nhiên.pdf
Lawoflargenumber
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng, HOT, 9đ
Luận văn: Thống kê Bayes nhiều chiều và ứng dụng của nó, 9đ
bai-giang-thong-ke-xa-hoi-hoc-2022.pdf
Chuong4-Ly thuyet mau
Do Khong Dam Bao Do
Phân Tích Phân Biệt, Phân Loại Và Phân Tích Cụm.doc
Giáo trình Quy hoạch thực nghiệm, Nguyễn Doãn Ý.pdf
Bai Giang Dia Thong Ke
Tailieu.vncty.com 21 lv-09_dhkh_toanud_pham van dung
Bgxlth clc chuong_i-ii _ tin hieu lien tuc_sv
Bài giảng môn xác suất thống kê
Slide bài giảng tổng hợp xác suất thống kê
SLIDE BÀI GIẢNG THỐNG KÊ TOÁN, TOÁN ĐẠI CƯƠNG
Chương 4_ Ước lượng tham số.pdf.........
Luận văn: Một số phương pháp rút gọn thuộc tính trong bảng quyết định
Xs cao hochsn
Tốc Độ Hội Tụ Trong Một Số Định Lý Giới Hạn Trung Tâm Theo Trung Bình Của Dãy...
Ad

Recently uploaded (20)

PPTX
Direct Marketing- chieu thi truyen thong
PPTX
2. tràn khí màng phổi bệnh học nộii.pptx
PPTX
24. 9cqbq2reu57m5igbsz-signature-40d40b8bd600bcde0d0584523c684ec4933c280de74a...
PDF
CHUYÊN ĐỀ DẠY THÊM HÓA HỌC LỚP 12 CẢ NĂM THEO FORM THI MỚI BGD - CÓ ÔN TẬP + ...
PPTX
Triet hoc con nguoi va triet hoc thac si
PDF
CHUYÊN ĐỀ DẠY THÊM HÓA HỌC LỚP 10 CẢ NĂM THEO FORM THI MỚI BGD - CÓ ÔN TẬP + ...
PPTX
Chương 5 của Tâm lí học - Tâm Lí Học Giáo Dục Đạo Đức
DOCX
6.CQ_KT_Ke toan tai chinh 2_Pham Thi Phuong Thao.docx
PDF
12894-44864-1-CE-1037-1038_Văn bản của bài báo.pdf
PDF
GIẢI PHÁP NÂNG CAO CÔNG TÁC CHỦ NHIỆM QUA CÁC TIẾT SINH HOẠT THEO CHỦ ĐỀ NHẰ...
PDF
BÀI TẬP TEST FOR UNIT TIẾNG ANH LỚP 6 GLOBAL SUCCESS CẢ NĂM THEO TỪNG ĐƠN VỊ ...
PPTX
Bài 6 Du an bua an ket noi yeu thuong.pptx
DOCX
Chủ nghĩa xã hội khoa học - Đề Cương Cuối Kỳ.docx
PPT
SINH 8 TUYẾN YÊN TUYẾN GIÁP CÂU TẠO VÀ CHỨC NĂNG
PPTX
CHƯƠNG I excel,,,,,,,,,,,,,,,,,,,,,,,,,,
PDF
BỘ TÀI LIỆU CHINH PHỤC ĐỈNH CAO TIẾNG ANH NĂM 2026 CHUYÊN ĐỀ ÔN HỌC SINH GIỎI...
PDF
Dao tao va Phat trien NỘI DUNG ÔN THI CHO SINH VIÊN
PPTX
TIẾT 8, 9, 10. BÀI 32. DINH DƯỠNG VÀ TIÊU HÓA Ở NGƯỜI.pptx
PDF
BÁO CÁO THỰC TẬP KỸ SƯ 2 ĐỀ TÀI TÌM HIỂU QUY TRÌNH CÔNG NGHỆ SẢN XUẤT BÁNH SN...
PPTX
Flashcard giải pháp đơn giản – trực quan – hiệu quả, giúp học từ vựng theo t...
Direct Marketing- chieu thi truyen thong
2. tràn khí màng phổi bệnh học nộii.pptx
24. 9cqbq2reu57m5igbsz-signature-40d40b8bd600bcde0d0584523c684ec4933c280de74a...
CHUYÊN ĐỀ DẠY THÊM HÓA HỌC LỚP 12 CẢ NĂM THEO FORM THI MỚI BGD - CÓ ÔN TẬP + ...
Triet hoc con nguoi va triet hoc thac si
CHUYÊN ĐỀ DẠY THÊM HÓA HỌC LỚP 10 CẢ NĂM THEO FORM THI MỚI BGD - CÓ ÔN TẬP + ...
Chương 5 của Tâm lí học - Tâm Lí Học Giáo Dục Đạo Đức
6.CQ_KT_Ke toan tai chinh 2_Pham Thi Phuong Thao.docx
12894-44864-1-CE-1037-1038_Văn bản của bài báo.pdf
GIẢI PHÁP NÂNG CAO CÔNG TÁC CHỦ NHIỆM QUA CÁC TIẾT SINH HOẠT THEO CHỦ ĐỀ NHẰ...
BÀI TẬP TEST FOR UNIT TIẾNG ANH LỚP 6 GLOBAL SUCCESS CẢ NĂM THEO TỪNG ĐƠN VỊ ...
Bài 6 Du an bua an ket noi yeu thuong.pptx
Chủ nghĩa xã hội khoa học - Đề Cương Cuối Kỳ.docx
SINH 8 TUYẾN YÊN TUYẾN GIÁP CÂU TẠO VÀ CHỨC NĂNG
CHƯƠNG I excel,,,,,,,,,,,,,,,,,,,,,,,,,,
BỘ TÀI LIỆU CHINH PHỤC ĐỈNH CAO TIẾNG ANH NĂM 2026 CHUYÊN ĐỀ ÔN HỌC SINH GIỎI...
Dao tao va Phat trien NỘI DUNG ÔN THI CHO SINH VIÊN
TIẾT 8, 9, 10. BÀI 32. DINH DƯỠNG VÀ TIÊU HÓA Ở NGƯỜI.pptx
BÁO CÁO THỰC TẬP KỸ SƯ 2 ĐỀ TÀI TÌM HIỂU QUY TRÌNH CÔNG NGHỆ SẢN XUẤT BÁNH SN...
Flashcard giải pháp đơn giản – trực quan – hiệu quả, giúp học từ vựng theo t...
Ad

Giới thiệu Pattern Recognition V0.1

  • 1. V n t t v Nh n d ng và Phân lo i Võ Đình Phong vdphong@fit.hcmus.edu.vn B môn Khoa h c máy tính Đ i h c Khoa h c t nhiên 227 Nguy n Văn C , Qu n 5, Tp.H Chí Minh Phiên b n 0.1 1
  • 2. M t s thu t ng Classification Phân lo i Recognition Nh n d ng Mixture H n t p Detection Dò tìm Supervised Có giám sát Unsupervised Không giám sát Clustering Gom c m SupportVectorMachine Máy phân l p vector h tr NearestNeighor Láng gi ng g n nh t 2
  • 3. M cl c 1 Dò tìm và Phân lo i 4 1.1 Phân lo i Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Dò tìm: Có/Không . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2 H c có giám sát 9 2.1 T p hu n luy n . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2 H c có tham s . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3 H c không tham s . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3.1 Phân l p láng gi ng g n nh t . . . . . . . . . . . . . . . . 10 2.3.2 Bi t phân tuy n tính Fisher . . . . . . . . . . . . . . . . . 11 2.3.3 Phân l p v i hàm tuy n tính . . . . . . . . . . . . . . . . 14 2.3.4 Máy phân l p dùng vector h tr . . . . . . . . . . . . . . 17 2.3.5 M ng neuron truy n th ng . . . . . . . . . . . . . . . . . 23 3 H c không giám sát 23 3.1 Tinh gi n đ c trưng . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.1.1 PCA - Phân tích thành ph n chính . . . . . . . . . . . . . 23 3.2 Gom c m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2.1 Thu t toán K-means . . . . . . . . . . . . . . . . . . . . . 25 3.2.2 H n t p Gauss . . . . . . . . . . . . . . . . . . . . . . . . 25 3
  • 4. Hình 1: T ng quát c a m t h th ng phân lo i 1 Dò tìm và Phân lo i Phân lo i m u là đ ng tác gán nhãn cho đ i tư ng c n đư c phân lo i. Đ i tư ng đây có th là d ng v t ch t, m t khái ni m, m t s ki n, ho c m t chu trình. Phép gán nhãn ph i luôn luôn d a vào các k t qu đo ti n hành trên đ i tư ng. [hình] [b ng] Ta gi s r ng s lư ng các s li u có đư c t nh ng phép đo là c đ nh. Do đó, ngư i ta s p các s li u thành m t b , dư i d ng m t vector dòng ho c c t. Vector này hi n nhiên có chi u b ng v i s lư ng phép đo. H p t t c các giá tr có th trong vector đo t o thành không gian đo. Thông thư ng, khái ni m “phép đo” và “đ c trưng” là m t. Trong đi u ki n lý tư ng, các thu c tính đư c ch n đ đo ph i có kh năng tách bi t gi a các đ i tư ng khác lo i càng nhi u càng t t, sao cho trong không gian đo, m i m t c m các đ i tư ng c a cùng m t l p s tách bi t hoàn toàn v i các đ i tư ng c a các l p khác. 1.1 Phân lo i Bayes Gi s có m t thí nghi m ng u nhiên, đư c đ nh nghĩa b i m t t p Ω = (ω1 , ω2 , . . . , ωK ) g m K l p đôi m t khác nhau. Xác su t P (ωk ) có l p ωk g i là xác su t tiên nghi m 1 . Nó bi u di n tri th c mà chúng ta có v m t l p trư c khi có đư c các thông tin đo đ c. Ta có ràng bu c K P (ωk ) = 1 (1) k=1 H th ng c m bi n tr v m t vector đo z có s chi u N . T t c các phép đo đ u b nh hư ng ít nhi u b i nhi u trong h th ng c m bi n (ho c thu nh n 1 prior probability 4
  • 5. d li u), ví d : nhi u do nhi t, nhi u lư ng t , nhi u lư ng hóa. Các y u t này là hoàn toàn không đoán trư c, do đó có tính ng u nhiên. Các y u t này đư c bi u di n b ng hàm m t đ xác su t c a z. Hàm m t đ xác su t có đi u ki n c a vector đo z đư c ký hi u là p (z | ωk ), là m t đ c a z trên các phép đo l p ωk . N u z không đư c bi t trư c l p c th , ta có K p (z) = p (z | ωk ) P (ωk ) (2) k=1 Hàm quy t đ nh ω (·) s ánh x không gian đo vào t p các l p, vi t l i ánh ˆ x như sau ω (·) : RN → Ω ˆ B phân l p Bayes là m t b phân l p m u d a trên hai đi u ki n tiên quy t: • Thi t h i, hay m t mát, khi đ i tư ng b phân l p nh m, có th đư c đ nh lư ng như m t lo i phí t n. • Kỳ v ng c a phí t n có th coi như m t tiêu chí đ t i ưu. M t phép gán nh m m t l p cho m t đ i tư ng s gây thi t h i nào đó (ho c m t mát, phí t n), đư c đ nh lư ng b ng m t hàm phí t n2 C (ˆ | ωk ). Nói cách ω khác, ánh x C (· | ·) : Ω × Ω → R bi u di n phí t n x y ra khi m t đ i tư ng đư c li t vào l p ω trong khi phân l p đúng c a nó là ωk . Ta có th bi u di n ˆ t t c các phí t n b ng m t ma tr n kích thư c K × K. Phí t n âm đư c hi u là l i ích (t c là trong trư ng h p phân l p đúng). Theo đ nh lý Bayes cho xác su t có đi u ki n, xác su t h u nghi m 3 là xác su t P (ωk | z)m t đ i tư ng thu c v m t l p c th ωk , cho trư c vector đo z p (z | ωk ) P (ωk ) P (ωk | z) = (3) p (z) Ta có kỳ v ng c a phí t n đư c tính K R (ˆ i | z) = E [C (ˆ i | ωk ) | z] = ω ω C (ˆ i | ωk ) P (ωk | z) ω (4) k=1 Đ i lư ng này bi u di n phí t n 4 kỳ v ng c a phép gán l p ωi cho đ i tư ng có ˆ k t qu đo z. Đây đư c g i là r i ro 5 có đi u ki n R (ˆ i (z) | z) v i hàm quy t ω đ nh ωi (z) d a trên đi u ki n z. Suy ra t ng r i ro ph i h ng ch u trong toàn ˆ không gian đo là ˆ R = E [R (ˆ i (z) | z)] = R (ˆ i (z) | z) p (z) dz ω ω (5) z 2 cost function ho c loss function 3 posterior probability 4 cost 5 risk 5
  • 6. Tiêu chí th hai trong b phân l p Bayes nói r ng m t b phân l p t i ưu s có t ng phí t n R nh nh t. Do đó, phân l p Bayes s có d ng: ωBAY ES (z) = ωi sao cho R (ˆ i | z) ≤ R (ˆ j | z) i, j = 1 . . . , K ˆ ˆ ω ω hay vi t ng n g n dư i d ng: ωBAY ES (z) = argmin {R (ω | z)} ˆ (6) ω∈Ω Thay các bi u th c (3) và (4) ta đư c công th c cu i cùng K ωBAY ES (z) ˆ = argmin C (ω | ωk ) P (ωk | z) ω∈Ω k=1 K = argmin C (ω | ωk ) p(z|ωp(z) (ωk ) k )P (7) ω∈Ω k=1 K = argmin C (ω | ωk ) p (z | ωk ) P (ωk ) ω∈Ω k=1 Hàm phí t n đ ng đ u N u m t đ i tư ng b phân l p nh m s t n m t đơn v phí t n, và không t n đơn v nào n u đư c phân l p đúng, ta có khái ni m hàm phí t n đ ng đ u 6 1 n ui=k C (ˆ i | ωk ) = 1 − δ (i, k) v i δ (i, k) = ω (8) 0 ngư c l i V i hàm phí t n trên, r i ro có đi u ki n (4) đư c đơn gi n còn K R (ˆ i | z) = ω P (ωk | z) = 1 − P (ˆ i | z) ω (9) k=1,k=i C c ti u r i ro tương đương v i c c đ i xác su t h u nghi m P (ˆ i | z). Do đó, ω v i hàm phí t n đ ng đ u, hàm quy t đ nh Bayes tr thành b phân l p c c đ i xác su t h u nghi m (MAP) ωM AP (z) = argmax {P (ω | z)} = argmax {p (z | ω) P (ω)} ˆ (10) ω∈Ω ω∈Ω 1.2 Dò tìm: Có/Không Dò tìm là m t trư ng h p c th c a bài toán phân l p, trong đó s l p K = 2. D a theo (10), ta có phép th sau: p (z | ω1 ) P (ω1 ) > p (z | ω2 ) P (ω2 ) (11) 6 uniform cost function 6
  • 7. B ng 1: Phân lo i l i ω = ω1 ω = ω2 ω (z) = ω1 ˆ Quy t đ nh đúng I L i lo i II ω (z) = ω2 ˆ L i lo i I Quy t đ nh đúng II B ng 2: Phân lo i l i D ki n th c t Tiên đoán ω = ω1 ω = ω2 (v ng m t) (có m t) ω (z) = ω1 ˆ true negative missed event/false negative (negative) lo i đúng b t sót ω (z) = ω2 ˆ false alarm/false positive detection/hit/true positive (positive) b t nh m b t đúng N u phép th sai, ta ch n ω2 , ngư c l i là ω1 ω1 p (z | ω1 ) P (ω1 ) p (z | ω2 ) P (ω2 ) (12) ω2 G i m t đ xác su t có đi u ki n p (z | ωk ) là hàm likelihood theo bi n ωk , ta có t s likelihood đư c đ nh nghĩa b ng công th c: p (z | ω1 ) L (z) = (13) p (z | ω2 ) V n đ phân lo i tr thành phép th t s likelihood ω1 P (ω2 ) L (z) (14) ω2 P (ω1 ) P (ω2 ) trong đó t s P (ω1 ) có th xem như ngư ng quy t đ nh. Trong m t h th ng dò tìm, hai lo i l i đư c quan tâm. Gi s ωi là quy t ˆ đ nh tr v c a h th ng v i vector đo đ u vào là z. L p th c s mà đ i tư ng thu c v có th là ω1 ho c ω2 (v n còn là n s ). B n trư ng h p có th x y ra: M t b dò tìm s quy t đ nh m t đ i tư ng có xu t hi n ω = ω2 hay không ω = ω1 , tương t , m t s ki n có x y ra hay không. Đ d nh , ta hay dùng các thu t ng sau Hai lo i l i b t nh m và b t sót đư c dùng đ đánh giá hi u qu dò tìm. Đ nh lư ng chúng dư i d ng xác su t có đi u ki n: def Pmiss = P (ˆ 1 | ω2 ) ω def Pf a = P (ˆ 2 | ω1 ) ω (15) def Pdet = P (ˆ 2 | ω2 ) ω 7
  • 8. Rõ ràng các xác su t này ph thu c vào ngư ng quy t đ nh, và d a trên (14), ta suy ra: ´ T Pf a (T ) = P (L(z) < T | ω1 ) = p (L (z) | ω1 ) dL −∞ ´ +∞ (16) Pmiss (T ) = P (L(z) < T | ω2 ) = p (L (z) | ω2 ) dL T Pdet (T ) = 1 − Pmiss (T ) Đ n đây ta khó có th phân tích thêm vì không bi t d ng hàm c a L (z). Đ đơn gi n, n u gi đ nh r ng bi n ng u nhiên z có phân ph i chu n trong t nhiên (phân ph i Gauss), quay l i (14), ta có: ω1 P (ω2 ) Λ (z) T v i Λ (z) = lnL (z) và T = ln (17) ω2 P (ω1 ) Đ i lư ng ln L (z) b ng thương c a hai hàm Gauss, sau khi lư c gi n (đ c gi t khai tri n) tr thành: 1 T −1 T −1 Λ (z) = − ln |C1 | − ln |C2 | + (z − µ1 ) C1 (z − µ1 ) − (z − µ2 ) C2 (z − µ2 ) 2 (18) N u tăng ràng bu c cho bài toán, gi s ti p r ng C1 = C2 = C, (18) tr thành: T 1 Λ (z) = z− (µ1 + µ2 ) C −1 (µ1 − µ2 ) (19) 2 Vì z có phân ph i chu n, và Λ (z) tuy n tính theo z, Λ (z) cũng có phân ph i chu n v i kỳ v ng và phương sai: T E [Λ (z) | ω1 ] = E[z | ω1 ]- 2 (µ1 + µ2 ) C −1 (µ1 − µ2 ) 1 T = µ1 − 1 (µ1 + µ2 ) C −1 (µ1 − µ2 ) 2 (20) 1 T −1 = 2 (µ1 +µ2 ) C (µ1 − µ2 ) 1 T E [Λ (z) | ω1 ] = − (µ1 -µ2 ) C −1 (µ1 + µ2 ) (21) 2 T Var [Λ (z | ω2 )] = Var [Λ (z | ω2 )] = (µ1 − µ2 ) C −1 (µ1 − µ2 ) (22) 7 Đ đo SNR : 2 (E [Λ | ω2 ] − E [Λ | ω1 ]) T SN R = = (µ1 -µ2 ) C −1 (µ1 − µ2 ) (23) Var [Λ | ω2 ] T Đ i lư ng (µ1 -µ2 ) C −1 (µ1 − µ2 ) là bình phương kho ng cách Mahalanobis def √ gi a µ1 và µ2 . Kho ng d = SN R có th đánh giá đ t t trong kh năng phân bi t l p đúng sai c a b dò tìm. Theo Hình 2, ta d th y khi d tăng thì mi n di n tích c a Pf a và Pmiss gi m. Hình (3) cho th y s bi n đ i c a Pmiss , Pf a , Pdet khi ngư ng T thay đ i. Nh t thi t ph i có s đánh đ i gi a Pf a và Pmiss . Đư ng cong ROC8 có th 7 signal-to-noise 8 receiver operating curve 8
  • 9. Hình 2: M t đ xác su t có đi u ki n trong trư ng h p phân ph i Gauss Hình 3: Hi u su t b dò tìm trong trư ng h p phân ph i Gauss minh h a m i tương quan gi a Pf a và Pdet khi ngư ng T thay đ i. Ta có trư ng h p lý tư ng n u Pf a = 0 và Pdet = 1. Trong trư ng h p đơn gi n trên, ROC có đư c thông qua công th c và các gi s nghiêm ng t. Trong th c t , ta v ROC d a trên k t qu thí nghi m. 2 H c có giám sát Khi vi c phân lo i d a trên m t mô hình toán h c c th , nó đòi h i hai đ i lư ng m t đ xác su t có đi u ki n và xác su t tiên nghi m ph i có th đư c bi u di n tư ng minh d ng mô hình toán h c. Nhưng trong th c t , vi c mô ph ng d a trên nh ng mô hình đ y quá ph c t p đ có th th c hi n. Lúc này, hư ng ti p c n h c trên ví d 9 s t ra hi u qu hơn. Hư ng ti p c n này đòi 9 learning from examples 9
  • 10. h i t n t i m t qu n th các đ i tư ng c n phân lo i, đ t đó chúng s đư c l y m u (ch l a ch n m t ph n trong toàn qu n th ). Các đ c trưng đo l y t nh ng m u này s là tiêu chu n đ t ng quát hóa, thông qua giai đo n h c (hay còn g i là hu n luy n), thành m t b phân l p. N u m i m u h c đư c bi t trư c l p th c s mà nó thu c v , quá trình h c có th đư c “giám sát”, hay g i v n t t là h c có giám sát 10 , ngư c l i cho khái ni m h c không giám sát 11 . 2.1 T p hu n luy n M t t p các m u đư c l a ch n cho quá trình h c thông thư ng đư c g i là t p hu n luy n (hay còn g i là t p h c)12 . Chúng ta gi đ nh m t cách lý tư ng r ng s phân b các m u h c là đ ng nh t và đ c l p l n nhau. Nói cách khác, m i m u đư c l a ch n không đư c phép ph thu c vào nh ng l a ch n trư c đó. Ký hi u s lư ng m u trong t p h c là NS , v i các m u đư c đánh s n = 1, . . . , NS . M u n có vector đo zn . Phân l p th c s mà m u zn thu c v là θn ∈ Ω. Như v y t p h c s g m NS b m u (zn , θn ): TS = {(zn , θn )} v i n = 1, . . . , NS (24) 2.2 H c có tham s Quá trình h c s quy v vi c tìm ki m b tham s phù h p cho mô hình phân ph i đư c gi đ nh trên d li u đ u vào. [còn ti p] 2.3 H c không tham s Đây là các phương pháp h c mà d ng th c c a phân ph i xác su t có đi u ki n không đu c bi t, ho c không đư c s d ng tư ng minh. Tho t đ u, có v đây là phương pháp không c n tìm ho c đi u ch nh m t tham s nào c . Tuy nhiên, h u h t các phương pháp h c không tham s l i yêu c u nhi u tham s hơn c . Khác bi t ch chúng không ph i là các tham s c a phân ph i có đi u ki n. Có khá ít tri th c trên d li u c n x lý, các phương pháp h c không tham s có v khó hơn các phương pháp h c có tham s . Nhưng bù l i, tính t ng quát c a chúng khá cao. Nhưng đ đ t đư c m c đ t ng quát y, lư ng m u trong t p h c ph i đ l n đ có th phác h a đúng m t đ phân ph i n bên dư i d li u. 2.3.1 Phân l p láng gi ng g n nh t [] 10 supervised learning 11 unsupervised learning 12 training set 10
  • 11. Hình 4: 2.3.2 Bi t phân tuy n tính Fisher Thư ng đư c bi t đ n v i tên g i Linear Discriminant Analysis hay Fisher’s Linear Discriminant, mà ta quy ư c g i là “bi t phân Fisher” hay “bi t phân tuy n tính Fisher”. Ý tư ng c a bi t phân Fisher là gi m chi u d li u đ có th phân bi t gi a các l p v i nhau b ng m t phân l p tuy n tính. Trên bình di n này, nó khá tương đ ng v i phương pháp gi m chi u nói chung, c th là k thu t phân tích thành ph n chính PCA. Tuy nhiên, PCA là phương pháp gi m chi u không giám sát, trong khi bi t phân Fisher là phương pháp có giám sát. Gi s ta có m t vector đi m m u x v i D chi u, chi u xu ng không gian m t chi u b ng phương trình y = wT x (25) N u ch n đư c m t giá tr ngư ng trong mi n giá tr c a y sao cho x thu c v C1 n u y ≥ ω0 , và x thu c v C2 trong trư ng h p còn l i, ta có b phân l p tuy n tính. Trong đa s các trư ng h p, phép gi m chi u như trên không b o toàn thông tin. Trong không gian D chi u, hai phân b có th khá tách bi t nhau, tuy nhiên khi đư c chi u xu ng không gian m t chi u thì m t s ho c có th toàn b hai phân b ph ch ng lên nhau. Xét trư ng h p c n phân bi t hai phân b thu c v hai l p khác nhau. Cách đơn gi n nh t đ phân bi t hai phân b này trên không gian m t chi u là tìm kho ng cách gi a hai trung bình đi m c a hai phân b đó: m2 − m1 = wT (m2 − m1 ) (26) trong đó mk = wT mk (27) là trung bình đi m c a phân b c a l p Ck sau khi chi u. Dùng t i ưu Lagrange ngư i ta nh n th y vector tr c giao v i m t ph ng chi u w ∝ (m2 − m1 ). Quan sát Hình 2.3.2 bên trái ta th y tính bi t phân không cao v i k t qu chi u hai phân b lên đư ng th ng n i trung bình đi m c a hai phân b đó: có 11
  • 12. m t ph n hai phân b ph ch ng lên nhau. Đi u này x y ra khi ma tr n hi p phương sai c a m i phân b không ph i là ma tr n chéo (các đi m m u đ c l p l n nhau - i.i.d13 ). Ý tư ng c a bi t phân Fisher là c c đ i m t hàm nào đó, sao cho nó c c đ i hóa kho ng cách gi a các trung bình đi m sau chi u, đ ng th i c c ti u hóa s phân tán bên trong m i l p, do đó c c ti u hóa đư c m c đ ph ch ng gi a các l p. Công th c 25 chi u các đi m m u đư c gán nhãn trong không gian D chi u thành các đi m m u đư c gán nhãn trong không gian m t chi u. Do đó, m c phân tán n i l p c a l p Ck là 2 s2 = k (yn − mk ) (28) n∈Ck v i yn = wT x. T ng m c phân tán n i l p14 trên toàn t p d li u (trư ng h p 2 l p) s là s2 + s2 . Tiêu chu n Fisher phát bi u trên đư c bi u di n đ nh 1 2 lư ng b ng t s gi a m c phân tán liên l p15 và t ng m c phân tán n i l p 2 (m2 − m1 ) J (w) = (29) s2 + s2 1 2 Thay th các công th c 25, 26, 28 và bi n đ i ta đư c wT SB w J (w) = (30) wT SW w v i SB là ma tr n hi p phương sai liên l p T SB = (m2 − m1 ) (m2 − m1 ) (31) và SW là ma tr n t ng hi p phương sai n i l p T T SW = (xn − m1 ) (xn − m1 ) + (xn − m2 ) (xn − m2 ) (32) n∈C1 n∈C2 L y đ o hàm 30 theo w ta th y J (w) đ t c c đ i khi và ch khi wT SB w SW w = wT SW w SB w (33) Theo công th c 31 ta th y lư ng SB w tuân theo hư ng c a vector hi u m2 −m1 (ch ng minh?). Hơn n a, ta không quan tâm đ n đ l n c a w, mà ch quan tâm đ n hư ng c a nó, nên hoàn toàn có th b qua hai đ i lư ng vô hư ng wT SB w và wT SW w . Sau đó nhân c hai v c a 33 v i S−1 cu i cùng ta W đư c w ∝ S−1 (m2 − m1 ) W (34) 13 independent and identical distribution 14 within-classvariation 15 between-class variation 12
  • 13. N u phân b n i l p có tính đ ng hư ng16 thì SW là ma tr n chéo và ta có trư ng h p đ c bi t như đã trình bày đ u m c. Sau khi đã chi u d li u theo phương sao cho các đi m sau chi u đư c phân bi t kh dĩ nh t, hoàn toàn ta có th tìm m t ngư ng quy t đ nh đ phân l p. Cũng có th mô hình hóa các phân b sau chi u b ng các phân ph i Gauss, t đó ư c lư ng ra b tham s c n thi t, và cu i cùng là tìm đư c ngư ng quy t đ nh. V i s l p K > 2, ta chi u các đi m m u trong không gian D chi u v không T gian D chi u v i yk = wk x, v i k = 1, . . . , D . N u gom các tr vô hư ng yk thành vector y, và s p các vector tr ng s {wk } thành các c t c a ma tr n W, ta đư c công th c chi u y = WT x (35) Ma tr n hi p phương sai n i l p b ng t ng các ma tr n hi p phương sai n i l p thành ph n K SW = Sk (36) k=1 v i T Sk = (xn − mk ) (xn − mk ) n∈Ck 1 (37) mk = Nk xn n∈Ck v i Nk là s lư ng đi m m u trong l p Ck . Đ tìm d ng t ng quát c a ma tr n hi p phương sai liên l p, ta liên h v i ma tr n hi p phương sai trên toàn b t p d li u N T ST = (xn − m) (xn − m) (38) n=1 v i m là trung bình trên toàn t p d li u N K 1 1 m= xn = Nk mk (39) N n=1 N k=1 Ma tr n hi p phương sai t ng có th đư c phân tích thành t ng c a ma tr n hi p phương sai n i l p và ma tr n SB , đư c quy ư c là ma tr n hi p phương sai liên l p ST = SW + SB (40) v i N T SB = Nk (mk − m) (mk − m) (41) k=1 16 isotropic 13
  • 14. Ta có th đ nh nghĩa các ma tr n tương t trong không gian chi u D chi u: K T sW = (yn − µk ) (yn − µk ) (42) k=1n∈Ck và N T sB = Nk (µk − µ) (µk − µ) (43) k=1 v i 1 µk = yn (44) Nk n∈Ck K 1 µ= Nk µk (45) N k=1 Ta l i thi t l p m t t s vô hư ng v i tính ch t t s này s l n khi m c phân tán liên l p l n và m c phân tán n i l p nh . Có th đ nh nghĩa t s này b ng J (W) = Tr s−1 sB W (46) N u bi u di n hàm J (.) theo ma tr n chi u W, ta có −1 J (w) = Tr WSW WT WSB WT (47) C c đ i J (w) cho ta k t qu w là các vector riêng ng v i D tr riêng l n nh t gi i đư c t ma tr n S−1 SB . W 2.3.3 Phân l p v i hàm tuy n tính Hàm phân l p là nh ng hàm có d ng gk (z) , k = 1, . . . , K đư c s d ng trong vi c ra quy t đ nh: ω (z) = ωn v i n = argmax {gk (z)} ˆ (48) k=1,...,K N u gk (z) đư c coi là xác su t h u nghi m P (ωk |z), (48) quy v hàm quy t đ nh Bayes v i hàm phí t n đ ng đ u. Vì chúng ta không th bi t xác su t h u nghi m, đ i lư ng xác su t s đư c thay th b i các d ng hàm gk (z) v i các tham s c a hàm đư c rút ra t t p hu n luy n. Đ đơn gi n, d li u đư c gi đ nh có th đư c phân l p b ng các đư ng biên phân l p tuy n tính (hay còn g i là các siêu ph ng 17 khi s chi u l n hơn 3): T gk (z) = wk z + wk (49) 17 hyperplane 14
  • 15. Ta g i chúng là các hàm tuy n tính phân l p 18 , hay còn g i dư i m t cái tên có liên quan v sau, máy tuy n tính phân l p 19 . z wk N u vi t g p y = , wk = , (49) đư c bi u di n d ng t ng 1 wk quát hơn: T gk (y) = wk y (50) D th y hàm tuy n tính phân l p ph thu c vào t p các tham s wk . Như v y v b n ch t, quá trình h c đư c quy v tìm ki m các tham s sao cho hàm quy t đ nh (48) phân l p thành công t t c các m u trong t p hu n luy n. K thu t đi u ch nh tham s đư c chia làm hai lo i, l p và không l p. K thu t không l p đư c s d ng n u hi u su t phân l p có th đư c t i ưu thông qua công c gi i tích trên mi n liên t c. N u hàm đo hi u su t là m t hàm liên t c J (w) c a w, l i gi i t i ưu s có đư c t vi c gi i phương trình đ o hàm ∂J(w) ∂w = 0. Khi hàm đo hi u su t d a trên phương pháp s , k thu t l p đư c áp d ng. V i k thu t này, t ng m u h c s đư c h th ng phân l p, sau đó k t qu phân l p đư c so sánh v i l p th c c a m u đó, nh m quy t đ nh có đi u ch nh tham s hay không. Hi n nhiên quá trình hi u ch nh ph i đư c th c hi n sao cho hi u su t phân l p tăng d n. Sau m t s bư c l p đ l n, ta kỳ v ng r ng h th ng đ t đư c t i ưu toàn c c Chi n thu t tìm ki m thông d ng nh t cho k thu t l p là phương pháp tăng gradient 20 . Gi s J (w) là hàm đo hi u su t phân l p, liên t c trong mi n c a w, có vector gradient J (w) = ∂J(w) . Phương pháp tăng gradient có quy ∂w t c c p nh t tham s như sau: w (i + 1) = w (i) + η (i) J (w (i)) (51) trong đó ký hi u w (i) là tham s t i bư c l p th i, η (i) đư c g i là t c đ h c. Quá trình c p nh t s h i t ch m n u t c đ h c quá nh , nhưng n u t c đ h c quá l n thì quá trình c p nh t có th “v t” quá c c tr , b “giam” quanh qu n trong vùng g n c c tr . Trong ph n còn l i, chúng ta s kh o sát v thu t toán h c perceptron, m t phương pháp cơ b n và có nhi u liên quan v sau. H c perceptron Xét bài toán phân l p trên hai l p, (48) tương đương v i phép ki m tra g1 (y) − g2 (y) > 0, TRUE cho l p ω1 , FALSE cho l p ω2 . Perceptron đư c đ nh nghĩa là hàm tuy n tính phân l p (50) v i g (y) = g1 (y) − g2 (y). Ta có c u trúc tính toán c a perceptron như Hình ... v i k t qu phân lo i đư c mã hóa v hai tr ng thái +1 và −1. Đ có th áp d ng phương pháp phân l p v i hàm tuy n tính, ta c n trang b cho thu t toán h c perceptron m t hàm đo hi u su t. Áp d ng k thu t h c 18 lineardiscriminant functions 19 linearmachine 20 gradient ascent 15
  • 16. Hình 5: Mô hình perceptron d a trên l p, ta quy ư c hàm đo hi u su t chính là hàm đ m s m u b phân l p sai. M c tiêu c a bài toán là c c ti u hóa con s này. N u yn là m t m u c n đư c phân lo i và g (yn ) phân lo i sai, thì: < 0 ω (yn ) = ω2 , θn = ω1 ˆ g (yn ) = (52) > 0 ω (yn ) = ω1 , θn = ω2 ˆ ng v i m i trư ng h p, ta tăng thêm ho c gi m đi m t đ i lư ng dương đ đi u ch nh hàm phân l p như mong mu n: > 0 ω (yn ) = ω1 , θn = ω1 ˆ g (yn ) = (53) < 0 ω (yn ) = ω2 , θn = ω2 ˆ N u g i Y1 (w) là t p các m u h c có θn = ω1 b phân l p sai, và Y2 (w) là t p các m u h c có θn = ω2 , hàm đo hi u su t đư c đ nh nghĩa là: Jperceptron (w) = − wT y + wT y (54) y∈Y1 y∈Y2 Phép l y đ o hàm theo w cho ta: Jperceptron (w) = − y+ y (55) y∈Y1 y∈Y2 Thay (55) vào (51) ta có lu t h c cu i cùng:   w (i + 1) = w (i) − η − y+ y (56) y∈Y1 y∈Y2 16
  • 17. Hình 6: L đư c đ nh nghĩa là kho ng cách tr c giao gi a m t ph ng quy t đ nh và đi m m u g n nó nh t. V trí c a m t ph ng quy t đ nh đư c xác đ nh b i m t t p con các đi m m u, hay còn g i là các vector h tr . v i i là bi n đ m vòng l p. Lu t h c s ng ng đư c c p nh t khi w (i + 1) = w (i), nói cách khác là t t c các m u trong t p hu n luy n đư c phân vào đúng l p. Ta g i nh ng t p hu n luy n đ t đư c đi u ki n trên là kh phân tuy n tính 21 . 2.3.4 Máy phân l p dùng vector h tr N n t ng cơ s c a máy phân l p dùng vector h tr khá gi ng v i n n t ng perceptron. C hai máy phân l p đ u là tuy n tính, gi đ nh r ng d li u kh phân tuy n tính. Trong trư ng h p c a perceptron, l i gi i ph thu c vào tr kh i t o ban đ u w và w0 , cũng như trình t h c các đi m m u (trong trư ng h p h c t ng m u đơn). N u có nhi u l i gi i có th cho m t bài toán phân l p, ta mong mu n tìm ra l i gi i v i t l l i th p nh t. Máy phân l p dùng vector h tr gi i quy t v n đ này thông qua khái ni m l 22 , đư c đ nh nghĩa là kho ng cách nh nh t gi a m t ph ng quy t đ nh và m t trong các đi m m u. Trư c khi xây d ng hàm đo hi u su t, khái ni m l c n đư c làm rõ trên khía c nh hình h c gi i tích. Nh c l i hàm tuy n tính phân l p có d ng phương trình siêu ph ng: g (z) = wT z + w0 (57) v i w là vector tr ng s , và w0 là h s t do so v i g c t a đ . Vector x đư c gán cho l p ω1 n u g (z) ≥ 0 và đư c gán cho l p ω2 trong trư ng h p ngư c l i. Xét hai đi m zA và zB cùng thu c siêu ph ng. Vì g (zA ) = g (zB ) = 0 nên ta có wT (zA − zB ) = 0, đ ng nghĩa v i vector w tr c giao v i m i vector n m trong siêu ph ng, đ ng th i cũng có nghĩa vector w xác đ nh phương c a siêu ph ng phân cách. N u m t đi m x n m trên đư ng biên phân cách thì g (z) = 0, t đó ta cũng có kho ng cách tr c chu n t g c t a đ đ n m t phân cách wT z w0 =− (58) w w Có th nh n th y h s t do quy t đ nh v trí c a m t ph ng phân cách. 21 linear separable 22 margin 17
  • 18. Hình 7: Hàm tuy n tính phân l p trong không gian hai chi u. M t ph ng quy t đ nh (màu đ ) vuông góc v i vector w, v i đi m đ t đư c quy t đ nh b i h s t do w0 . Kho ng cách đ i s t m t đi m đ n m t ph ng quy t đ nh là g (z) / w . 18
  • 19. Ngoài ra, giá tr g (z) cho phép xác đ nh kho ng cách đ i s t m t đi m z đ n m t ph ng quy t đ nh. Gi s g i z⊥ là nh c a z qua phép chi u tr c giao lên m t ph ng quy t đ nh, ta có w z = z⊥ + r (59) w Nhân hai v v i wT và sau đó c ng hai v v i w0 , m t khác g (z) = wT z + w0 và g (z⊥ ) = wT z⊥ + w0 = 0, ta có g (z) r= (60) w Như v y l c a m t ph ng quy t đ nh là đ i lư ng r. Trong máy phân l p dùng vector h tr , m t ph ng quy t đ nh đư c l a ch n sao cho th a mãn tiêu chí l c a nó đ t c c đ i. M c nhiên các máy tuy n tính phân l p ch có kh năng x lý hai l p ω1 ω2 , hay theo (24) ta có θn = {+1, −1}. Gi s đã có m t t p các l i gi i có th phân l p đúng hoàn toàn các m u h c (m t h các m t ph ng phân cách ch ng h n), tương đương v i θn g (zn ) > 0. Kho ng cách t m t đi m xn đ n m t ph ng phân cách b ng θn g (xn ) θn wT zn + w0 = (61) w w chính là kho ng cách tr c giao đ n đi m zn trong t p hu n luy n. Đ t i ưu đ đo hi u su t, c n hi u ch nh tham s w, w0 sao cho l đ t c c đ i. Di n đ t d ng t i ưu toán h c: 1 argmax min θn wT zn + w0 (62) w,w0 w n đây ta c n l a ch n ba b tham s w, w0 và n sao cho bi u th c trên đ t c c đ i. Đ i lư ng 1/ w đư c đưa ra ngoài vì nó đ c l p v i vi c l a ch n n. Hàm t i ưu trên khá ph c t p và s đư c chuy n đ i v d ng tương đương nhưng d gi i hơn, b ng cách l y t l w → κw và w0 → κw0 nhưng kho ng cách t m t ph ng quy t đ nh đ n đi m m u wn v n không đ i, b ng θn g (zn ) / w . Gi s ta ch n đư c t l sao cho θn wT zn + w0 = 1 (63) v i xn là đi m m u g n m t ph ng phân cách nh t. Do đó, m i đi m m u s th a b t phương trình θn wT zn + w0 ≥ 1, n = 1, . . . , NS (64) hay còn đư c g i là d ng chính t c 23 c a siêu ph ng quy t đ nh. Vì luôn luôn có ít nh t hai m u khác l p trong t p hu n luy n, đ ng th c luôn x y ra. T i ưu hàm (62) gi đây đư c chuy n v d ng c c ti u hàm 1 2 argmin w (65) w,w0 2 23 canonical 19
  • 20. D ng chu n24 Bài toán quy v quy ho ch b c hai, v i hàm c n c c ti u và m t t p các b t phương trình ràng bu c. Đ gi i bài toán t i ưu có ràng bu c, ta bi u di n l i b ng cách s d ng b i Lagrang an ≥ 0 v i m t b i s an ng v i m i m t ràng bu c b t phương trình trong (64): N 1 2 L (w, b, a) = w − an θn wT zn + w0 − 1 (66) 2 n=1 T v i a = {a1 , . . . , aN } . C c ti u L (w, b, a) tương đương c c ti u v ph i th nh t và c c đ i v ph i th hai (vì sao?) L y đ o hàm ∂L/∂w và ∂L/∂w0 ta đư c: N w= an θn zn (67) n=1 N 0= an θn (68) n=1 Ch m t s trong t ng s an có giá tr l n hơn 0. Các đi m m u zn tương ng v i an > 0 chính là các vector h tr n m trên l phân cách. Khái ni m h tr có th hi u là l c a siêu ph ng quy t đ nh đư c h tr b i (hay đư c “đ ” b i) các vector m u đó. Các vector này do đó th a mãn (64) v i d u đ ng th c x y ra. H s t do w0 = wzn − θn và thư ng đư c tính trung bình t ng c a t t c các vector h tr : NSV 1 b= (wzn − θn ) (69) NSV i=1 D ng đ i ng u25 Thay (67) và (68) vào (66) ta có bi u di n đ i ng u c a hàm c c ti u L (w, b, a): N N N 1 L (a) = an − an am θn θm k (zn , zm ) (70) n=1 2 n=1m=1 an ≥ 0, n = 1, . . . , NS N (71) an θn = 0. n=1 v i hàm h ch k (xn , xm ) = xT xm là k t qu tích vô hư ng gi a hai vector 26 n đi m m u. Vi c gi i nh ng hàm t i ưu b c hai đã có s n công c , và không đư c đ c p trong tài li u này. 24 primal form 25 dual form 26 kernel function 20
  • 21. Nh n th y r ng hàm t i ưu ban đ u (65) có M bi n s v i M là s chi u c a không gian m u và đ ph c t p thu t toán c a bài toán quy ho ch b c hai là Θ M 3 . Khi (65) đư c chuy n v d ng (70), s bi n s là N , v i N là s lư ng đi m m u trong t p hu n luy n. D ng đ i ng u s tr nên b t l i khi N l n, nhưng phát bi u l i bài toán có d a trên khái ni m hàm h ch, có kh năng phân l p trong không gian phi tuy n (s trình bày bên dư i), đ ng th i làm vi c đư c v i nh ng t p m u mà s chi u l n hơn (có th hơn nhi u cho đ n vô h n chi u) s lư ng đi m m u. Đ phân lo i m t m u d a trên mô hình h c v a đư c hu n luy n trên, ta xét d u c a g (z) trong phương trình (57). Bi u di n theo các tham s {an } và hàm h ch cho ta: N g (z) = an θn k (z, zn ) + w0 (72) n=1 Như đã kh ng đ nh trong bi u di n d ng chu n, ch có an tương ng v i các vector h tr là khác 0. M t khi đã đư c hu n luy n, ta ch quan tâm đ n các vector h tr và b qua các đi m m u khác. Phân l p phi tuy n Hai thu t toán perceptron và phân l p dùng vector h tr đ u đư c xây d ng trên gi thi t d li u kh phân tuy n tính. Nói cách khác, hai phân l p ω1 và ω2 có th đư c phân tách trong không gian m u b ng m t siêu ph ng. Trong th c t có nhi u trư ng h p d li u đư c phân b ph c t p hơn, như đan xen l n nhau gi a hai l p, phân b xo n,... Đ i v i các bài toán phi tuy n như v y, phương pháp h ch27 đư c s d ng đ gi i quy t d li u phi tuy n b ng các thu t toán phân l p tuy n tính. C th , d li u trong không gian phi tuy n hi n t i đư c ánh x sang không gian có s chi u đ l n sao cho d li u có th đư c phân l p b ng thu t toán phân l p tuy n tính. Như v y, phân l p tuy n tính trong không gian m i tương đương v i phân l p phi tuy n trong không gian ban đ u. Ta g i φ (z) là m t ánh x vào không gian đ c trưng có tính ch t như v y. Ti p theo, c n đ nh nghĩa m t đ đo đ đ nh lư ng s tương đ ng gi a hai vector trong không gian đ c trưng b ng tích vô hư ng: T k (z, z ) = φ (z) φ (z ) (73) D th y k (z, z ) = k (z , z) và trong trư ng h p đơn gi n nh t ta có φ (z) = z, nên k (z, z ) = zT z . V y ý tư ng c a phương pháp h ch có l i ích gì trong vi c gi i bài toán phân l p dùng vector h tr ? Trong trư ng h p d li u phi tuy n, ta thay th z b ng φ (z) đ thu t toán tuy n tính có th phân lo i đư c. Công th c (57) tr thành g (z) = wT φ (z) + w0 (74) 27 kernel methods 21
  • 22. và công th c (70) tr thành: N N N 1 L (a) = an − an am θn θm k (zn , zm ) (75) n=1 2 n=1m=1 v i công th c (73) xu t hi n trong hàm t i ưu. Rõ ràng là thay vì tính toán T tư ng minh φ (z), φ (z ), và tính tích vô hư ng gi a chúng φ (z) φ (z ), ta có th thay th b ng hàm h ch k (z, z ) đơn gi n hơn. V m t toán h c, (73) đư c đ m b o b ng đ nh lý Mercer, phát bi u r ng b t kỳ m t hàm không âm, liên t c trong mi n xác đ nh, và đ i x ng k (z, z ) có th đư c bi u di n b ng tích vô hư ng trong không gian cao chi u. Tính ch t trên đư c mình h a trong m t s ví d ti p theo đây. Trư c tiên ta ph i xây d ng các hàm h ch. Hư ng ti p c n th nh t là l a ch n ánh x φ (z) và sau đó dùng chúng đ tìm h ch tương ng. Công th c hàm h ch cho không gian đ u vào m t chi u: M T k (z, z ) = φ (z) φ (z ) = φi (z) φ (z ) (76) i=1 v i φi (z) là các hàm cơ s . [hình] Cũng có th xây d ng hàm h ch tr c ti p, b ng cách ch n m t hàm sao cho nó tương đương v i tích vô hư ng trong không gian đ c trưng cao chi u. L y ví d : 2 k (z, x) = zT x (77) Trong trư ng h p không gian m u hai chi u z = (z1 , z2 ), tri n khai theo hàm h ch và sau đó gom l i, ta đư c bi u di n c a tích vô hư ng: 2 2 k (z, x) = zT x = (z1 x1 + z2 x2 ) = z1 x2√ 2z1 z1 z2 x2 + z√x2 2 1+ 2 2 2 (78) = z1 , 2z1 z2 , z2 x2 , 2x1 x2 , x2 2 2 1 2 T = φ (z) φ (x) 2 √ 2 D th y ánh x φ (z) = z1 , 2z1 z2 , z2 bao g m t t c các đa th c b c hai có th cùng v i tr ng s . Ta g i (77) là hàm h ch đa th c b c hai. M t hàm h ch thông d ng khác là h ch Gauss 2 z−z k (z, z ) = exp − (79) 2σ 2 22
  • 23. Hình 8: Phân l p d li u hai l p trong không gian m u hai chi u v i các vector h tr đư c đánh d u b ng khoanh tròn, và các đư ng đ ng m c có giá tr g (z) b ng nhau. 2.3.5 M ng neuron truy n th ng 3 H c không giám sát 3.1 Tinh gi n đ c trưng 3.1.1 PCA - Phân tích thành ph n chính28 K thu t phân tích thành ph n chính đư c s d ng r ng rãi trong lĩnh v c gi m chi u không gian29 , nén có m t mát thông tin30 , rút trích đ c trưng31 , và ki n hóa d li u32 . PCA còn đư c bi t đ n v i tên g i phép bi n đ i Karhunen-Loève. T hai phương di n khác nhau, PCA đư c đ nh nghĩa và xây d ng theo hai cách. Th nh t, PCA là phép chi u tr c giao d li u lên m t không gian tuy n tính v i s chi u th p hơn, hay còn g i là không gian con chính 33 , sao cho đ phân tán c a d li u sau phép chi u đ t c c đ i. Th hai, PCA cũng có th đư c đ nh nghĩa là phép chi u tuy n tính làm c c ti u phí t n trung bình, chính là trung bình t ng bình phương kho ng cách 34 gi a các đi m m u và nh c a nó qua phép chi u. Ta s xem xét c hai khía c nh này. 28 principal component analysis 29 dimensionality reduction 30 lossy data compression 31 feature extraction 32 data visualization 33 principal subspace 34 mean squared distance 23
  • 24. C c đ i hóa đ phân tán N Xét t p d li u v i các quan sát {xn }n=1 , và xn là m t vector trong không gian Euclid v i s chi u D. M c tiêu c a ta là chi u d li u vào không gian có s chi u M < D đ ng th i t i đa hóa đ phân tán c a đi m nh. Ta gi s s chi u M đư c bi t trư c. Trư c tiên xét phép chi u lên không gian m t chi u M = 1. Dùng vector u1 v i s chi u D có th xác đ nh đư c hư ng c a không gian đích. Vì ch quan tâm đ n chi u, ta ch n u1 là vector đơn v , uT u1 = 1. Qua phép chi u, m i 1 đi m nh xn có nh uT xn . L y trung bình c a nh chi u ta đư c uT x v i x là 1 1 trung bình c a t p m u N 1 x= xn (80) N n=1 Đ phân tán c a d li u sau chi u b ng N 1 2 uT xn − uT x = uT Su1 (81) N n=1 1 1 1 v i S là ma tr n hi p phương sai c a d li u ban đ u N 1 T S= (xn − x) (xn − x) (82) N n=1 Ta ph i c c đ i đ phân tán d li u sau chi u uT Su1 theo bi n u1 . Đ ngăn 1 ch n u1 → ∞, ta có thêm ràng bu c t lúc đ u uT u1 = 1. K t h p hàm t i 1 ưu và ràng bu c tương ng b ng b i Lagrang ta có c c đ i hàm không ràng bu c uT Su1 + λ1 1 − uT u1 1 1 (83) L y đ o hàm theo u1 đ tìm giá tr c a u1 mà t i đó (83) đ t c c đ i Su1 = λ1 u1 (84) Đây chính là phương trình vector riêng35 theo ma tr n S. N u nhân bên trái hai v cho uT 1 uT Su1 = λ1 1 (85) s nh n th y đ phân tán (v trái) đ t c c đ i khi u1 là vector riêng v i λ1 là tr riêng l n nh t tương ng. Vector riêng này đư c g i là thành ph n chính th nh t. Trong trư ng h p gi m chi u d li u v M > 1, phép chi u t i ưu sao cho đ phân tán d li u sau chi u đ t c c đ i đư c xác đ nh b ng m t t p M các M M vector riêng {ui }i=1 ng v i M tr riêng {λi }i=1 l n nh t gi i t phương trình vector riêng trên ma tr n hi p phương sai S. 35 eigenvector equation 24
  • 25. C c ti u hóa đ l i 3.2 Gom c m 3.2.1 Thu t toán K-means 3.2.2 H n t p Gauss 25