SlideShare a Scribd company logo
PRML輪読会 2. 確率分布

2012.9.24    @americiumian
発表概要
   2.1   二値変数
   2.2   多値変数
   2.3   ガウス分布
   2.4   指数型分布族
   2.5   ノンパラメトリック法




                       2
この章の目的
   密度推定
       観測値の有限集合𝑥1 , … , 𝑥 𝑁 が与えられた時,確率変数𝑥
        の確率分布𝑝(𝑥)をモデル化すること
           このような確率分布は無限に存在しうる
       パラメトリック
           分布の形を仮定し,観測値に合わせてパラメータを調整する
            手法
       ノンパラメトリック
           分布の形を仮定せず,観測値によって分布を決める手法



                                          3
4   2.1 二値変数
    •   ベルヌーイ分布
    •   二項分布
    •   ベータ分布
ベルヌーイ分布 – 記号の定義
   二値確率変数 x ∈ {0,1}
       ex. コインを投げて,表なら 𝑥 = 1 裏なら 𝑥 = 0
   パラメータ μ
     𝑥 = 1となる確率
    0≦ 𝜇 ≦1

     𝑝 𝑥 = 1 𝜇) = 𝜇, 𝑝 𝑥 = 0   𝜇 =1− 𝜇
計算例:𝜇 = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
           𝑝 𝑥 = 1 𝜇 = 0.7) = 0.7
           𝑝 𝑥 = 0 𝜇 = 0.7 = 0.3          5
ベルヌーイ分布
   ベルヌーイ分布
     Bern x 𝜇) = 𝜇 𝑥 (1 − 𝜇)1−𝑥 (2.2)
     確率𝜇で表が出るコインを一回投げ,表(裏)が出る確率

   特徴
       𝐸[𝑥] = 𝜇                                 (2.3)
       𝑣𝑎𝑟[𝑥] = 𝜇(1 − 𝜇)                        (2.4)

計算例:𝜇 = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
   𝐵𝑒𝑟𝑛 𝑥 = 1 𝜇 = 0.7) = 0.71 (1 − 0.7)0 = 0.7
   𝐵𝑒𝑟𝑛 𝑥 = 0 𝜇 = 0.7 = 0.70 (1 − 0.7)1 = 0.3            6
複数回観測した時の尤度関数
   設定
    D = 𝑥1 , … , 𝑥 𝑁
     𝑥 𝑖 は,𝑝(𝑥 | 𝜇)から独立に得られたと仮定



   尤度関数
     𝑝 𝐷 𝜇) = 𝑛=1 𝑝 𝑥 𝑛 𝜇) = 𝑛=1 𝜇 𝑥 𝑛 (1 − 𝜇)1−𝑥 𝑛 (2.5)
               𝑁              𝑁

     𝜇が与えられた時,どのくらい,観測したデータが生起
     しやすいかを表す


                                                        7
パラメータ𝜇の値を最尤推定
   対数尤度
                         𝑁

        ln 𝑝(𝐷 | 𝜇) =         ln 𝑝 𝑥 𝑛   𝜇)
                        𝑛=1
                          𝑁

                   =          { 𝑥 𝑛 ln 𝜇 + 1 − 𝑥 𝑛 ln 1 − 𝜇 }      (2.6)
                        𝑛=1
                                               𝑁

                   = ln 𝜇 − ln 1 − 𝜇                𝑥 𝑛 + 𝑁 ln(1 − 𝜇)
                                              𝑛=1
              𝑁
       この式は, 𝑛=1 𝑥 𝑛 のみに依存しているため,この式は,
        この分布の下,このデータに対する十分統計量の例
                                                                        8
パラメータ𝜇の値を最尤推定
   最尤推定
       ln 𝑝 𝐷           𝜇) を𝜇で偏微分して0とおいて解く
                     1    𝑁
       𝜇   𝑀𝐿   =        𝑛=1   𝑥𝑛   (2.7)
                     𝑁
           サンプル平均と呼ばれる


   結果の違った見方
       データ集合中で,𝑥 = 1になる回数を𝑚とすると,
                𝑚       データ集合中での表の観測値の割合が
         𝜇 𝑀𝐿 =   (2.8)
                𝑁       表が出る確率となる
                                              9
二項分布
   記号の定義
       𝑚 : 大きさ𝑁のデータ集合のうち,𝑥 = 1となる観測値の数
   二項分布
                              𝑁
       𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) =       𝑚
                                  𝜇 𝑚 (1 − 𝜇) 𝑁−𝑚   (2.9)
        
            𝑁
                =
                      𝑁!                            (2.10)
            𝑚       𝑁−𝑚 !𝑚!

       確率𝜇で表が出るコインを𝑁回投げた時,
        表が出る回数𝑚の確率分布
   特徴
       𝐸[𝑚] = 𝑁𝜇                                   (2.11)
       𝑣𝑎𝑟[𝑚] = 𝑁𝜇(1 − 𝜇)                           (2.12)
                                                              10
二項分布




       11
ベータ分布
   ベルヌーイ分布のパラメータ𝜇の最尤推定
     3回表が出ると,以降ずっと表が出る?                                         𝑁
                                                        1
     過学習の問題                                𝜇   𝑀𝐿    =               𝑥𝑛
                                                        𝑁
                                                                𝑛=1


   ベイズ主義的に扱う
     事前分布𝑝(𝜇)を導入する必要性                  𝑁
                                                     𝑥 𝑛 (1 −
                          𝑝 𝐷   𝜇) =            𝜇               𝜇)1−𝑥 𝑛
     事後分布が事前分布と同様の
                                       𝑛=1
      形式となる事前分布を選びたい
           共役性
       𝜇と(1 − 𝜇) のべきに比例する事前分布を導入

                                                                      12
ベータ分布

                           Γ(a + b) 𝑎−1
         𝐵𝑒𝑡𝑎 𝜇    𝑎, 𝑏) =          𝜇   (1 − 𝜇) 𝑏−1 (2.13)
                           Γ a Γ(b)

   特徴
                  𝑎
       𝐸[𝜇] =                         (2.15)
                 𝑎+𝑏
                             𝑎𝑏
       𝑣𝑎𝑟[𝜇] =                       (2.16)
                       𝑎+𝑏 2 (𝑎+𝑏+1)
       𝑎, 𝑏は,𝜇の分布を決めるので,ハイパーパラメータと
        呼ばれる

                                                             13
ベータ分布




        14
事後分布を求める
   事前分布
                        Γ(a + b) 𝑎−1
      𝐵𝑒𝑡𝑎 𝜇    𝑎, 𝑏) =          𝜇 (1 − 𝜇) 𝑏−1
                        Γ a Γ(b)
   尤度関数
                          𝑁
      𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) =         𝜇 𝑚 (1 − 𝜇) 𝑙       (𝑙 = 𝑁 − 𝑚)
                          𝑚
   事後分布
                             Γ(m + a + b + l)     𝑚+𝑎−1
       𝑝 𝜇     𝑚, 𝑙, 𝑎, 𝑏) =        (1 − 𝜇) 𝑙+𝑏−1
                                              𝜇
                             Γ m + a Γ(b + l)
                                              (2.18)
     𝑥 = 1の観測値が𝑚個,𝑥 = 0の観測値が𝑙個あった時,
      事後分布を求めるには,𝑎を𝑚, 𝑏を𝑙だけ増やせばよい
     𝑎, 𝑏はそれぞれ,𝑥 = 1, 𝑥 = 0の有効観測数と解釈できる
                                                                15
逐次学習
   事後分布の特徴
       事後分布は,事前分布と形式が同じなので,
        事後分布を新たな事前分布として扱える
   逐次学習
       データがひとつづつ与えられ,データが与えられる度に
        パラメータを更新していく学習法
             𝑥1         𝑥2

    𝑝(𝜇)        𝑝(𝜇|𝑥1 )   𝑝(𝜇|𝑥1,2 )


                                        16
逐次学習の例

             x=1を1つ
𝑎=2          観測した時の
𝑏=2          尤度関数
β分布          (N=m=1の
              二項分布)



       𝑎=3
       𝑏=2
      β分布


                  17
逐次学習の長所・短所
   長所
       実時間での学習に利用できる
           毎観測値ごとに事後確率を算出するので,全てのデータが
            なくともよい
       大規模データ集合に有用
           観測値の処理が終わった後,そのデータはもう捨ててよい


   短所
       学習の早さと,正しい解への収束性のトレードオフ

                                         18
𝑥の予測分布
   これまでの議論
      𝑝(𝜇 | 𝐷)の推定
     観測データ集合𝐷から,パラメータ𝜇の確率分布を推定



   ここからの議論
     𝑝(𝑥 = 1 | 𝐷)の推定
     観測データ集合𝐷から,𝑥 = 1となる確率を推定




                                  19
𝑥の予測分布
                         1
        𝑝(𝑥 = 1 | 𝐷) =        𝑝 𝑥=1    𝜇)𝑝 𝜇    𝐷) 𝑑𝜇
                         0
                          1
                    =         𝜇𝑝 𝜇   𝐷) 𝑑𝜇
                         0
                    = 𝑬 𝜇
                        𝐷]                     (2.19)
                       𝑚+ 𝑎
                   =                           (2.20)
                     𝑚+ 𝑎+ 𝑙+ 𝑏
観測値のうち,𝑥 = 1に相当するものの割合
 𝑚, 𝑙がとても大きい時,最尤推定の結果と一致する
     このような特性は,多くの例で見られる
     有限のデータ集合では,事後平均は事前平均と
      μ の最尤推定量の間になる         →演習2.7 20
事後分布の特性
   事後分布(ベータ分布)の分散
                       𝑎𝑏
       𝑣𝑎𝑟 𝜇 =
                  𝑎+𝑏 2 𝑎+𝑏+1
     𝑎 → ∞や𝑏 → ∞の時,分散は0に近づく
     多くのデータを学習すればするほど,
      一般的に事後分布の不確実性は減少する?




                                21
平均・分散の不確実性
   事前平均と事後平均
            𝐸 𝜽 𝜽 = 𝐸 𝐷 [𝐸 𝜽 𝜽 | 𝐷 ]                          (2.21)
       𝜽の事後平均を,データを生成する分布上で平均すると,
        𝜽の事前平均に等しい

   事前分散と事後分散
        𝑣𝑎𝑟 𝜃 𝜃 = 𝐸 𝐷 [𝑣𝑎𝑟 𝜃 𝜃     𝐷]] + 𝑣𝑎𝑟 𝐷 [𝐸 𝐷 𝜃   𝐷]]   (2.24)
        事前分散         事後分散の平均              事後平均の分散
         の平均

       平均的には 事前分散 > 事後分散
           成り立たないデータセットもある
                                                                   22
23   2.2 多値変数
     •   多項分布
     •   ディリクレ分布
例えば
   サイコロを投げる
       6通りの状態がありうる

   1-of-K 符号化法
     K個の状態を取りうる離散変数を扱う際に用いられる
     要素の一つ𝑥 𝑘 のみが1で他が0
       𝐾
      𝑘=1 𝑥 𝑘 = 1を満たす


       ex. サイコロの目を観測値𝑥として,3が出た時
           𝑥 = (0,0,1,0,0,0) 𝑇

                                   24
歪んだサイコロ
   記号の定義
       𝜇 𝑘 ∶ 𝑥 𝑘 = 1となる確率

   正確なサイコロの場合
             1 1 1 1 1 1
       𝝁=( , , , , , )
             6 6 6 6 6 6


   シゴロ賽の場合
                   1 1 1
       𝝁 = (0,0,0, , , )
                   3 3 3


   ピンゾロ賽の場合
       𝝁 = (1,0,0,0,0,0)
                             25
多項分布
   𝑥の分布
                  𝐾
                               𝑥𝑘                   ベルヌーイ分布を2種類以上の
    𝑝 𝑥   𝜇) =         𝜇𝑘           (2.26)
                                                    出力に一般化したもの
                 𝑘=1
   観測値が複数あった場合
     𝑁個の独立な観測値𝑥1 … 𝑥 𝑁
     尤度関数
                       𝑁        𝐾                    𝐾                             𝐾

        𝑝 𝐷   𝜇) =                  𝜇𝑘   𝑥 𝑛𝑘   =         𝜇 𝑘(   𝑛   𝑥 𝑛𝑘 )   =         𝜇𝑘   𝑚𝑘

                      𝑛=1 𝑘=1                       𝑘=1                           𝑘=1             (2.29)
              𝑚𝑘 =              𝑥 𝑛𝑘  : この分布の十分統計量
                                                                                                    26
                           𝑛
𝝁の最尤推定
     制約付き対数尤度最大化
          ラグランジュの未定乗数法を用いる
      𝐾                      𝐾
                                             𝜇 𝑘 = 1 に代入して,
𝑓=         𝑚 𝑘 ln 𝜇 𝑘 + 𝜆         𝜇𝑘−1
                                         𝑘
     𝑘=1                    𝑘=1                      𝑚𝑘
             𝜕𝑓      𝑚𝑘                            −    =1
                  =     + 𝜆                          𝜆
             𝜕𝜇 𝑘    𝜇𝑘                      𝑘
             𝜕𝑓                              −         𝑚𝑘 = 𝜆
                  = 0 より,
             𝜕𝜇 𝑘                                  𝑘
                        𝑚𝑘                          𝜆 = −𝑁
              𝜇𝑘 =−                                       𝑚𝑘
                        𝜆                        𝜇 𝑘 𝑀𝐿 =
                                                           𝑁    27
多項分布
                                               𝐾
                                     𝑁                   𝑚𝑘
    𝑀𝑢𝑙𝑡 𝑚1 , … 𝑚 𝐾   𝝁, 𝑁) =                       𝜇𝑘        (2.34)
                                𝑚1 𝑚2 … 𝑚 𝐾
                                              𝑘=1
                           𝑁               𝑁!
           ただし,                   =
                      𝑚1 𝑚2 … 𝑚 𝐾   𝑚1 ! 𝑚2 ! … 𝑚 𝐾 !
                           𝐾

                                𝑚𝑘 = 𝑁
                          𝑘=1

   パラメータ𝜇と観測値の総数𝑁が与えられた条件の下,
    𝑚1 … 𝑚 𝐾 の同時確率


                                                                       28
ディリクレ分布
   多項分布の𝜇 𝑘 についての事前分布
       共役分布の形は以下の通り
                       𝐾
                                    𝛼 𝑘 −1                               (2.37)
         𝑝 𝝁   𝜶) ∝            𝜇𝑘
                      𝑘=1
    ただし,0 ≦ 𝜇 𝑘 ≦ 1, 𝑘 𝜇 𝑘 = 1
    ハイパーパラメータ 𝜶 = (𝛼1 , … , 𝛼 𝐾 ) 𝑇

   ディリクレ分布
                                                      𝐾
                                        Γ(𝛼0 )
               𝐷𝑖𝑟 𝝁           𝜶) =                        𝜇𝑘   𝛼 𝑘 −1   (2.38)
                                    Γ 𝛼1 … Γ(𝛼 𝐾 )
                                                     𝑘=1
        ただし,𝛼0 =           𝑘   𝛼𝑘
                                                                                  29
共役性の確認
   事前分布
                                          𝐾
                        Γ(𝛼0 )                          𝛼 𝑘 −1
      𝑝 𝝁      𝜶) =                                𝜇𝑘                  (2.38)
                    Γ 𝛼1 … Γ(𝛼 𝐾 )
                                         𝑘=1

   尤度関数
                                     𝐾
                           𝑁
       𝑝 𝐷     𝝁) =
                      𝑚1 𝑚2 … 𝑚 𝐾
                                              𝜇𝑘   𝑚𝑘
                                                                       (2.34)
                                    𝑘=1

   事後分布
    𝑝 𝝁      𝐷, 𝜶) = 𝐷𝑖𝑟 𝝁    𝜶 + 𝒎)
                                              𝐾
             Γ(𝛼0 + 𝑁)
    =                                               𝜇𝑘   𝛼 𝑘 +𝑚 𝑘 −1   (2.41)
      Γ 𝛼1 + 𝑚1 … Γ(𝛼 𝐾 + 𝑚 𝐾 )                                                 30
                                          𝑘=1
31   2.4 指数型分布族
     •   最尤推定と十分統計量
     •   共役事前分布
     •   無情報事前分布
指数型分布族とは
                    𝒙上の指数型分布族 ∶
              𝑝 𝒙   𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
       𝜼:分布の自然パラメータ
       𝒙 : ベクトル or スカラー,離散 or 連続
       𝒖 𝒙 ∶ 𝒙の任意の関数
       𝑔 𝜼 ∶ 正規化係数. 𝑔 𝜼 ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 = 1
   指数型分布族の例
       ベルヌーイ分布
       多項分布                本当に指数型分布族なのか確かめる
                            →指数型分布族の形式で書けるか調べる
       ガウス分布

                                                    32
ベルヌーイ分布は指数型分布族?(1/2)

                  𝒙上の指数型分布族 ∶
            𝑝 𝒙   𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
  𝑝(𝑥 | 𝜇) = Bern x   𝜇) = 𝜇 𝑥 (1 − 𝜇)1−𝑥

𝑝(𝑥 | 𝜇) = exp{𝑥 log 𝜇 + 1 − 𝑥 log 1 − 𝜇 }   右辺の対数の指数をとる
                              𝜇
        = 1 − 𝜇 exp log           𝑥
                           1− 𝜇

                        𝜇
            ∴ 𝜂 = log                   指数型分布族の式と係数比較
                      1− 𝜇
                      1
             𝜇=                                μについて解く
                1 + exp(−𝜂)                              33
                  → ロジスティックシグモイド関数 𝜎(𝜂)
ベルヌーイ分布は指数型分布族?(2/2)

           𝒙上の指数型分布族 ∶
     𝑝 𝒙   𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
                                 𝜇
   𝑝(𝑥 | 𝜇) = 1 − 𝜇 exp log             𝑥
                              1− 𝜇
          𝑝(𝑥 | 𝜂) = 𝜎(−𝜂)exp 𝜂𝑥

              ∴ 𝑢(𝑥) = 𝑥
                ℎ(𝑥) = 1
                𝑔(𝜂) = 𝜎(−𝜂)

  より,ベルヌーイ分布は指数型分布族.
                                            34
多項分布は指数型分布族?(1/8)
                        𝒙上の指数型分布族 ∶
                  𝑝 𝒙   𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
                                                  𝑀
カテゴリカル分布
                                                             𝑥𝑘
                   𝑝(𝒙 | 𝜇) = 𝑚𝑢𝑙𝑡 𝐱      𝜇) =          𝜇𝑘
                                                 𝑘=1
                          𝑀                         𝑀
                                    𝑥𝑘
            = exp ln           𝜇𝑘        = exp           𝑥 𝑘 ln 𝜇 𝑘
                         𝑘=1                      𝑘=1
 ここで 𝜂 𝑘 = ln 𝜇 𝑘 , 𝜼 = (𝜂1 , 𝜂2 , … , 𝜂 𝑀 ) 𝑇 と定義すると,
                                  𝑢(𝒙) = 𝒙
                                ℎ(𝒙) = 1
                                  𝑔(𝜼) = 1

           𝑀                                                          35
 ただし,      𝑘=1   𝜇 𝑘 = 1より,ηは独立ではない
多項分布は指数型分布族?(2/8)
   前スライドのまとめ
     多項分布を指数型分布族の形に書き表すことができた
     しかし,𝜂は独立ではない



   なので
         𝑀
        𝑘=1   𝜇 𝑘 = 1を用いて,𝜇 𝑀 を 𝜇 𝑘 (𝑘 = 1,2, … 𝑀 − 1)で
      表し, 𝜇 𝑀 を消去する
     他にも以下の制約がある
                       𝑀−1

        0 ≦ 𝜇 𝑘 ≦ 1,         𝜇𝑘 ≦1
                                                       36
                       𝑘=1
多項分布は指数型分布族?(3/8)
        𝑀

exp          𝑥 𝑘 ln 𝜇 𝑘                             pp.73 上の式より,
      𝑘=1                                                  𝑀
         𝑀−1                                                     𝑥𝑘 = 1
                                                           𝑘=1
= exp             𝑥 𝑘 ln 𝜇 𝑘 + 𝑥 𝑀 ln 𝜇   𝑀
            𝑘=1
            𝑀−1                        𝑀−1                 𝑀−1

= exp             𝑥 𝑘 ln 𝜇 𝑘 + 1 −            𝑥 𝑘 ln 1 −            𝜇𝑘
            𝑘=1                        𝑘=1                 𝑘=1
            𝑀−1                                          𝑀−1
                                𝜇𝑘
= exp             𝑥 𝑘 ln         𝑀−1          + ln 1 −         𝜇𝑘
                           1−   𝑗=1    𝜇𝑗
            𝑘=1                                          𝑘=1

                                                                          37
多項分布は指数型分布族?(4/8)
                                 𝒙上の指数型分布族 ∶
                      𝑝 𝒙        𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
      𝑀−1                                                  𝑀−1
                             𝜇𝑘
exp         𝑥 𝑘 ln                𝑀−1        + ln 1 −             𝜇𝑘
                      1−         𝑗=1    𝜇𝑗
      𝑘=1                                                  𝑘=1
           𝑀−1                    𝑀−1
                                                      𝜇𝑘
= 1−             𝜇 𝑘 exp                𝑥 𝑘 ln         𝑀−1
                                                 1−   𝑗=1    𝜇𝑗
           𝑘=1                    𝑘=1
よって,
                                                             𝑀−1
                     𝜇𝑘
𝜂 𝑘 = ln              𝑀−1                             1−           𝜇 𝑘 を求めるため,
            1−       𝑗=1    𝜇𝑗
                                                             𝑘=1
                                                           𝜇 𝑘 = ⋯ の形にする         38
多項分布は指数型分布族?(5/8)

                   𝜇𝑘
𝜂 𝑘 = ln            𝑀−1
           1−      𝑗=1       𝜇𝑗

                        𝜇𝑘
exp(𝜂 𝑘 ) =              𝑀−1
                                                     両辺の指数をとる
              1−        𝑗=1 𝜇 𝑗
                            𝑀−1

𝜇 𝑘 = exp(𝜂 𝑘 ) 1 −                𝜇𝑗
                             𝑗=1


𝑀−1                 𝑀−1            𝑀−1

      𝜇𝑘 = 1−                𝜇𝑗          exp(𝜂 𝑘 )   k=1からM-1まで足し合わせる
𝑘=1                 𝑗=1            𝑘=1
                                                                        39
多項分布は指数型分布族?(6/8)

𝑀−1               𝑀−1
                  𝑘=1 exp(𝜂 𝑘 )
      𝜇𝑘 =          𝑀−1
                                    赤字について解く
             1+     𝑘=1 exp(𝜂 𝑘 )
𝑘=1
                         𝑀−1

𝜇 𝑘 = exp(𝜂 𝑘 ) 1 −            𝜇 𝑗 に代入して,
                         𝑗=1


         exp(𝜂 𝑘 )
𝜇𝑘 =      𝑀−1
     1 + 𝑘=1 exp(𝜂 𝑘 )

この式を,ソフトマックス関数,正規化指数関数と呼ぶ.

                                               40
多項分布は指数型分布族?(7/8)
                        𝑀−1                 𝑀−1
                                                                𝜇𝑘
𝑝(𝑥 | 𝜇) = 1 −                𝜇 𝑘 exp             𝑥 𝑘 ln         𝑀−1        ,
                                                           1−   𝑗=1    𝜇𝑗
                        𝑘=1                 𝑘=1
                  𝜇𝑘
𝜂 𝑘 = ln               𝑀−1      ,
        1−         𝜇𝑗 𝑗=1
         exp(𝜂 𝑘 )
𝜇𝑘 =      𝑀−1
     1 + 𝑘=1 exp(𝜂 𝑘 )
           𝑀−1                           𝑀−1
                                         𝑘=1 exp 𝜂 𝑘
⇒ 1−             𝜇𝑘     =1−                𝑀−1              より,
                                    1+     𝑘=1 exp 𝜂 𝑘
           𝑘=1
                                           −1
                        𝑀−1

𝑝 𝒙   𝜼) = 1 +                exp(𝜂 𝑘 )         exp 𝜼 𝑇 𝒙
                        𝑘=1                                                     41
多項分布は指数型分布族?(8/8)
               𝒙上の指数型分布族 ∶
       𝑝 𝒙     𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }

                                          −1
                        𝑀−1

     𝑝 𝒙     𝜼) = 1 +         exp(𝜂 𝑘 )         exp 𝜼 𝑇 𝒙
                        𝑘=1
                                                𝑇
               𝜼 = 𝜂1 , 𝜂2 , … , 𝜂 𝑀−1 , 0
                       𝑢(𝒙) = 𝒙
                    ℎ(𝒙) = 1
                                                    −1
                              𝑀−1

             𝑔(𝜼) =     1+          exp(𝜂 𝑘 )
                              𝑘=1
とすると,多項分布は指数型分布族のひとつ                                        42
ガウス分布は指数型分布族?(1/3)

                         𝒙上の指数型分布族 ∶
                 𝑝 𝒙     𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
                      1             (𝑥 − 𝜇)2
    𝑝 𝑥 𝜇, 𝜎) =               exp −
                  (2𝜋𝜎 2 )1/2         2𝜎 2
         1                 1 2      𝜇      𝜇2
    =             exp − 2 𝑥 + 2 𝑥 − 2
      (2𝜋𝜎 2 )1/2         2𝜎       𝜎      2𝜎

                                                𝑇
        1    1        𝜇2            𝜇/𝜎 2            𝑥
    =           exp − 2 exp
      (2𝜋)1/2 𝜎      2𝜎            −1/2𝜎 2          𝑥2



         1                          𝜂1    𝜇/𝜎 2                    𝑥
ℎ(𝑥) =             𝑔 𝜼        𝜼=       =                 𝒖(𝑥) =
       (2𝜋)1/2                      𝜂2   −1/2𝜎 2                  𝑥2   43
ガウス分布は指数型分布族?(2/3)

      𝜂1    𝜇/𝜎 2
𝜼=       =        2
                    より,
      𝜂2   −1/2𝜎
1
  = (−2𝜂2 )1/2
𝜎
        2
                𝜂1
𝜇 = 𝜂1 𝜎 = −
               2𝜂2

よって,
1       𝜇2
  exp − 2
𝜎      2𝜎
                    𝜂1 2 1
= (−2𝜂2 )1/2 exp −         (−2𝜂2 )
                   4𝜂2 2 2
                   𝜂1 2
= (−2𝜂2 )1/2 exp −                   ← 𝜂で表された!
                   4𝜂2
                                                 44
ガウス分布は指数型分布族?(3/3)

                   𝒙上の指数型分布族 ∶
            𝑝 𝒙    𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }
                                                         𝑇
             1                      𝜂1 2        𝜇/𝜎 2         𝑥
𝑝 𝑥   𝜼) =         (−2𝜂2 )1/2 exp −      exp                      より
           (2𝜋)1/2                  4𝜂2        −1/2𝜎 2       𝑥2

       1
ℎ 𝑥 =
      2𝜋 1/2
                         𝜂1 2
𝑔 𝜂 = (−2𝜂2 )1/2 exp −
                        4𝜂2
     𝜂1       𝜇/𝜎 2               𝑥
𝜼=      =           2
                      , 𝒖 𝑥 =      2
                                     とすると,
     𝜂2    −1/2𝜎                 𝑥

ガウス分布は指数型分布族のひとつ                                                       45
𝜼の値を最尤推定

正規化条件より,
𝑔 𝜼     ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 = 1

𝜼について,両辺の勾配を求めて,                               (fg)’=f’g+fg’

𝛻𝑔 𝜼     ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 + 𝑔 𝜼    ℎ 𝒙 exp 𝜼 𝑇 𝒖 𝒙   𝒖 𝒙 𝑑𝒙 = 0

  𝛻𝑔 𝜼
−      = 𝑔 𝜼       ℎ 𝒙 exp 𝜼 𝑇 𝒖 𝒙    𝒖 𝒙 𝑑𝒙 = 𝐸 𝒖 𝒙
  𝑔 𝜼
𝐸 𝒖 𝒙    = − 𝛻ln 𝑔 𝜼

 𝑢(𝑥)の期待値は,𝑔(𝜂)のみに依存
 (𝑢(𝑥)の𝑛次モーメントは𝑔(𝜂)の𝑛階微分で求められる)                                  46
𝜼の値を最尤推定

独立に同分布に従うデータ集合𝑋 = {𝒙1 , 𝒙2 , … , 𝒙 𝑁 }に対する尤度関数は
                        𝑁                                     𝑁
                                                𝑁 exp
𝑝 𝑿      𝜼) =                ℎ 𝒙𝑛         𝑔 𝜼           𝜼𝑇         𝒖 𝒙𝑛
                       𝑛=1                                   𝑛=1
両辺の対数をとって,
                        𝑁                                           𝑁

ln 𝑝 𝑿     𝜼) =              ln ℎ 𝒙 𝑛 + 𝑁 ln 𝑔(𝜼) + 𝜼 𝑇                  𝒖 𝒙𝑛
                       𝑛=1                                         𝑛=1
(𝜂についての勾配) = 0より,
                              𝑁

𝑁𝛻 ln 𝑔(𝜼       𝑀𝐿 )   +           𝒖 𝒙𝑛 =0
                             𝑛=1
                                   𝑁
                         1
−𝛻 ln 𝑔 𝜼       𝑀𝐿     =                𝒖 𝒙𝑛       → この式を解けば𝜼                   𝑀𝐿 が得られる   47
                         𝑁
                                  𝑛=1
十分統計量
                             𝑁
                        1
−𝛻 ln 𝑔 𝜼        𝑀𝐿   =           𝒖 𝒙𝑛
                        𝑁
                            𝑛=1
𝜼   𝑀𝐿 は     𝑛   𝒖 𝒙 𝑛 のみに依存している

→       𝑛   𝒖 𝒙 𝑛 を,𝑝(𝑥 | 𝜂)の十分統計量と呼ぶ

   十分統計量の例
       ベルヌーイ分布
            𝑢 𝑥 = 𝑥より, 𝑥 𝑛 の総和
       ガウス分布
           𝑢 𝑥 = (𝑥, 𝑥 2 ) 𝑇 より, 𝑥 𝑛 の総和, 𝑥 𝑛 2 の総和
                                                       48
指数型分布族の共役事前分布
   共役事前分布
        尤度関数と掛けて事後分布を求めると,その関数形が同じ
         になるような事前分布.
    指数型分布族
                    𝑁                                      𝑁
                                           𝑁
    𝑝 𝑿     𝜼) =         ℎ 𝒙𝑛    𝑔 𝜼           exp   𝜼𝑇         𝒖 𝒙𝑛
                   𝑛=1                                    𝑛=1
    に対する共役事前分布は,

                                      𝜈
    𝑝 𝜼     𝝌, 𝜈) = 𝑓 𝝌, 𝜈 𝑔 𝜂            exp 𝜈𝜼 𝑇 𝝌

                                                      𝑁
                                𝜈+𝑁
    ∵ 𝑝 𝜼     𝑿, 𝝌, 𝜈) ∝ 𝑔 𝜂          exp       𝜼𝑇         𝒖(𝒙 𝑛 ) + 𝑣𝝌
                                                                          50
                                                     𝑛=1
これまで出てきた共役事前分布

確率分布                  共役事前分布
ベルヌーイ分布(二項分布)         ベータ分布
多項分布                  ディリクレ分布
ガウス分布の平均(分散は既知)       ガウス分布
ガウス分布の精度(平均は既知)       ガンマ分布
ガウス分布の分散(平均は既知)       逆ガンマ分布
ガウス分布(平均・精度が未知)       ガウス-ガンマ分布
多変量ガウス分布の平均(共分散は既知)   ガウス分布
多変量ガウス分布の精度(平均は既知)    ウィッシャート分布
多変量ガウス分布の共分散(平均は既知)   逆ウィッシャート分布
多変量ガウス分布(平均・精度が未知)    ガウス-ウィッシャート分布
                                      51
無情報事前分布
   概要
     その事前分布を用いて得られる事後分布に,
      その事前分布ができるだけ影響しないような事前分布
     事前分布に対する知見がない時に用いられる

   単純に考えると...
       離散変数の時
           K個の状態をとりうるなら,各状態を1/𝐾で取ればよい
       連続変数の時
           分布𝑝 𝑥   𝜆)について, 𝑝(𝜆) = 𝑐𝑜𝑛𝑠𝑡.とすればよい?


                                                   52
無情報事前分布 - 𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.?
   𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.という事前分布の問題点
       𝜆の定義域が有界でないため, 𝜆上での積分が発散する
           変則事前分布(不完全事前分布)と呼ばれる


       非線形な変数変換が上手く行えない
           ex. 𝑝 𝜆 𝜆 が定数だとする.
                    𝜆 = 𝜂 2 と変数変換を行うと,
                                𝑑𝜆
                    𝑝𝜂 𝜂 = 𝑝𝜆 𝜆    = 𝑝 𝜆 𝜂 2 2𝜂 ∝ 𝜂
                                𝑑𝜂
                   η上の密度は定数とはならない.
    事後分布が適切(正規化されている)という条件下であれば
    使われることも多い                                         53
無情報事前分布 - 𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.?
    最尤推定ではこの問題は生じない
        尤度関数𝑝(𝑥 | 𝜆)は𝜆について単純な式だから(? )

例
データ𝑥 𝑖 が,平均𝜇で分散𝜎 2 の正規分布𝑁 𝑥; 𝜇, 𝜎 2 から生じるとする.
σ2 を既知とし,平均𝜇を推定する.
事前分布に𝑝(𝜇) = 𝑐𝑜𝑛𝑠𝑡. の分布を考える.


この時,事後分布は,
p(μ | D)∝p(D | μ)*const.
より,事後確率が最大となるμの解は最尤推定解に一致.
よって,事前確率は推定に影響を与えない.                       54
無情報事前分布の例1
   平行移動不変性を持つ事前分布
           平行移動不変性とは
             𝑝 𝑥 𝜇) = 𝑓(𝑥 − 𝜇)
                       位置パラメータ
           xを定数分移動しても,同じ形式が保たれる
   求めてみよう
    𝐴 ≦ 𝜇 ≦ 𝐵に入る確率と𝐴 − 𝑐 ≦ 𝜇 ≦ 𝐵 − 𝑐に入る確率が等しいので,
        𝐵              𝐵−𝑐                  𝐵
            𝑝 𝜇 𝑑𝜇 =         𝑝 𝜇 𝑑𝜇 =           𝑝 𝜇 − 𝑐 𝑑𝜇
    𝐴                  𝐴−𝑐              𝐴


    この式が任意のA,Bについて成立するため,
    𝑝(𝜇) = 𝑝(𝜇 − 𝑐)                                          55
    よって,𝑝(𝜇)は定数
無情報事前分布の例1
   位置パラメータの例
     ガウス分布の平均𝜇
     μ の共役事前分布はガウス分布𝑁 𝑥  𝜇0 , 𝜎0 )
     σ0 → ∞の極限をとれば,無情報事前分布になる



   事前分布が事後分布に影響を与えていないか
        𝜎2           𝑁𝜎0 2            𝜎0 → ∞
μ𝑁=           𝜇 +
       2+ 𝜎 2 0       2 + 𝜎2
                             𝜇   𝑀𝐿            μ𝑁= 𝜇
    𝑁𝜎     0      𝑁𝜎0                                  𝑀𝐿

                                      𝜎0 → ∞   1       𝑁
                   1      1   𝑁                     = 2
                      2
                        = 2+ 2                 𝜎𝑁 2   𝜎
                   𝜎𝑁    𝜎0  𝜎
                                                            56
無情報事前分布の例2
   尺度不変性を持つ事前分布
       尺度不変性とは
                1  𝑥
        𝑝 𝑥 𝜎) = 𝑓
                𝜎  𝜎
                尺度パラメータ
       xを定数倍だけ拡大縮小しても,同じ形式が保たれる
   求めてみよう
    𝐴 ≦ 𝜎 ≦ 𝐵に入る確率と𝐴/𝑐 ≦ 𝜎 ≦ 𝐵/𝑐に入る確率が等しいので,
       𝐵           𝐵/𝑐            𝐵
                                    1   𝜎
         𝑝 𝜎 𝑑𝜎 =      𝑝 𝜎 𝑑𝜎 =       𝑝   𝑑𝜎
     𝐴            𝐴/𝑐           𝐴   𝑐   𝑐
    この式が任意のA,Bについて成り立つので,
         1  𝜎                                  57
    𝑝 𝜎 = 𝑝
         𝑐  𝑐
無情報事前分布の例 2-2
   求めてみよう(続き)
    したがって,𝑝(𝜎) ∝ 1/𝜎

   特徴
    変則事前分布となる
     𝑝 ln 𝜎 = 𝑐𝑜𝑛𝑠𝑡.
                  1                𝑎
           p σ ∝ より,𝑝 𝜎 =             𝑎は定数 とおき,
                  σ                𝜎
                                         𝑑𝜎
            t= ln 𝜎と変数変換をすると,            𝑑𝑡
                                              = 𝜎より,
                        𝑑𝜎     𝑎
            𝑝 𝑡 = 𝑝 𝜎        = 𝜎 σ=const.
                        𝑑𝑡
            ∴𝑝 ln 𝜎 = 𝑐𝑜𝑛𝑠𝑡.

                                                       58
無情報事前分布の例1
   尺度パラメータの例
       𝜇を考慮済みのガウス分布の標準偏差σ
         𝑁(𝑥 | 𝜇, σ2 ) ∝ σ−1 exp {−(𝑥 /𝜎)2 }           (𝑥 = 𝑥 − 𝜇)
       精度𝜆 = 1/𝜎 2 を考え,密度を変換すると
                       1        1
                  𝑝 𝜎 ∝ ⇒ 𝑝 𝜆 ∝
                       𝜎        𝜆
   事前分布が事後分布に影響を与えていないか
                            𝑎0 = 0, 𝑏0 = 0         𝑁
               𝑁
    𝑎 𝑁 = 𝑎0 +                                 𝑎𝑁=
               2                                   2

              𝑁             𝑎0 = 0, 𝑏0 = 0          𝑁
    𝑏 𝑁 = 𝑏0 + 𝜎 𝑀𝐿 2                          𝑏 𝑁 = 𝜎 𝑀𝐿 2
              2                                     2                59
計算の補足
                  1       1
             𝑝 𝜎 ∝ ⇒ 𝑝 𝜆 ∝ の証明
                  𝜎        𝜆
                                    2
             1           𝑥− 𝜇
 𝑝 𝜎 =           1 exp −  2𝜎 2
         2𝜋𝜎 2   2
 𝜆 = 1/𝜎 2 とおくと,
      −1/2 ,
               𝑑𝜎   1 −3
 𝜎= 𝜆             =− 𝜆 2
               𝑑𝜆   2
 したがって,
           1
          𝜆2           𝜆 𝑥− 𝜇   2         1 −3/2
 𝑝 𝜆 =         1 exp −                  −   𝜆
                          2               2
        2𝜋     2
       1
 𝑝 𝜆 ∝                                             60
       𝜆
61   2.5 ノンパラメトリック法
     •   ヒストグラム密度推定法
     •   カーネル密度推定法
     •   最近傍法
ノンパラメトリック法

      パラメトリック : 少数のパラメータから
                確率変数の分布の形状を決める
    ノンパラメトリック : 分布の形状が制限されず,
                データによって形状が決まる

   パラメトリックなアプローチ
                      仮定した分布が適切でない場合
       確率分布の形状を仮定    予測性能が悪くなりうる

   ノンパラメトリックなアプローチ
                      分布の形状について
       確率密度関数の形が
        データに依存して決まる   わずかな仮定しかない

                                   62
ヒストグラム密度推定法
         記号の定義
           𝑥 ∶    連続変数
           ∆𝑖 ∶   𝑖番目の幅
           𝑛𝑖 ∶   𝑖番目の観測値の数
           𝑁 ∶    観測値の総数


         確率密度
                      𝑛𝑖
             𝑝𝑖 =
                     𝑁∆ 𝑖


                               63
ヒストグラム密度推定法
   ∆の値による推定の変化
       ∆は適切な値に設定しないと分布の特徴を捉えきれない




                               64
ヒストグラム密度推定法
   利点
     一度ヒストグラムを求めると,元データを廃棄できる
      →大規模データに有利
     データが逐次的に与えられた時に容易に適用できる

   欠点
     推定した密度が区間の縁で不連続になる
     次元数が増えると,指数的に区間の総数が増え,計算
      規模が増大する(次元の呪い)

ヒストグラム法は1次元か2次元のデータの可視化には役に立つが
他のほとんどの密度推定の応用問題には適さない
                                 65
ヒストグラム密度推定法
   ヒストグラム密度推定法から分かること
       特定の位置の確率密度を推定するにはその点の近傍の
        データ点も考慮すべき
         近傍の特性は区間によって定義されている
         区間の幅→平滑化パラメータ



       平滑化パラメータの値は,大きすぎず,小さすぎず適切な
        値にすべき
           cf. 多項式曲線フィッティングのモデル複雑度の選択


                                         66
近傍を考慮した密度推定
   目的
       ある𝐷次元のユークリッド空間中の未知の確率密度𝑝 𝑥 から,
        観測値の集合が得られている.この集合から𝑝(𝑥)を推定
xを含むある小さな領域Rに割り当てられた確率Pは

𝑃=          𝑝 𝒙 𝑑𝒙
        𝑅
p(x)から得られたN個の観測値からなるデータ集合を集める
各データ点が領域R中にある確率はP
→R内の点の総数Kは二項分布に従う
                  𝑁!
Bin K N, P) =            𝑃 𝐾 (1 − 𝑃) 𝑁−𝐾
              𝐾! 𝑁 − 𝐾 !
                                           67
近傍を考慮した密度推定

𝐸[𝐾/𝑁] = 𝑃
𝑣𝑎𝑟[𝐾/𝑁] = 𝑃(1 − 𝑃)/𝑁
Nが大きい時,𝑣𝑎𝑟 𝐾/𝑁 ≒ 0より,
𝐾 ≅ 𝑁𝑃
また,Rが,確率密度p(x)がこの領域内でほぼ一定とみなせるほど
十分に小さいと仮定できる時,
P≅ 𝑝 𝒙 𝑉     (ただし,𝑉は𝑅の体積)
よって,
       𝐾       領域Rは近似的に密度が一定とみなせるほど小さく
𝑝(𝑥) =
       𝑁𝑉      二項分布が鋭く尖るほど十分な量のKが存在する
                                     68
近傍を考慮した密度推定

                    𝐾
             𝑝(𝑥) =
                    𝑁𝑉

Vを固定し,Kを推定               Kを固定し,Vを推定



カーネル密度推定法                K近傍法



  Nが大きくなる時Vが縮小し,Kが大きくなるなら,
  N→∞で,どちらも真の確率密度に収束する                69
カーネル密度推定法
   記号の定義
       𝑥   ∶ 確率密度を求めたいデータ点
       𝑅   ∶ 𝑥を中心とした超立方体
                           1
                1, 𝑢 𝑖 ≦     ,   𝑖 = 1,2, … 𝐷の時
       𝑘 𝑢 =              2
                0,それ以外の時
         カーネル関数の一例
         Parzen窓と呼ばれる
         𝑘((𝒙 − 𝒙 𝑛 )/ℎ)は,xを中心とする一変がhの立方体の内部に,
          データ点𝒙 𝑛 があれば1, そうでなければ0となる関数


                                                  70
カーネル密度推定法

立方体内部の総点数は                         結果の解釈
      𝑁                              1.求めたいデータ点の近傍
             𝒙− 𝒙𝑛
𝐾=         𝑘                          (超立方体の範囲)にある
              ℎ
     𝑛=1                              データ点の数を考慮
      𝐾
𝑝 𝑥 =    , 𝑉 = ℎ 𝐷 より,
      𝑁𝑉
                                     2.
                                       各データ点の近傍に,
推定確率密度は                               求めたいデータ点を含む
             𝐷
       1           1    𝒙− 𝒙𝑛         データ点の数を考慮
𝑝(𝑥) =              𝐷 𝑘
       𝑁          ℎ      ℎ
            𝑛=1


                                                    71
カーネル密度推定法
   Parzen窓の問題点
       立方体の”縁”で確率密度が不連続となってしまう
   解決策
       ガウスカーネルを使う
                                         2
                            𝑥 𝑖 − 𝑥𝑗
        𝑘 𝑥 𝑖, 𝑥𝑗   = exp −
                               2ℎ2
       確率密度モデルは以下の通り
                      𝑁                                2
               1             1              𝑥 𝑖 − 𝑥𝑗
        𝑝(𝑥) =                        exp −
               𝑁           2𝜋ℎ2   1/2          2𝜎 2
                     𝑛=1

                                                           72
カーネル密度推定法
   ℎの値による推定の変化
       小さくしすぎるとノイズが多くなり,大きくしすぎると過剰
        に平滑化されてしまう




                                      73
カーネル密度推定法
   カーネル関数
       カーネル関数は,以下の条件を満たす任意の関数
        𝑘(𝒖) ≧ 0
          𝑘 𝒖 𝑑𝒖 = 1


   カーネル密度推定法の利点・欠点
     訓練段階では単に訓練集合を保存しておけばよい
     密度の評価にかかる計算コストがデータ集合の大きさ
      に比例

                                 74
最近傍法
   カーネル密度推定法の問題点
       カーネル幅(密度推定の粒度)を決めるパラメータℎが
        すべてのカーネルで一定となっている
         ℎが大きいと,全体的に平滑化される
         ℎが小さいと,全体的にノイズの多い推定




   解決策
       データ空間内の位置に応じてℎを変える
        =最近傍法

                                    75
K近傍法

                𝐾    Kを固定し,Vを推定
         𝑝(𝑥) =                   K近傍法
                𝑁𝑉

   K近傍法
       𝑝(𝑥)を推定したい点xを中心とした小球を考え,その
        半径を,𝐾個のデータ点を含むようになるまで広げる.
                              𝐾
       この時の体積を𝑉とし, 𝑝(𝑥) =       から密度推定
                              𝑁𝑉




                                          76
K近傍法
   Kの値による推定の変化
       小さくしすぎるとノイズが多くなり,大きくしすぎると過剰
        に平滑化されてしまう




                                      77
K近傍法を用いたクラス分類
   目的
       クラス𝐶 𝑘 中に𝑁 𝑘 個の点があり,点の総数は𝑁である
        データ集合に対し,新たな点𝑥を分類する
   分類方針
     𝑥を中心として,クラスを考えずに𝐾個の点を含む球を
      見つける
     各クラスについてベイズの定理を適用し,各クラスに
      属する事後確率を求める
     事後確率が最大のクラスに割り当てる



                                        78
K近傍法を用いたクラス分類

𝑥を中心とし,𝐾個の点を含む球が,体積𝑉であり,
クラスC 𝑘 に属する点をそれぞれ𝐾 𝑘 個含んでいたとする


この時,各クラスの密度,クラス条件のない密度,
クラスの事前分布の推定値はそれぞれ
               𝐾𝑘
𝑝 𝒙 𝐶 𝑘) =
              𝑁𝑘 𝑉
          𝐾
𝑝(𝒙) =
          𝑁𝑉
           𝑁𝑘
𝑝(𝐶 𝑘 ) =                        79
            𝑁
K近傍法を用いたクラス分類

ベイズの定理より,
           𝑝 𝑥 𝐶 𝑘 )𝑝(𝐶 𝑘 )    𝐾 𝑘 𝑁 𝑘 𝑁𝑉   𝐾𝑘
𝑝 𝐶 𝑘 𝑥) =                  =             =
               𝑝(𝒙)           𝑁𝑘 𝑉 𝑁 𝐾      𝐾
誤分類の確率を最小にする ⇒ 事後確率を最大化する

   分類手順
     1. 訓練データ集合から𝐾近傍の点集合を選ぶ
     2. この集合の中で最も多数派にクラスを割り当てる.
         ただし,同順位だった場合はランダム

   𝐾 = 1の時を最近傍則という
                                                 80
K近傍法を用いたクラス分類




http://www.nag-j.co.jp/nagdmc/knn.htmから引用   81
K近傍法の例
   Kの値を変えて分類
       Kによって平滑化の度合いが調整されている




                               82
その他の特徴
   最近傍則の特徴
     𝑁 → ∞の極限で,誤分類率は,真のクラス分布を
      用いた最適な分類器で達成可能な最小誤分類率の,
      たかだか2倍にしかならない
     単純だけど意外とすごい



   K近傍法・カーネル密度推定法共通の特徴
       データ集合全体を保持しなくてはならない
           データ集合が大きいと膨大な計算量
       探索用の木構造の構築で対処可
                                 83
参考サイト
   朱鷺の杜Wiki
       http://ibisforest.org/index.php?FrontPage
   Bishopさんのサイト
       http://research.microsoft.com/en-
        us/um/people/cmbishop/PRML/
   prml_note@wiki
       http://www43.atwiki.jp/prml_note/pages/1.html
   十分統計量について
       http://www012.upp.so-
        net.ne.jp/doi/math/anova/sufficientstatistic.pdf
                                                           85

More Related Content

PDF
Prml
PPTX
Prml 1.3~1.6 ver3
PDF
PRML輪読#2
PDF
最適輸送入門
PDF
PRML輪読#1
PDF
PRML 上 2.3.6 ~ 2.5.2
PDF
[DL輪読会]Deep Learning 第12章 アプリケーション
PDF
PRML輪読#3
Prml
Prml 1.3~1.6 ver3
PRML輪読#2
最適輸送入門
PRML輪読#1
PRML 上 2.3.6 ~ 2.5.2
[DL輪読会]Deep Learning 第12章 アプリケーション
PRML輪読#3

What's hot (20)

PDF
PRML勉強会第3回 2章前半 2013/11/28
PDF
PRML 2.4
PDF
PRML2.1 2.2
PDF
PRML 第4章
PDF
Prml 2.3
PDF
PRML上巻勉強会 at 東京大学 資料 第1章後半
PPTX
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
PPTX
PRML 4.4-4.5.2 ラプラス近似
PDF
PRML輪読#4
PDF
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PDF
PRML第3章@京大PRML輪講
PDF
Chapter 8 ボルツマンマシン - 深層学習本読み会
PDF
[PRML] パターン認識と機械学習(第2章:確率分布)
PDF
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PDF
PRML輪読#6
PPTX
PRML2.4 指数型分布族
PDF
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PDF
はじめてのKrylov部分空間法
PDF
PRML 2.3節 - ガウス分布
PDF
PRML ベイズロジスティック回帰 4.5 4.5.2
PRML勉強会第3回 2章前半 2013/11/28
PRML 2.4
PRML2.1 2.2
PRML 第4章
Prml 2.3
PRML上巻勉強会 at 東京大学 資料 第1章後半
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
PRML 4.4-4.5.2 ラプラス近似
PRML輪読#4
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML第3章@京大PRML輪講
Chapter 8 ボルツマンマシン - 深層学習本読み会
[PRML] パターン認識と機械学習(第2章:確率分布)
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML輪読#6
PRML2.4 指数型分布族
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
はじめてのKrylov部分空間法
PRML 2.3節 - ガウス分布
PRML ベイズロジスティック回帰 4.5 4.5.2
Ad

Similar to Prml2.1 2.2,2.4-2.5 (20)

PDF
PRML復々習レーン#2 2.3.6 - 2.3.7
PDF
混合モデルとEMアルゴリズム(PRML第9章)
PDF
Prml1.2.4
PDF
PRML 2.3.1-2.3.2
PDF
PRML 上 1.2.4 ~ 1.2.6
PDF
ベイズ統計入門
PDF
データ解析10 因子分析の基礎
PDF
PRML 8.4-8.4.3
PDF
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
PPTX
Prml 最尤推定からベイズ曲線フィッティング
PDF
PRML chap.10 latter half
PPTX
ラビットチャレンジレポート 応用数学
PPTX
基礎からのベイズ統計学 3章(3.1~3.3)
PDF
PRML 2.3.2-2.3.4 ガウス分布
PDF
星野「調査観察データの統計科学」第3章
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PPTX
続・わかりやすいパターン認識 9章
PDF
PRML 2.3節
PDF
データ解析7 主成分分析の基礎
PPTX
ラビットチャレンジレポート 機械学習
PRML復々習レーン#2 2.3.6 - 2.3.7
混合モデルとEMアルゴリズム(PRML第9章)
Prml1.2.4
PRML 2.3.1-2.3.2
PRML 上 1.2.4 ~ 1.2.6
ベイズ統計入門
データ解析10 因子分析の基礎
PRML 8.4-8.4.3
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Prml 最尤推定からベイズ曲線フィッティング
PRML chap.10 latter half
ラビットチャレンジレポート 応用数学
基礎からのベイズ統計学 3章(3.1~3.3)
PRML 2.3.2-2.3.4 ガウス分布
星野「調査観察データの統計科学」第3章
変分推論法(変分ベイズ法)(PRML第10章)
続・わかりやすいパターン認識 9章
PRML 2.3節
データ解析7 主成分分析の基礎
ラビットチャレンジレポート 機械学習
Ad

Prml2.1 2.2,2.4-2.5

  • 2. 発表概要  2.1 二値変数  2.2 多値変数  2.3 ガウス分布  2.4 指数型分布族  2.5 ノンパラメトリック法 2
  • 3. この章の目的  密度推定  観測値の有限集合𝑥1 , … , 𝑥 𝑁 が与えられた時,確率変数𝑥 の確率分布𝑝(𝑥)をモデル化すること  このような確率分布は無限に存在しうる  パラメトリック  分布の形を仮定し,観測値に合わせてパラメータを調整する 手法  ノンパラメトリック  分布の形を仮定せず,観測値によって分布を決める手法 3
  • 4. 4 2.1 二値変数 • ベルヌーイ分布 • 二項分布 • ベータ分布
  • 5. ベルヌーイ分布 – 記号の定義  二値確率変数 x ∈ {0,1}  ex. コインを投げて,表なら 𝑥 = 1 裏なら 𝑥 = 0  パラメータ μ  𝑥 = 1となる確率 0≦ 𝜇 ≦1  𝑝 𝑥 = 1 𝜇) = 𝜇, 𝑝 𝑥 = 0 𝜇 =1− 𝜇 計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時, 𝑝 𝑥 = 1 𝜇 = 0.7) = 0.7 𝑝 𝑥 = 0 𝜇 = 0.7 = 0.3 5
  • 6. ベルヌーイ分布  ベルヌーイ分布  Bern x 𝜇) = 𝜇 𝑥 (1 − 𝜇)1−𝑥 (2.2)  確率𝜇で表が出るコインを一回投げ,表(裏)が出る確率  特徴  𝐸[𝑥] = 𝜇 (2.3)  𝑣𝑎𝑟[𝑥] = 𝜇(1 − 𝜇) (2.4) 計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時, 𝐵𝑒𝑟𝑛 𝑥 = 1 𝜇 = 0.7) = 0.71 (1 − 0.7)0 = 0.7 𝐵𝑒𝑟𝑛 𝑥 = 0 𝜇 = 0.7 = 0.70 (1 − 0.7)1 = 0.3 6
  • 7. 複数回観測した時の尤度関数  設定 D = 𝑥1 , … , 𝑥 𝑁  𝑥 𝑖 は,𝑝(𝑥 | 𝜇)から独立に得られたと仮定  尤度関数  𝑝 𝐷 𝜇) = 𝑛=1 𝑝 𝑥 𝑛 𝜇) = 𝑛=1 𝜇 𝑥 𝑛 (1 − 𝜇)1−𝑥 𝑛 (2.5) 𝑁 𝑁  𝜇が与えられた時,どのくらい,観測したデータが生起 しやすいかを表す 7
  • 8. パラメータ𝜇の値を最尤推定  対数尤度 𝑁 ln 𝑝(𝐷 | 𝜇) = ln 𝑝 𝑥 𝑛 𝜇) 𝑛=1 𝑁 = { 𝑥 𝑛 ln 𝜇 + 1 − 𝑥 𝑛 ln 1 − 𝜇 } (2.6) 𝑛=1 𝑁 = ln 𝜇 − ln 1 − 𝜇 𝑥 𝑛 + 𝑁 ln(1 − 𝜇) 𝑛=1 𝑁  この式は, 𝑛=1 𝑥 𝑛 のみに依存しているため,この式は, この分布の下,このデータに対する十分統計量の例 8
  • 9. パラメータ𝜇の値を最尤推定  最尤推定  ln 𝑝 𝐷 𝜇) を𝜇で偏微分して0とおいて解く 1 𝑁  𝜇 𝑀𝐿 = 𝑛=1 𝑥𝑛 (2.7) 𝑁  サンプル平均と呼ばれる  結果の違った見方  データ集合中で,𝑥 = 1になる回数を𝑚とすると, 𝑚 データ集合中での表の観測値の割合が 𝜇 𝑀𝐿 = (2.8) 𝑁 表が出る確率となる 9
  • 10. 二項分布  記号の定義  𝑚 : 大きさ𝑁のデータ集合のうち,𝑥 = 1となる観測値の数  二項分布 𝑁  𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑚 𝜇 𝑚 (1 − 𝜇) 𝑁−𝑚 (2.9)  𝑁 = 𝑁! (2.10) 𝑚 𝑁−𝑚 !𝑚!  確率𝜇で表が出るコインを𝑁回投げた時, 表が出る回数𝑚の確率分布  特徴  𝐸[𝑚] = 𝑁𝜇 (2.11)  𝑣𝑎𝑟[𝑚] = 𝑁𝜇(1 − 𝜇) (2.12) 10
  • 12. ベータ分布  ベルヌーイ分布のパラメータ𝜇の最尤推定  3回表が出ると,以降ずっと表が出る? 𝑁 1  過学習の問題 𝜇 𝑀𝐿 = 𝑥𝑛 𝑁 𝑛=1  ベイズ主義的に扱う  事前分布𝑝(𝜇)を導入する必要性 𝑁 𝑥 𝑛 (1 − 𝑝 𝐷 𝜇) = 𝜇 𝜇)1−𝑥 𝑛  事後分布が事前分布と同様の 𝑛=1 形式となる事前分布を選びたい  共役性  𝜇と(1 − 𝜇) のべきに比例する事前分布を導入 12
  • 13. ベータ分布 Γ(a + b) 𝑎−1 𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) = 𝜇 (1 − 𝜇) 𝑏−1 (2.13) Γ a Γ(b)  特徴 𝑎  𝐸[𝜇] = (2.15) 𝑎+𝑏 𝑎𝑏  𝑣𝑎𝑟[𝜇] = (2.16) 𝑎+𝑏 2 (𝑎+𝑏+1)  𝑎, 𝑏は,𝜇の分布を決めるので,ハイパーパラメータと 呼ばれる 13
  • 15. 事後分布を求める  事前分布 Γ(a + b) 𝑎−1 𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) = 𝜇 (1 − 𝜇) 𝑏−1 Γ a Γ(b)  尤度関数 𝑁 𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝜇 𝑚 (1 − 𝜇) 𝑙 (𝑙 = 𝑁 − 𝑚) 𝑚  事後分布 Γ(m + a + b + l) 𝑚+𝑎−1 𝑝 𝜇 𝑚, 𝑙, 𝑎, 𝑏) = (1 − 𝜇) 𝑙+𝑏−1 𝜇 Γ m + a Γ(b + l) (2.18)  𝑥 = 1の観測値が𝑚個,𝑥 = 0の観測値が𝑙個あった時, 事後分布を求めるには,𝑎を𝑚, 𝑏を𝑙だけ増やせばよい  𝑎, 𝑏はそれぞれ,𝑥 = 1, 𝑥 = 0の有効観測数と解釈できる 15
  • 16. 逐次学習  事後分布の特徴  事後分布は,事前分布と形式が同じなので, 事後分布を新たな事前分布として扱える  逐次学習  データがひとつづつ与えられ,データが与えられる度に パラメータを更新していく学習法 𝑥1 𝑥2 𝑝(𝜇) 𝑝(𝜇|𝑥1 ) 𝑝(𝜇|𝑥1,2 ) 16
  • 17. 逐次学習の例 x=1を1つ 𝑎=2 観測した時の 𝑏=2 尤度関数 β分布 (N=m=1の 二項分布) 𝑎=3 𝑏=2 β分布 17
  • 18. 逐次学習の長所・短所  長所  実時間での学習に利用できる  毎観測値ごとに事後確率を算出するので,全てのデータが なくともよい  大規模データ集合に有用  観測値の処理が終わった後,そのデータはもう捨ててよい  短所  学習の早さと,正しい解への収束性のトレードオフ 18
  • 19. 𝑥の予測分布  これまでの議論  𝑝(𝜇 | 𝐷)の推定  観測データ集合𝐷から,パラメータ𝜇の確率分布を推定  ここからの議論  𝑝(𝑥 = 1 | 𝐷)の推定  観測データ集合𝐷から,𝑥 = 1となる確率を推定 19
  • 20. 𝑥の予測分布 1 𝑝(𝑥 = 1 | 𝐷) = 𝑝 𝑥=1 𝜇)𝑝 𝜇 𝐷) 𝑑𝜇 0 1 = 𝜇𝑝 𝜇 𝐷) 𝑑𝜇 0 = 𝑬 𝜇 𝐷] (2.19) 𝑚+ 𝑎 = (2.20) 𝑚+ 𝑎+ 𝑙+ 𝑏 観測値のうち,𝑥 = 1に相当するものの割合  𝑚, 𝑙がとても大きい時,最尤推定の結果と一致する  このような特性は,多くの例で見られる  有限のデータ集合では,事後平均は事前平均と μ の最尤推定量の間になる →演習2.7 20
  • 21. 事後分布の特性  事後分布(ベータ分布)の分散 𝑎𝑏  𝑣𝑎𝑟 𝜇 = 𝑎+𝑏 2 𝑎+𝑏+1  𝑎 → ∞や𝑏 → ∞の時,分散は0に近づく  多くのデータを学習すればするほど, 一般的に事後分布の不確実性は減少する? 21
  • 22. 平均・分散の不確実性  事前平均と事後平均 𝐸 𝜽 𝜽 = 𝐸 𝐷 [𝐸 𝜽 𝜽 | 𝐷 ] (2.21)  𝜽の事後平均を,データを生成する分布上で平均すると, 𝜽の事前平均に等しい  事前分散と事後分散 𝑣𝑎𝑟 𝜃 𝜃 = 𝐸 𝐷 [𝑣𝑎𝑟 𝜃 𝜃 𝐷]] + 𝑣𝑎𝑟 𝐷 [𝐸 𝐷 𝜃 𝐷]] (2.24) 事前分散 事後分散の平均 事後平均の分散 の平均  平均的には 事前分散 > 事後分散  成り立たないデータセットもある 22
  • 23. 23 2.2 多値変数 • 多項分布 • ディリクレ分布
  • 24. 例えば  サイコロを投げる  6通りの状態がありうる  1-of-K 符号化法  K個の状態を取りうる離散変数を扱う際に用いられる  要素の一つ𝑥 𝑘 のみが1で他が0 𝐾  𝑘=1 𝑥 𝑘 = 1を満たす  ex. サイコロの目を観測値𝑥として,3が出た時  𝑥 = (0,0,1,0,0,0) 𝑇 24
  • 25. 歪んだサイコロ  記号の定義  𝜇 𝑘 ∶ 𝑥 𝑘 = 1となる確率  正確なサイコロの場合 1 1 1 1 1 1  𝝁=( , , , , , ) 6 6 6 6 6 6  シゴロ賽の場合 1 1 1  𝝁 = (0,0,0, , , ) 3 3 3  ピンゾロ賽の場合  𝝁 = (1,0,0,0,0,0) 25
  • 26. 多項分布  𝑥の分布 𝐾 𝑥𝑘 ベルヌーイ分布を2種類以上の 𝑝 𝑥 𝜇) = 𝜇𝑘 (2.26) 出力に一般化したもの 𝑘=1  観測値が複数あった場合  𝑁個の独立な観測値𝑥1 … 𝑥 𝑁  尤度関数 𝑁 𝐾 𝐾 𝐾 𝑝 𝐷 𝜇) = 𝜇𝑘 𝑥 𝑛𝑘 = 𝜇 𝑘( 𝑛 𝑥 𝑛𝑘 ) = 𝜇𝑘 𝑚𝑘 𝑛=1 𝑘=1 𝑘=1 𝑘=1 (2.29) 𝑚𝑘 = 𝑥 𝑛𝑘  : この分布の十分統計量 26 𝑛
  • 27. 𝝁の最尤推定  制約付き対数尤度最大化  ラグランジュの未定乗数法を用いる 𝐾 𝐾 𝜇 𝑘 = 1 に代入して, 𝑓= 𝑚 𝑘 ln 𝜇 𝑘 + 𝜆 𝜇𝑘−1 𝑘 𝑘=1 𝑘=1 𝑚𝑘 𝜕𝑓 𝑚𝑘 − =1 = + 𝜆 𝜆 𝜕𝜇 𝑘 𝜇𝑘 𝑘 𝜕𝑓 − 𝑚𝑘 = 𝜆 = 0 より, 𝜕𝜇 𝑘 𝑘 𝑚𝑘 𝜆 = −𝑁 𝜇𝑘 =− 𝑚𝑘 𝜆 𝜇 𝑘 𝑀𝐿 = 𝑁 27
  • 28. 多項分布 𝐾 𝑁 𝑚𝑘 𝑀𝑢𝑙𝑡 𝑚1 , … 𝑚 𝐾 𝝁, 𝑁) = 𝜇𝑘 (2.34) 𝑚1 𝑚2 … 𝑚 𝐾 𝑘=1 𝑁 𝑁! ただし, = 𝑚1 𝑚2 … 𝑚 𝐾 𝑚1 ! 𝑚2 ! … 𝑚 𝐾 ! 𝐾 𝑚𝑘 = 𝑁 𝑘=1  パラメータ𝜇と観測値の総数𝑁が与えられた条件の下, 𝑚1 … 𝑚 𝐾 の同時確率 28
  • 29. ディリクレ分布  多項分布の𝜇 𝑘 についての事前分布  共役分布の形は以下の通り 𝐾 𝛼 𝑘 −1 (2.37) 𝑝 𝝁 𝜶) ∝ 𝜇𝑘 𝑘=1 ただし,0 ≦ 𝜇 𝑘 ≦ 1, 𝑘 𝜇 𝑘 = 1 ハイパーパラメータ 𝜶 = (𝛼1 , … , 𝛼 𝐾 ) 𝑇  ディリクレ分布 𝐾 Γ(𝛼0 ) 𝐷𝑖𝑟 𝝁 𝜶) = 𝜇𝑘 𝛼 𝑘 −1 (2.38) Γ 𝛼1 … Γ(𝛼 𝐾 ) 𝑘=1 ただし,𝛼0 = 𝑘 𝛼𝑘 29
  • 30. 共役性の確認  事前分布 𝐾 Γ(𝛼0 ) 𝛼 𝑘 −1 𝑝 𝝁 𝜶) = 𝜇𝑘 (2.38) Γ 𝛼1 … Γ(𝛼 𝐾 ) 𝑘=1  尤度関数 𝐾 𝑁 𝑝 𝐷 𝝁) = 𝑚1 𝑚2 … 𝑚 𝐾 𝜇𝑘 𝑚𝑘 (2.34) 𝑘=1  事後分布 𝑝 𝝁 𝐷, 𝜶) = 𝐷𝑖𝑟 𝝁 𝜶 + 𝒎) 𝐾 Γ(𝛼0 + 𝑁) = 𝜇𝑘 𝛼 𝑘 +𝑚 𝑘 −1 (2.41) Γ 𝛼1 + 𝑚1 … Γ(𝛼 𝐾 + 𝑚 𝐾 ) 30 𝑘=1
  • 31. 31 2.4 指数型分布族 • 最尤推定と十分統計量 • 共役事前分布 • 無情報事前分布
  • 32. 指数型分布族とは 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 }  𝜼:分布の自然パラメータ  𝒙 : ベクトル or スカラー,離散 or 連続  𝒖 𝒙 ∶ 𝒙の任意の関数  𝑔 𝜼 ∶ 正規化係数. 𝑔 𝜼 ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 = 1  指数型分布族の例  ベルヌーイ分布  多項分布 本当に指数型分布族なのか確かめる →指数型分布族の形式で書けるか調べる  ガウス分布 32
  • 33. ベルヌーイ分布は指数型分布族?(1/2) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 𝑝(𝑥 | 𝜇) = Bern x 𝜇) = 𝜇 𝑥 (1 − 𝜇)1−𝑥 𝑝(𝑥 | 𝜇) = exp{𝑥 log 𝜇 + 1 − 𝑥 log 1 − 𝜇 } 右辺の対数の指数をとる 𝜇   = 1 − 𝜇 exp log 𝑥 1− 𝜇 𝜇 ∴ 𝜂 = log 指数型分布族の式と係数比較 1− 𝜇 1 𝜇= μについて解く 1 + exp(−𝜂) 33 → ロジスティックシグモイド関数 𝜎(𝜂)
  • 34. ベルヌーイ分布は指数型分布族?(2/2) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 𝜇 𝑝(𝑥 | 𝜇) = 1 − 𝜇 exp log 𝑥 1− 𝜇 𝑝(𝑥 | 𝜂) = 𝜎(−𝜂)exp 𝜂𝑥 ∴ 𝑢(𝑥) = 𝑥   ℎ(𝑥) = 1      𝑔(𝜂) = 𝜎(−𝜂) より,ベルヌーイ分布は指数型分布族. 34
  • 35. 多項分布は指数型分布族?(1/8) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 𝑀 カテゴリカル分布 𝑥𝑘 𝑝(𝒙 | 𝜇) = 𝑚𝑢𝑙𝑡 𝐱 𝜇) = 𝜇𝑘 𝑘=1 𝑀 𝑀 𝑥𝑘 = exp ln 𝜇𝑘 = exp 𝑥 𝑘 ln 𝜇 𝑘 𝑘=1 𝑘=1 ここで 𝜂 𝑘 = ln 𝜇 𝑘 , 𝜼 = (𝜂1 , 𝜂2 , … , 𝜂 𝑀 ) 𝑇 と定義すると, 𝑢(𝒙) = 𝒙 ℎ(𝒙) = 1 𝑔(𝜼) = 1 𝑀 35 ただし, 𝑘=1 𝜇 𝑘 = 1より,ηは独立ではない
  • 36. 多項分布は指数型分布族?(2/8)  前スライドのまとめ  多項分布を指数型分布族の形に書き表すことができた  しかし,𝜂は独立ではない  なので 𝑀  𝑘=1 𝜇 𝑘 = 1を用いて,𝜇 𝑀 を 𝜇 𝑘 (𝑘 = 1,2, … 𝑀 − 1)で 表し, 𝜇 𝑀 を消去する  他にも以下の制約がある 𝑀−1 0 ≦ 𝜇 𝑘 ≦ 1, 𝜇𝑘 ≦1 36 𝑘=1
  • 37. 多項分布は指数型分布族?(3/8) 𝑀 exp 𝑥 𝑘 ln 𝜇 𝑘 pp.73 上の式より, 𝑘=1 𝑀 𝑀−1 𝑥𝑘 = 1 𝑘=1 = exp 𝑥 𝑘 ln 𝜇 𝑘 + 𝑥 𝑀 ln 𝜇 𝑀 𝑘=1 𝑀−1 𝑀−1 𝑀−1 = exp 𝑥 𝑘 ln 𝜇 𝑘 + 1 − 𝑥 𝑘 ln 1 − 𝜇𝑘 𝑘=1 𝑘=1 𝑘=1 𝑀−1 𝑀−1 𝜇𝑘 = exp 𝑥 𝑘 ln 𝑀−1 + ln 1 − 𝜇𝑘 1− 𝑗=1 𝜇𝑗 𝑘=1 𝑘=1 37
  • 38. 多項分布は指数型分布族?(4/8) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 𝑀−1 𝑀−1 𝜇𝑘 exp 𝑥 𝑘 ln 𝑀−1 + ln 1 − 𝜇𝑘 1− 𝑗=1 𝜇𝑗 𝑘=1 𝑘=1 𝑀−1 𝑀−1 𝜇𝑘 = 1− 𝜇 𝑘 exp 𝑥 𝑘 ln 𝑀−1 1− 𝑗=1 𝜇𝑗 𝑘=1 𝑘=1 よって, 𝑀−1 𝜇𝑘 𝜂 𝑘 = ln 𝑀−1 1− 𝜇 𝑘 を求めるため, 1− 𝑗=1 𝜇𝑗 𝑘=1 𝜇 𝑘 = ⋯ の形にする 38
  • 39. 多項分布は指数型分布族?(5/8) 𝜇𝑘 𝜂 𝑘 = ln 𝑀−1 1− 𝑗=1 𝜇𝑗 𝜇𝑘 exp(𝜂 𝑘 ) = 𝑀−1 両辺の指数をとる 1− 𝑗=1 𝜇 𝑗 𝑀−1 𝜇 𝑘 = exp(𝜂 𝑘 ) 1 − 𝜇𝑗 𝑗=1 𝑀−1 𝑀−1 𝑀−1 𝜇𝑘 = 1− 𝜇𝑗 exp(𝜂 𝑘 ) k=1からM-1まで足し合わせる 𝑘=1 𝑗=1 𝑘=1 39
  • 40. 多項分布は指数型分布族?(6/8) 𝑀−1 𝑀−1 𝑘=1 exp(𝜂 𝑘 ) 𝜇𝑘 = 𝑀−1 赤字について解く 1+ 𝑘=1 exp(𝜂 𝑘 ) 𝑘=1 𝑀−1 𝜇 𝑘 = exp(𝜂 𝑘 ) 1 − 𝜇 𝑗 に代入して, 𝑗=1 exp(𝜂 𝑘 ) 𝜇𝑘 = 𝑀−1 1 + 𝑘=1 exp(𝜂 𝑘 ) この式を,ソフトマックス関数,正規化指数関数と呼ぶ. 40
  • 41. 多項分布は指数型分布族?(7/8) 𝑀−1 𝑀−1 𝜇𝑘 𝑝(𝑥 | 𝜇) = 1 − 𝜇 𝑘 exp 𝑥 𝑘 ln 𝑀−1 , 1− 𝑗=1 𝜇𝑗 𝑘=1 𝑘=1 𝜇𝑘 𝜂 𝑘 = ln 𝑀−1 , 1− 𝜇𝑗 𝑗=1 exp(𝜂 𝑘 ) 𝜇𝑘 = 𝑀−1 1 + 𝑘=1 exp(𝜂 𝑘 ) 𝑀−1 𝑀−1 𝑘=1 exp 𝜂 𝑘 ⇒ 1− 𝜇𝑘 =1− 𝑀−1 より, 1+ 𝑘=1 exp 𝜂 𝑘 𝑘=1 −1 𝑀−1 𝑝 𝒙 𝜼) = 1 + exp(𝜂 𝑘 ) exp 𝜼 𝑇 𝒙 𝑘=1 41
  • 42. 多項分布は指数型分布族?(8/8) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } −1 𝑀−1 𝑝 𝒙 𝜼) = 1 + exp(𝜂 𝑘 ) exp 𝜼 𝑇 𝒙 𝑘=1 𝑇 𝜼 = 𝜂1 , 𝜂2 , … , 𝜂 𝑀−1 , 0 𝑢(𝒙) = 𝒙 ℎ(𝒙) = 1 −1 𝑀−1 𝑔(𝜼) = 1+ exp(𝜂 𝑘 ) 𝑘=1 とすると,多項分布は指数型分布族のひとつ 42
  • 43. ガウス分布は指数型分布族?(1/3) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 1 (𝑥 − 𝜇)2 𝑝 𝑥 𝜇, 𝜎) = exp − (2𝜋𝜎 2 )1/2 2𝜎 2 1 1 2 𝜇 𝜇2 = exp − 2 𝑥 + 2 𝑥 − 2 (2𝜋𝜎 2 )1/2 2𝜎 𝜎 2𝜎 𝑇 1 1 𝜇2 𝜇/𝜎 2 𝑥 = exp − 2 exp (2𝜋)1/2 𝜎 2𝜎 −1/2𝜎 2 𝑥2 1 𝜂1 𝜇/𝜎 2 𝑥 ℎ(𝑥) = 𝑔 𝜼 𝜼= = 𝒖(𝑥) = (2𝜋)1/2 𝜂2 −1/2𝜎 2 𝑥2 43
  • 44. ガウス分布は指数型分布族?(2/3) 𝜂1 𝜇/𝜎 2 𝜼= = 2 より, 𝜂2 −1/2𝜎 1 = (−2𝜂2 )1/2 𝜎 2 𝜂1 𝜇 = 𝜂1 𝜎 = − 2𝜂2 よって, 1 𝜇2 exp − 2 𝜎 2𝜎 𝜂1 2 1 = (−2𝜂2 )1/2 exp − (−2𝜂2 ) 4𝜂2 2 2 𝜂1 2 = (−2𝜂2 )1/2 exp − ← 𝜂で表された! 4𝜂2 44
  • 45. ガウス分布は指数型分布族?(3/3) 𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp{𝜼 𝑇 𝒖 𝒙 } 𝑇 1 𝜂1 2 𝜇/𝜎 2 𝑥 𝑝 𝑥 𝜼) = (−2𝜂2 )1/2 exp − exp より (2𝜋)1/2 4𝜂2 −1/2𝜎 2 𝑥2 1 ℎ 𝑥 = 2𝜋 1/2 𝜂1 2 𝑔 𝜂 = (−2𝜂2 )1/2 exp − 4𝜂2 𝜂1 𝜇/𝜎 2 𝑥 𝜼= = 2 , 𝒖 𝑥 = 2 とすると, 𝜂2 −1/2𝜎 𝑥 ガウス分布は指数型分布族のひとつ 45
  • 46. 𝜼の値を最尤推定 正規化条件より, 𝑔 𝜼 ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 = 1 𝜼について,両辺の勾配を求めて, (fg)’=f’g+fg’ 𝛻𝑔 𝜼 ℎ 𝒙 exp{𝜼 𝑇 𝒖 𝒙 } 𝑑𝒙 + 𝑔 𝜼 ℎ 𝒙 exp 𝜼 𝑇 𝒖 𝒙 𝒖 𝒙 𝑑𝒙 = 0 𝛻𝑔 𝜼 − = 𝑔 𝜼 ℎ 𝒙 exp 𝜼 𝑇 𝒖 𝒙 𝒖 𝒙 𝑑𝒙 = 𝐸 𝒖 𝒙 𝑔 𝜼 𝐸 𝒖 𝒙 = − 𝛻ln 𝑔 𝜼 𝑢(𝑥)の期待値は,𝑔(𝜂)のみに依存 (𝑢(𝑥)の𝑛次モーメントは𝑔(𝜂)の𝑛階微分で求められる) 46
  • 47. 𝜼の値を最尤推定 独立に同分布に従うデータ集合𝑋 = {𝒙1 , 𝒙2 , … , 𝒙 𝑁 }に対する尤度関数は 𝑁 𝑁 𝑁 exp 𝑝 𝑿 𝜼) = ℎ 𝒙𝑛 𝑔 𝜼 𝜼𝑇 𝒖 𝒙𝑛 𝑛=1 𝑛=1 両辺の対数をとって, 𝑁 𝑁 ln 𝑝 𝑿 𝜼) = ln ℎ 𝒙 𝑛 + 𝑁 ln 𝑔(𝜼) + 𝜼 𝑇 𝒖 𝒙𝑛 𝑛=1 𝑛=1 (𝜂についての勾配) = 0より, 𝑁 𝑁𝛻 ln 𝑔(𝜼 𝑀𝐿 ) + 𝒖 𝒙𝑛 =0 𝑛=1 𝑁 1 −𝛻 ln 𝑔 𝜼 𝑀𝐿 = 𝒖 𝒙𝑛 → この式を解けば𝜼 𝑀𝐿 が得られる 47 𝑁 𝑛=1
  • 48. 十分統計量 𝑁 1 −𝛻 ln 𝑔 𝜼 𝑀𝐿 = 𝒖 𝒙𝑛 𝑁 𝑛=1 𝜼 𝑀𝐿 は 𝑛 𝒖 𝒙 𝑛 のみに依存している → 𝑛 𝒖 𝒙 𝑛 を,𝑝(𝑥 | 𝜂)の十分統計量と呼ぶ  十分統計量の例  ベルヌーイ分布  𝑢 𝑥 = 𝑥より, 𝑥 𝑛 の総和  ガウス分布  𝑢 𝑥 = (𝑥, 𝑥 2 ) 𝑇 より, 𝑥 𝑛 の総和, 𝑥 𝑛 2 の総和 48
  • 49. 指数型分布族の共役事前分布  共役事前分布  尤度関数と掛けて事後分布を求めると,その関数形が同じ になるような事前分布. 指数型分布族 𝑁 𝑁 𝑁 𝑝 𝑿 𝜼) = ℎ 𝒙𝑛 𝑔 𝜼 exp 𝜼𝑇 𝒖 𝒙𝑛 𝑛=1 𝑛=1 に対する共役事前分布は, 𝜈 𝑝 𝜼 𝝌, 𝜈) = 𝑓 𝝌, 𝜈 𝑔 𝜂 exp 𝜈𝜼 𝑇 𝝌 𝑁 𝜈+𝑁 ∵ 𝑝 𝜼 𝑿, 𝝌, 𝜈) ∝ 𝑔 𝜂 exp 𝜼𝑇 𝒖(𝒙 𝑛 ) + 𝑣𝝌 50 𝑛=1
  • 50. これまで出てきた共役事前分布 確率分布 共役事前分布 ベルヌーイ分布(二項分布) ベータ分布 多項分布 ディリクレ分布 ガウス分布の平均(分散は既知) ガウス分布 ガウス分布の精度(平均は既知) ガンマ分布 ガウス分布の分散(平均は既知) 逆ガンマ分布 ガウス分布(平均・精度が未知) ガウス-ガンマ分布 多変量ガウス分布の平均(共分散は既知) ガウス分布 多変量ガウス分布の精度(平均は既知) ウィッシャート分布 多変量ガウス分布の共分散(平均は既知) 逆ウィッシャート分布 多変量ガウス分布(平均・精度が未知) ガウス-ウィッシャート分布 51
  • 51. 無情報事前分布  概要  その事前分布を用いて得られる事後分布に, その事前分布ができるだけ影響しないような事前分布  事前分布に対する知見がない時に用いられる  単純に考えると...  離散変数の時  K個の状態をとりうるなら,各状態を1/𝐾で取ればよい  連続変数の時  分布𝑝 𝑥 𝜆)について, 𝑝(𝜆) = 𝑐𝑜𝑛𝑠𝑡.とすればよい? 52
  • 52. 無情報事前分布 - 𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.?  𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.という事前分布の問題点  𝜆の定義域が有界でないため, 𝜆上での積分が発散する  変則事前分布(不完全事前分布)と呼ばれる  非線形な変数変換が上手く行えない  ex. 𝑝 𝜆 𝜆 が定数だとする. 𝜆 = 𝜂 2 と変数変換を行うと, 𝑑𝜆 𝑝𝜂 𝜂 = 𝑝𝜆 𝜆 = 𝑝 𝜆 𝜂 2 2𝜂 ∝ 𝜂 𝑑𝜂 η上の密度は定数とはならない. 事後分布が適切(正規化されている)という条件下であれば 使われることも多い 53
  • 53. 無情報事前分布 - 𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.?  最尤推定ではこの問題は生じない  尤度関数𝑝(𝑥 | 𝜆)は𝜆について単純な式だから(? ) 例 データ𝑥 𝑖 が,平均𝜇で分散𝜎 2 の正規分布𝑁 𝑥; 𝜇, 𝜎 2 から生じるとする. σ2 を既知とし,平均𝜇を推定する. 事前分布に𝑝(𝜇) = 𝑐𝑜𝑛𝑠𝑡. の分布を考える. この時,事後分布は, p(μ | D)∝p(D | μ)*const. より,事後確率が最大となるμの解は最尤推定解に一致. よって,事前確率は推定に影響を与えない. 54
  • 54. 無情報事前分布の例1  平行移動不変性を持つ事前分布  平行移動不変性とは 𝑝 𝑥 𝜇) = 𝑓(𝑥 − 𝜇) 位置パラメータ  xを定数分移動しても,同じ形式が保たれる  求めてみよう 𝐴 ≦ 𝜇 ≦ 𝐵に入る確率と𝐴 − 𝑐 ≦ 𝜇 ≦ 𝐵 − 𝑐に入る確率が等しいので, 𝐵 𝐵−𝑐 𝐵 𝑝 𝜇 𝑑𝜇 = 𝑝 𝜇 𝑑𝜇 = 𝑝 𝜇 − 𝑐 𝑑𝜇 𝐴 𝐴−𝑐 𝐴 この式が任意のA,Bについて成立するため, 𝑝(𝜇) = 𝑝(𝜇 − 𝑐) 55 よって,𝑝(𝜇)は定数
  • 55. 無情報事前分布の例1  位置パラメータの例  ガウス分布の平均𝜇  μ の共役事前分布はガウス分布𝑁 𝑥 𝜇0 , 𝜎0 )  σ0 → ∞の極限をとれば,無情報事前分布になる  事前分布が事後分布に影響を与えていないか 𝜎2 𝑁𝜎0 2 𝜎0 → ∞ μ𝑁= 𝜇 + 2+ 𝜎 2 0 2 + 𝜎2 𝜇 𝑀𝐿 μ𝑁= 𝜇 𝑁𝜎 0 𝑁𝜎0 𝑀𝐿 𝜎0 → ∞ 1 𝑁 1 1 𝑁 = 2 2 = 2+ 2 𝜎𝑁 2 𝜎 𝜎𝑁 𝜎0 𝜎 56
  • 56. 無情報事前分布の例2  尺度不変性を持つ事前分布  尺度不変性とは 1 𝑥 𝑝 𝑥 𝜎) = 𝑓 𝜎 𝜎 尺度パラメータ  xを定数倍だけ拡大縮小しても,同じ形式が保たれる  求めてみよう 𝐴 ≦ 𝜎 ≦ 𝐵に入る確率と𝐴/𝑐 ≦ 𝜎 ≦ 𝐵/𝑐に入る確率が等しいので, 𝐵 𝐵/𝑐 𝐵 1 𝜎 𝑝 𝜎 𝑑𝜎 = 𝑝 𝜎 𝑑𝜎 = 𝑝 𝑑𝜎 𝐴 𝐴/𝑐 𝐴 𝑐 𝑐 この式が任意のA,Bについて成り立つので, 1 𝜎 57 𝑝 𝜎 = 𝑝 𝑐 𝑐
  • 57. 無情報事前分布の例 2-2  求めてみよう(続き) したがって,𝑝(𝜎) ∝ 1/𝜎  特徴 変則事前分布となる  𝑝 ln 𝜎 = 𝑐𝑜𝑛𝑠𝑡. 1 𝑎  p σ ∝ より,𝑝 𝜎 = 𝑎は定数 とおき, σ 𝜎 𝑑𝜎 t= ln 𝜎と変数変換をすると, 𝑑𝑡 = 𝜎より, 𝑑𝜎 𝑎 𝑝 𝑡 = 𝑝 𝜎 = 𝜎 σ=const. 𝑑𝑡 ∴𝑝 ln 𝜎 = 𝑐𝑜𝑛𝑠𝑡. 58
  • 58. 無情報事前分布の例1  尺度パラメータの例  𝜇を考慮済みのガウス分布の標準偏差σ 𝑁(𝑥 | 𝜇, σ2 ) ∝ σ−1 exp {−(𝑥 /𝜎)2 } (𝑥 = 𝑥 − 𝜇)  精度𝜆 = 1/𝜎 2 を考え,密度を変換すると 1 1 𝑝 𝜎 ∝ ⇒ 𝑝 𝜆 ∝ 𝜎 𝜆  事前分布が事後分布に影響を与えていないか 𝑎0 = 0, 𝑏0 = 0 𝑁 𝑁 𝑎 𝑁 = 𝑎0 + 𝑎𝑁= 2 2 𝑁 𝑎0 = 0, 𝑏0 = 0 𝑁 𝑏 𝑁 = 𝑏0 + 𝜎 𝑀𝐿 2 𝑏 𝑁 = 𝜎 𝑀𝐿 2 2 2 59
  • 59. 計算の補足 1 1 𝑝 𝜎 ∝ ⇒ 𝑝 𝜆 ∝ の証明 𝜎 𝜆 2 1 𝑥− 𝜇 𝑝 𝜎 = 1 exp − 2𝜎 2 2𝜋𝜎 2 2 𝜆 = 1/𝜎 2 とおくと, −1/2 , 𝑑𝜎 1 −3 𝜎= 𝜆 =− 𝜆 2 𝑑𝜆 2 したがって, 1 𝜆2 𝜆 𝑥− 𝜇 2 1 −3/2 𝑝 𝜆 = 1 exp − − 𝜆 2 2 2𝜋 2 1 𝑝 𝜆 ∝ 60 𝜆
  • 60. 61 2.5 ノンパラメトリック法 • ヒストグラム密度推定法 • カーネル密度推定法 • 最近傍法
  • 61. ノンパラメトリック法 パラメトリック : 少数のパラメータから 確率変数の分布の形状を決める ノンパラメトリック : 分布の形状が制限されず, データによって形状が決まる  パラメトリックなアプローチ 仮定した分布が適切でない場合  確率分布の形状を仮定 予測性能が悪くなりうる  ノンパラメトリックなアプローチ 分布の形状について  確率密度関数の形が データに依存して決まる わずかな仮定しかない 62
  • 62. ヒストグラム密度推定法  記号の定義  𝑥 ∶ 連続変数  ∆𝑖 ∶ 𝑖番目の幅  𝑛𝑖 ∶ 𝑖番目の観測値の数  𝑁 ∶ 観測値の総数  確率密度 𝑛𝑖  𝑝𝑖 = 𝑁∆ 𝑖 63
  • 63. ヒストグラム密度推定法  ∆の値による推定の変化  ∆は適切な値に設定しないと分布の特徴を捉えきれない 64
  • 64. ヒストグラム密度推定法  利点  一度ヒストグラムを求めると,元データを廃棄できる →大規模データに有利  データが逐次的に与えられた時に容易に適用できる  欠点  推定した密度が区間の縁で不連続になる  次元数が増えると,指数的に区間の総数が増え,計算 規模が増大する(次元の呪い) ヒストグラム法は1次元か2次元のデータの可視化には役に立つが 他のほとんどの密度推定の応用問題には適さない 65
  • 65. ヒストグラム密度推定法  ヒストグラム密度推定法から分かること  特定の位置の確率密度を推定するにはその点の近傍の データ点も考慮すべき  近傍の特性は区間によって定義されている  区間の幅→平滑化パラメータ  平滑化パラメータの値は,大きすぎず,小さすぎず適切な 値にすべき  cf. 多項式曲線フィッティングのモデル複雑度の選択 66
  • 66. 近傍を考慮した密度推定  目的  ある𝐷次元のユークリッド空間中の未知の確率密度𝑝 𝑥 から, 観測値の集合が得られている.この集合から𝑝(𝑥)を推定 xを含むある小さな領域Rに割り当てられた確率Pは 𝑃= 𝑝 𝒙 𝑑𝒙 𝑅 p(x)から得られたN個の観測値からなるデータ集合を集める 各データ点が領域R中にある確率はP →R内の点の総数Kは二項分布に従う 𝑁! Bin K N, P) = 𝑃 𝐾 (1 − 𝑃) 𝑁−𝐾 𝐾! 𝑁 − 𝐾 ! 67
  • 67. 近傍を考慮した密度推定 𝐸[𝐾/𝑁] = 𝑃 𝑣𝑎𝑟[𝐾/𝑁] = 𝑃(1 − 𝑃)/𝑁 Nが大きい時,𝑣𝑎𝑟 𝐾/𝑁 ≒ 0より, 𝐾 ≅ 𝑁𝑃 また,Rが,確率密度p(x)がこの領域内でほぼ一定とみなせるほど 十分に小さいと仮定できる時, P≅ 𝑝 𝒙 𝑉 (ただし,𝑉は𝑅の体積) よって, 𝐾 領域Rは近似的に密度が一定とみなせるほど小さく 𝑝(𝑥) = 𝑁𝑉 二項分布が鋭く尖るほど十分な量のKが存在する 68
  • 68. 近傍を考慮した密度推定 𝐾 𝑝(𝑥) = 𝑁𝑉 Vを固定し,Kを推定 Kを固定し,Vを推定 カーネル密度推定法 K近傍法 Nが大きくなる時Vが縮小し,Kが大きくなるなら, N→∞で,どちらも真の確率密度に収束する 69
  • 69. カーネル密度推定法  記号の定義  𝑥 ∶ 確率密度を求めたいデータ点  𝑅 ∶ 𝑥を中心とした超立方体 1 1, 𝑢 𝑖 ≦ , 𝑖 = 1,2, … 𝐷の時  𝑘 𝑢 = 2 0,それ以外の時  カーネル関数の一例  Parzen窓と呼ばれる  𝑘((𝒙 − 𝒙 𝑛 )/ℎ)は,xを中心とする一変がhの立方体の内部に, データ点𝒙 𝑛 があれば1, そうでなければ0となる関数 70
  • 70. カーネル密度推定法 立方体内部の総点数は  結果の解釈 𝑁  1.求めたいデータ点の近傍 𝒙− 𝒙𝑛 𝐾= 𝑘 (超立方体の範囲)にある ℎ 𝑛=1 データ点の数を考慮 𝐾 𝑝 𝑥 = , 𝑉 = ℎ 𝐷 より, 𝑁𝑉  2. 各データ点の近傍に, 推定確率密度は 求めたいデータ点を含む 𝐷 1 1 𝒙− 𝒙𝑛 データ点の数を考慮 𝑝(𝑥) = 𝐷 𝑘 𝑁 ℎ ℎ 𝑛=1 71
  • 71. カーネル密度推定法  Parzen窓の問題点  立方体の”縁”で確率密度が不連続となってしまう  解決策  ガウスカーネルを使う 2 𝑥 𝑖 − 𝑥𝑗 𝑘 𝑥 𝑖, 𝑥𝑗 = exp − 2ℎ2  確率密度モデルは以下の通り 𝑁 2 1 1 𝑥 𝑖 − 𝑥𝑗 𝑝(𝑥) = exp − 𝑁 2𝜋ℎ2 1/2 2𝜎 2 𝑛=1 72
  • 72. カーネル密度推定法  ℎの値による推定の変化  小さくしすぎるとノイズが多くなり,大きくしすぎると過剰 に平滑化されてしまう 73
  • 73. カーネル密度推定法  カーネル関数  カーネル関数は,以下の条件を満たす任意の関数 𝑘(𝒖) ≧ 0 𝑘 𝒖 𝑑𝒖 = 1  カーネル密度推定法の利点・欠点  訓練段階では単に訓練集合を保存しておけばよい  密度の評価にかかる計算コストがデータ集合の大きさ に比例 74
  • 74. 最近傍法  カーネル密度推定法の問題点  カーネル幅(密度推定の粒度)を決めるパラメータℎが すべてのカーネルで一定となっている  ℎが大きいと,全体的に平滑化される  ℎが小さいと,全体的にノイズの多い推定  解決策  データ空間内の位置に応じてℎを変える =最近傍法 75
  • 75. K近傍法 𝐾 Kを固定し,Vを推定 𝑝(𝑥) = K近傍法 𝑁𝑉  K近傍法  𝑝(𝑥)を推定したい点xを中心とした小球を考え,その 半径を,𝐾個のデータ点を含むようになるまで広げる. 𝐾  この時の体積を𝑉とし, 𝑝(𝑥) = から密度推定 𝑁𝑉 76
  • 76. K近傍法  Kの値による推定の変化  小さくしすぎるとノイズが多くなり,大きくしすぎると過剰 に平滑化されてしまう 77
  • 77. K近傍法を用いたクラス分類  目的  クラス𝐶 𝑘 中に𝑁 𝑘 個の点があり,点の総数は𝑁である データ集合に対し,新たな点𝑥を分類する  分類方針  𝑥を中心として,クラスを考えずに𝐾個の点を含む球を 見つける  各クラスについてベイズの定理を適用し,各クラスに 属する事後確率を求める  事後確率が最大のクラスに割り当てる 78
  • 78. K近傍法を用いたクラス分類 𝑥を中心とし,𝐾個の点を含む球が,体積𝑉であり, クラスC 𝑘 に属する点をそれぞれ𝐾 𝑘 個含んでいたとする この時,各クラスの密度,クラス条件のない密度, クラスの事前分布の推定値はそれぞれ 𝐾𝑘 𝑝 𝒙 𝐶 𝑘) = 𝑁𝑘 𝑉 𝐾 𝑝(𝒙) = 𝑁𝑉 𝑁𝑘 𝑝(𝐶 𝑘 ) = 79 𝑁
  • 79. K近傍法を用いたクラス分類 ベイズの定理より, 𝑝 𝑥 𝐶 𝑘 )𝑝(𝐶 𝑘 ) 𝐾 𝑘 𝑁 𝑘 𝑁𝑉 𝐾𝑘 𝑝 𝐶 𝑘 𝑥) = = = 𝑝(𝒙) 𝑁𝑘 𝑉 𝑁 𝐾 𝐾 誤分類の確率を最小にする ⇒ 事後確率を最大化する  分類手順  1. 訓練データ集合から𝐾近傍の点集合を選ぶ  2. この集合の中で最も多数派にクラスを割り当てる. ただし,同順位だった場合はランダム  𝐾 = 1の時を最近傍則という 80
  • 81. K近傍法の例  Kの値を変えて分類  Kによって平滑化の度合いが調整されている 82
  • 82. その他の特徴  最近傍則の特徴  𝑁 → ∞の極限で,誤分類率は,真のクラス分布を 用いた最適な分類器で達成可能な最小誤分類率の, たかだか2倍にしかならない  単純だけど意外とすごい  K近傍法・カーネル密度推定法共通の特徴  データ集合全体を保持しなくてはならない  データ集合が大きいと膨大な計算量  探索用の木構造の構築で対処可 83
  • 83. 参考サイト  朱鷺の杜Wiki  http://ibisforest.org/index.php?FrontPage  Bishopさんのサイト  http://research.microsoft.com/en- us/um/people/cmbishop/PRML/  prml_note@wiki  http://www43.atwiki.jp/prml_note/pages/1.html  十分統計量について  http://www012.upp.so- net.ne.jp/doi/math/anova/sufficientstatistic.pdf 85