頻度論とベイズ論と誤差最小化について

1
Machine Learning
a Probabilistic Perspective
Chapter 6. 5

2
Agenda
☛ FrequentistsとBayesiansについての確認
☛ 誤差最小化に関する話
⇢ 経験誤差最小化 (Empirical Risk Minimization)
⇢ 正規化誤差最小化 (Regularized Risk Minimization)
⇢ 構造的誤差最小化 (Structural Risk Minimization)

3
Frequentists と Bayesians
統計学の分野で考え方の違う２つの宗派
⇢ 考え方というか、扱うデータや確率変数の捉え方・見方？
☛ 頻度論 (Frequentists)
頻度論の考え方は、古典統計学とも呼ばれ、その考え方は
普通の統計学の考え方という感じがする
☛ ベイズ論 (Bayesians)
新しい統計学の考え方で、ベイズの定理に基づいて考える

4
２つの宗派を比べる問題設定
ある母集団からランダムにサンプルされたデータ群𝐷を考える。
このデータ群𝐷は平均𝜇、分散𝜎2の正規分布𝑁に従っていることがわかっている。
この時に𝐾回サンプルを行ったとして、𝑖番目のデータを𝐷𝑖とする。

5
頻度論と正規分布
母集団とはデータであり、決まった値である
⇢ 至極当然のように聞こえますね
(例) ある時点での日本人の平均身長は固定された１つの値
頻度論の考え方では𝐷𝑖と𝐷𝑗が違ったりばらつきがあるのは、
ランダムにとっているから、それは違うデータになるだろう！
⇢ という、これまた至極当然のような・・・

6
ベイズ論と正規分布
今手に入っているデータ群こそが固定された値であり、それぞれのデータに変動
があるのは、母集団が変化しているからである
⇢ つまり、母集団が確率的に変動しているという考え
☛ 変に聞こえるかもしれないが、実際には手に入るデータは
変化しようもなく、唯一無二の存在であるので、それほど
おかしい考え方ではないようにも思える。

7
頻度論とベイズ論では同じ問題に対して、それぞれの捉え方が
異なるだけであって、「一体これがどうしたんだ・・？」という疑問が
湧いてくるが、実際この捉え方の違いで問題を解決出来るか出来ないか
が決まったりするものだから、驚きである。

8
経験損失最小化
Empirical Risk Minimization

9
損失関数 (Loss Function)
☛ 推定の悪さを表現する関数
⇢ 0-1損失関数 𝐿 𝑦, 𝑦 = 𝕀 𝑦 ≠ 𝑦
※ 𝕀とは条件をみたすときに1を、それ以外の時に0を返す関数
⇢ 絶対値損失関数 𝐿 𝑦, 𝑦 = 𝑦 − 𝑦
⇢ ２乗誤差損失関数 𝐿 𝑦, 𝑦 = 𝑦 − 𝑦 2

10
経験損失* (Empirical Risk)
☛ あるデータ群𝑫に対する損失関数の期待値(平均値)
ただし、 𝑫とは𝒙と𝑦の𝑁個からなる教師データ、
𝑓が性能を図りたい何らかの分類器、 𝐿は損失関数とする。
𝑅 𝑒𝑚𝑝 𝑓, 𝑃 = 𝐸 𝒙,𝑦 ~𝑃 𝐿(𝑓 𝒙 , 𝑦)
* 標本誤差、経験誤差などとも呼ばれる

11
経験損失と頻度論とベイズ論
ここで、始めに紹介した頻度論とベイズ論の考え方の違いに
依る問題が生じる。
この経験損失𝑅 𝑒𝑚𝑝 𝑓, 𝑫 は簡単に計算できるだろうか？

12
ベイズ論の場合
母集団から得られたデータ群𝑫とはデータであり、
確率的に変動するものではない
⇢ 前述のとおり、確率的に変動するのは母集団の方である
☛ 従って、ベイズ論で考えると、データそのものに依存しているため、データ群𝑫
を使ってそのまま経験損失を計算してしまえば良い

13
ベイズ論の場合、経験損失とは以下のように表せる。
𝑅 𝑒𝑚𝑝 𝑓, 𝑫 =
1
𝑁
𝑖=1
𝑁
𝐿 𝑓 𝒙𝑖 , 𝑦𝑖
確率的に変動しない固定データである𝑫を用いて、それを用いた
損失関数の結果の平均をとってやればいいのである。

14
頻度論の場合
得られたデータ群𝑫は確率的に変動してしまうため、
これを使うのでは正しい経験損失が得られない
☛ 正しい経験損失を得るためには固定されたデータ、つまり
母集団の分布に関する情報＝母集団P 𝒙|𝜽 を決定する
モデルのパラメータ𝜽が必要である
しかし、母集団のモデルのパラメータは
基本的には得られない！

15
経験損失は母集団の分布𝑃に依存していて、これは計算出来ない。
𝑅 𝑒𝑚𝑝 𝑓, 𝑃 = 𝐸 𝒙,𝑦 ~𝑃 𝐿(𝑓 𝒙 , 𝑦)
この問題は、母集団の分布ではなく、得られたデータ𝑫分布を
用いることで解決する。
𝑅 𝑒𝑚𝑝 𝑓, 𝑃 → 𝑅 𝑒𝑚𝑝 𝑓, 𝑝∗
要するに、
☛ 母集団の分布、つまり真の分布は求められないので、データから
分布𝑝∗を求めて、それを使って経験損失を計算する

16
そうなると「𝑝∗をどうやって求めるか」という新たな問題が生じる。
☛ 𝑝∗を経験分布(Empirical Distribution)で近似する。
𝑝∗ 𝒙, 𝑦 ≈ 𝑝 𝑒𝑚𝑝 𝒙, 𝑦
経験分布は以下のように定義される
𝑝 𝑒𝑚𝑝 𝒙, 𝑦 ≜
1
𝑁
𝑖=1
𝑁
𝛿 𝒙 𝑖
𝒙 𝛿 𝑦 𝑖
𝑦
式で見ると少しややこしいが、
データ群にたくさん含まれてる
データほど強い値を示す分布である
𝛿 𝑎(𝑏)とはクロネッカーのデルタ関数で、
a = 𝑏のときに1を返し、それ以外の時は
0を返す関数である。

17
経験損失最小化 (Empirical Risk Minimization)
経験分布𝑝 𝑒𝑚𝑝を用いて、経験損失𝑅 𝑒𝑚𝑝を再定義する。
𝑅 𝑒𝑚𝑝 𝑓, 𝑫 ≜ 𝑅 𝑒𝑚𝑝 𝑓, 𝑝 𝑒𝑚𝑝 =
1
𝑁
𝑖=1
𝑁
𝐿 𝑓 𝒙𝑖 , 𝑦𝑖
☛ お分かりいただけただろうか？
データの分布を経験分布にした時、ベイズ論の経験損失と頻度論の経験損失は
同じものになる。

18
そもそも、経験損失を考えていたのはモデルのパラメータを決定する際に、「経験
損失の最小にするパラメータを探す」という手段をとるため。
従って、幾つか分類器𝑓が存在する中で、
𝑓𝐸𝑅𝑀 𝑫 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑓 𝑅 𝑒𝑚𝑝 𝑫, 𝑓
というルールに基いて、𝑓を推定する。
これを、経験損失最小化(Empirical Risk Minimization; ERM)という。

19
正則化損失最小化
Regularized Risk Minimization

20
ここまでで紹介した経験損失最小化(ERM)だが、一般にERMは
過学習するという事が分かっている。
☛ そこで、過学習を防ぐための正則化項を設けた手法を取る。
𝑅′
𝑓, 𝑫 = 𝑅 𝑒𝑚𝑝 𝑓, 𝑫 + 𝜆𝐶 𝑓
正則化項を加えたこの損失を用いて、損失の最小化を図ることを
正則化損失最小化(Regularized Risk Minimization; RRM)と呼ぶ。
𝐶 𝑓 とは関数𝑓の複雑さ(Complexity)の計測器で、𝜆はその程度を
制御する係数である。

21
正則化項の働きの一例
過学習とDropoutについて
http://sonickun.hatenablog.com/entry/2016/07/18/191656
※このグラフはイメージです。
正則化項とは関係ありません。
グラフを滑らかにするという規則に向かう場合

22
正則化損失最小化
RRMの式に登場した正則化項について以下の問題が浮上する。
1. 複雑さ𝐶 𝑓 をどのように定義するのか
2. 係数𝜆をどうやって選べばよいのか
これらの問題について、それぞれ考えていく。

23
構造的損失最小化 (Structural Risk Minimization)
RRMを用いてモデルの最適化を図ろうとする。
ただし、𝐶 𝑓 は与えられているとする。
𝑓𝜆 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑓 𝑅 𝑒𝑚𝑝 𝑓, 𝑫 + 𝜆𝐶 𝑓
☛ 𝐶 𝑓 は与えられる仮定だが𝜆を選択する必要がある。
訓練データを利用して、𝜆を選択することは出来ない。
⇢ 真の損失(true risk)を過小評価するようになってしまう。

24
代わりに次の式を用いて𝜆を推定する。 𝑅 𝑓𝜆 は𝜆を求めるために推定される
損失の代わりになるものである。
𝜆 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝜆 𝑅 𝑓𝜆
☛ この最適化を
構造的損失最小化(Structural Risk Minimization; SRM)という。
𝑅 𝑓𝜆 の推定について、２つの方法が広く用いられている。
1. 交差検証(Cross Validation)
2. 統計的学習理論などを用いて損失の上界を求める
(Theoretical upper bounds on the risk)

25
交差検証とSRM
SRM with Cross Validation

26
交差検証 (Cross Validation)
訓練データしかなく、検証データ(Test data)がない場合に用いられる手法。
データが少ない時にはすごく便利なので、色んな所で使われている。
訓練に用いているデータセットを訓練に使うものと検証に使うものに
分割し、学習(パラメータ推定など)と検証(モデルの良さを測る)を行う。
☛ 交差検証を用いて、損失 𝑅の推定を行う！

27
☛ このやり方はk-fold法と呼ばれる
与えられたデータ
をK個に分割する
検証データに使う
検証データに使う
訓練データに使う
訓練データに使う

28
交差検証を用いた損失の推定
パラメータを返す関数ℱを定義する。
𝜽 𝑚 = ℱ 𝑫, 𝑚
⇢ 𝑚は多項式の次元のような離散値だったり、
正則化項の強さのような連続値だったりする。関数ℱの中で使われるんだろう。
⇢ ℱの中身は学習アルゴリズムだったりする。

29
次に、パラメータ𝜽と入力𝒙を受け取って予測を行う関数𝒫を定義する。
𝑦 = 𝒫 𝒙, 𝜽
これらを用いて、学習と予測のサイクルは以下のように表せる。
𝑓𝑚 𝒙, 𝑫 = 𝒫 𝒙, ℱ 𝑫, 𝑚
☛ 𝑓𝑚の損失に対するK層の交差検証による推定はこうなる。
𝑅 𝑚, 𝑫, 𝐾 ≜
1
𝑁
𝑘=1
𝐾
𝑖∈𝑫 𝑘
𝐿 𝑦𝑖, 𝒫 𝒙𝑖, ℱ 𝑫−𝒌, 𝑚
𝑘の値が変わるたびに
計算する必要がある
= 𝐾回の学習が必要

30
☛ 交差検証による、この推定の式を一般化する。
𝑘層以外のデータを学習して予測を行う関数を定義する。
𝑓𝑚
𝑘 𝒙 = 𝒫 𝒙, ℱ 𝑫−𝑘, 𝑚
これを用いて、損失の推定は以下のようになる。
𝑅 𝑚, 𝑫, 𝐾 =
1
𝑁
𝑘=1
𝐾
𝑖∈𝑫 𝑘
𝐿 𝑦𝑖, 𝑓𝑚
𝑘
𝒙𝑖 =
1
𝑁
𝑖=1
𝑁
𝐿 𝑦𝑖, 𝑓𝑚
𝑘 𝑖
𝒙𝑖
𝑘 𝑖 は𝑖のデータセットが
属する層のインデックスを返す関数

31
☛ Leave-one-out法(Leave one out CV; LOOCV)
𝐾 = 𝑁と設定する場合、 Leave-one-out法と呼ばれる。
データの最小単位の１つ以外で学習してそのデータで検証。
⇢ この方法は、 𝑁回学習が必要という恐ろしさがある。
☛ 一般化交差検証(Generalized cross validation; GCV)
あるモデルと損失関数に対しては一般化交差検証と呼ばれる手法が利用できる。
この手法においては一度だけの学習で済ませることができる。
ググってもあんまり情報出てこず、
どういうものかはいまいち紹介できません・・・

32
リッジ回帰の損失の𝜆を推定
☛ 交差検証を使って、いよいよ本題の𝜆を推定します。
𝜆 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝜆∈ 𝜆 𝑚𝑖𝑛,𝜆 𝑚𝑎𝑥
𝑅 𝜆, 𝑫 𝑡𝑟𝑎𝑖𝑛, 𝐾 〈構造的損失最小化〉
このやり方では 𝜆 𝑚𝑖𝑛, 𝜆 𝑚𝑎𝑥 という有限区間の中から 𝜆を探します。
𝑅は𝜆 を用いた𝐾層交差検証によって得られる損失であり、
𝑅 𝜆, 𝑫 𝑡𝑟𝑎𝑖𝑛, 𝐾 =
1
𝑫 𝑡𝑟𝑎𝑖𝑛
𝑘=1
𝐾
𝑖∈𝑫 𝑘
𝐿 𝑦𝑖, 𝑓𝜆
𝑘
𝒙𝑖

33
𝑓𝜆
𝑘
𝒙 は以下のように定義される。
𝑓𝜆
𝑘
𝒙 = 𝒙 𝑇
𝒘 𝜆 𝑫−𝑘
与えられたデータで学習したパラメータ𝒘 𝜆 𝑫−𝑘 で値を返す関数。
𝒘 𝜆 𝑫−𝑘 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝒘 𝑁𝐿𝐿 𝒘, 𝑫 + 𝜆 𝒘 2
2
𝒘 の大きさの二乗
さっき言ってた複雑さの定義
負の対数尤度
分類に対して、損失関数𝐿には0-1損失関数を用いるのが良い。
普通は𝒘 𝜆を推定するために経験損失の上界の凸関数(後述の代理損失関数)
を最適化するが、今回の場合は𝜆を最適化する。

34
𝜆を最適化する場合、0-1損失関数を用いた最適化を行える。
最適化をする場合などは、0-1損失関数のようなガタガタ関数には難しい。
⇢ しかし、 𝜆の最適化とは指定した有限区間内で前述の式を最小化する𝜆を
しらみつぶし的に見つけることなので、ガタガタ関数でもいける。
しかしながら、１つや２つのパラメータをこのような方法で
見つけるのは何とか頑張れるが、それ以上になると無理になる。
⇢ しらみつぶし法ってそういうもの。
☛ そのような場合には経験ベイズや勾配法を用いた最適化を行う。

35
損失の上界を求める手法
Upper bounding on the risk

36
統計的学習理論 (Statistical learning theory)
交差検証には最適化が遅いという弱点がある。
⇢ 何度も学習(argmin)を行うので当然っちゃ当然である。
分析的・統計的に汎化誤差の近似や境界を計算することが望まれがち
☛ このような考え方は統計的学習理論(Statistical learning theory; SLT)
という分野として研究されている。

37
統計的学習理論は前述のとおり１つの学術分野であり、その詳細は
紹介した他のトピックに比べると非常に重たい。
気になる方は、以下の資料をどうぞ。
⇢ Introduction to Statistical Learning Theory
http://www.kyb.mpg.de/fileadmin/user_upload/files/publications/pdfs/pdf2819.pdf
⇢ Statistical Learning Theory (Stanford University)
https://web.stanford.edu/class/cs229t/notes.pdf
☛ 今回は統計的学習理論を用いると、
どのようにして最適化するかという概要を紹介する。

38
モデルに対する有限の仮説空間を想定する。
☛ 実数のパラメータを最適化するという、今までに紹介した手法ではなく
この有限空間の中からモデル(仮説)を選択するという方法をとる。
このやり方と交差検証を用いた手法を比較したとき、損失の計算が
交差検証のそれよりも早いという利点がある。
欠点として、実際に損失を求めるための計算の中に、モデルに依っては
難しい計算が含まれてしまう場合がある。

39
代理損失関数 (Surrogate loss functions)
損失をERMやRRMといった手法を用いて最小化することは
しばしば難しくなることがある。
(例) 0-1損失関数を用いた損失の最小化を測る。
一般に、よく分類で行われる最適化である。
さて、いきなり残念なお知らせとして、0-1損失はとてもなめらかな
関数ではない。(何度も言っているが…。)
☛ ガタガタ関数は最適化が難しい。

40
代替の方法として、最尤法を用いることが考えられる。
これは対数尤度は0-1損失において滑らかな凸上界を持つからである。
⇢ そんなわけないと僕は思ったのですが、とりあえず進めます。
これを確かめるために、２値ロジスティック回帰を考える。
分類の結果を𝑦𝑖 ∈ −1, +1 と定義する。
また、分類器𝑓 𝒙𝑖 を以下のように定義する。
𝑓 𝒙 = 𝒘 𝑇 𝒙 = 𝜂
𝜂は入力を分類器にかけたそのままの値で、この値の大小とかで
具体的な分類を定める。(0.5以上なら𝑦𝑖 = 1にするとか)

41
例えば、とても良いパラメータが
習得できている場合は、
𝑦𝑖 = 1, 𝜂𝑖 = 10 ⇒ 𝑝 𝑦𝑖 ≈ 1
𝑦𝑖 = −1, 𝜂𝑖 = −10 ⇒ 𝑝 𝑦𝑖 ≈ 1
と、分布にすごく従ってる感じに
また、出力値であるラベル𝑦𝑖についての確率分布𝑝を次のように定義する。
𝑝 𝑦𝑖|𝒙𝑖, 𝒘 = 𝑠𝑖𝑔𝑚 𝑦𝑖 𝜂𝑖

42
対数損失関数を定義する。
𝐿 𝑁𝐿𝐿 𝑦, 𝜂 = − log 𝑝 𝑦|𝒙, 𝒘 = log(1 + 𝑒−𝑦𝜂)
良いパラメータを求めることは、この損失関数のデータ分布全体の
期待値(平均値)を最小化することである。
☛ やってることは対数尤度を最大化するのと同じことしてる。
ここで、0-1損失関数は次のようになる。
𝐿01 𝑦, 𝜂 = 𝕀 𝑦 ≠ 𝑦 = 𝕀 𝑦𝜂 < 0
𝐿 𝑁𝐿𝐿 𝑦, 𝜂 と𝐿01 𝑦, 𝜂 を可視化すると…

43
☛ 0-1損失関数の上界に
対数損失関数は存在している！
このように0-1損失関数のような
損失の取り方をしたい時に、
代理人のように別の関数を利用する
様から、対数損失関数は
代理損失関数
(Surrogate loss function)
と呼ばれる。

44
0-1損失関数に対する他の代理損失関数の例として、
ヒンジ損失関数(Hinge loss function)がある。
𝐿ℎ𝑖𝑛𝑔𝑒 𝑦, 𝜂 = max 0,1 − 𝑦𝜂
代理損失関数は普通、上界で凸関数なものを選ぶ。
⇢ つまり、ヒンジ損失は選ばない。(この教科書、なんで紹介したんだろう)
凸関数だと最小化しやすい。
⇢ 多分、勾配を求められるからかな？

45
参考文献
☛ 頻度論的統計とベイズ統計の本質的な違い
http://thunder0512.hatenablog.com/entry/2013/10/02/204855
☛ Empirical Risk Minimization
http://www.ra.cs.uni-tuebingen.de/lehre/ss12/advanced_ml/lecture6.pdf
☛ リッジ回帰
http://shogo82148.github.io/homepage/memo/algorithm/ridge-regression/

頻度論とベイズ論と誤差最小化について

More Related Content

What's hot (20)

Similar to 頻度論とベイズ論と誤差最小化について (19)

頻度論とベイズ論と誤差最小化について