Submit Search
頻度論とベイズ論と誤差最小化について
Download as PPTX, PDF
5 likes
3,013 views
Shohei Miyashita
Machine Learning a Probabilistic Perspective Ch.6-5
Engineering
Read more
1 of 45
Download now
Downloaded 14 times
1
2
Most read
3
4
Most read
5
6
7
8
9
10
Most read
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
More Related Content
PDF
機械学習と深層学習の数理
Ryo Nakamura
PDF
ELBO型VAEのダメなところ
KCS Keio Computer Society
PDF
数学で解き明かす深層学習の原理
Taiji Suzuki
PPTX
強化学習アルゴリズムPPOの解説と実験
克海 納谷
PDF
PRML学習者から入る深層生成モデル入門
tmtm otm
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
PPTX
変分ベイズ法の説明
Haruka Ozaki
PPTX
劣モジュラ最適化と機械学習1章
Hakky St
機械学習と深層学習の数理
Ryo Nakamura
ELBO型VAEのダメなところ
KCS Keio Computer Society
数学で解き明かす深層学習の原理
Taiji Suzuki
強化学習アルゴリズムPPOの解説と実験
克海 納谷
PRML学習者から入る深層生成モデル入門
tmtm otm
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
変分ベイズ法の説明
Haruka Ozaki
劣モジュラ最適化と機械学習1章
Hakky St
What's hot
(20)
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
PPTX
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
PDF
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
Kenyu Uehara
PPTX
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
PPTX
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
PDF
最適輸送入門
joisino
PPTX
Triplet Loss 徹底解説
tancoro
PPTX
猫でも分かるVariational AutoEncoder
Sho Tatsuno
PPTX
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
PDF
TensorFlowで逆強化学習
Mitsuhisa Ohta
PDF
不均衡データのクラス分類
Shintaro Fukushima
PPTX
PRML第6章「カーネル法」
Keisuke Sugawara
PPTX
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
PDF
方策勾配型強化学習の基礎と応用
Ryo Iwaki
PDF
機械学習モデルの判断根拠の説明
Satoshi Hara
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
PDF
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
Preferred Networks
PPTX
金融時系列のための深層t過程回帰モデル
Kei Nakagawa
PDF
強化学習その1
nishio
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
Kenyu Uehara
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
最適輸送入門
joisino
Triplet Loss 徹底解説
tancoro
猫でも分かるVariational AutoEncoder
Sho Tatsuno
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
TensorFlowで逆強化学習
Mitsuhisa Ohta
不均衡データのクラス分類
Shintaro Fukushima
PRML第6章「カーネル法」
Keisuke Sugawara
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
方策勾配型強化学習の基礎と応用
Ryo Iwaki
機械学習モデルの判断根拠の説明
Satoshi Hara
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
Preferred Networks
金融時系列のための深層t過程回帰モデル
Kei Nakagawa
強化学習その1
nishio
Ad
Similar to 頻度論とベイズ論と誤差最小化について
(19)
PPTX
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Ryutaro Yamauchi
PDF
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
Naoki Hayashi
PDF
ベイズ統計入門
Miyoshi Yuya
PDF
第4章 確率的学習---単純ベイズを使った分類
Wataru Shito
PDF
正則化による尤度比推定法を応用した多値分類器の改良
MasatoKikuchi4
PDF
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Zansa
PDF
データ解析4 確率の復習
Hirotaka Hachiya
PDF
【論文レベルで理解しよう!】 欠測値処理編
ARISE analytics
PDF
PRML第3章_3.3-3.4
Takashi Tamura
PDF
第5回スキル養成講座 講義スライド
keiodig
PDF
Introduction to statistics
Kohta Ishikawa
PDF
20190512 bayes hands-on
Yoichi Tokita
PDF
データ解析6 重回帰分析
Hirotaka Hachiya
PDF
Deep learning入門
magoroku Yamamoto
PPTX
ベイズ統計学
moritama1515
PPTX
PRML第9章「混合モデルとEM」
Keisuke Sugawara
PPTX
Rゼミ 3
tarokun3
PPTX
ベイズ統計学の概論的紹介-old
Naoki Hayashi
PDF
第8回スキル養成講座講義資料.pdf
keiodig
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Ryutaro Yamauchi
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
Naoki Hayashi
ベイズ統計入門
Miyoshi Yuya
第4章 確率的学習---単純ベイズを使った分類
Wataru Shito
正則化による尤度比推定法を応用した多値分類器の改良
MasatoKikuchi4
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Zansa
データ解析4 確率の復習
Hirotaka Hachiya
【論文レベルで理解しよう!】 欠測値処理編
ARISE analytics
PRML第3章_3.3-3.4
Takashi Tamura
第5回スキル養成講座 講義スライド
keiodig
Introduction to statistics
Kohta Ishikawa
20190512 bayes hands-on
Yoichi Tokita
データ解析6 重回帰分析
Hirotaka Hachiya
Deep learning入門
magoroku Yamamoto
ベイズ統計学
moritama1515
PRML第9章「混合モデルとEM」
Keisuke Sugawara
Rゼミ 3
tarokun3
ベイズ統計学の概論的紹介-old
Naoki Hayashi
第8回スキル養成講座講義資料.pdf
keiodig
Ad
頻度論とベイズ論と誤差最小化について
1.
1 Machine Learning a Probabilistic
Perspective Chapter 6. 5
2.
2 Agenda ☛ FrequentistsとBayesiansについての確認 ☛ 誤差最小化に関する話 ⇢
経験誤差最小化 (Empirical Risk Minimization) ⇢ 正規化誤差最小化 (Regularized Risk Minimization) ⇢ 構造的誤差最小化 (Structural Risk Minimization)
3.
3 Frequentists と Bayesians 統計学の分野で考え方の違う2つの宗派 ⇢
考え方というか、扱うデータや確率変数の捉え方・見方? ☛ 頻度論 (Frequentists) 頻度論の考え方は、古典統計学とも呼ばれ、その考え方は 普通の統計学の考え方という感じがする ☛ ベイズ論 (Bayesians) 新しい統計学の考え方で、ベイズの定理に基づいて考える
4.
4 2つの宗派を比べる問題設定 ある母集団からランダムにサンプルされたデータ群𝐷を考える。 このデータ群𝐷は平均𝜇、分散𝜎2の正規分布𝑁に従っていることがわかっている。 この時に𝐾回サンプルを行ったとして、𝑖番目のデータを𝐷𝑖とする。
5.
5 頻度論と正規分布 母集団とはデータであり、決まった値である ⇢ 至極当然のように聞こえますね (例) ある時点での日本人の平均身長は固定された1つの値 頻度論の考え方では𝐷𝑖と𝐷𝑗が違ったりばらつきがあるのは、 ランダムにとっているから、それは違うデータになるだろう! ⇢
という、これまた至極当然のような・・・
6.
6 ベイズ論と正規分布 今手に入っているデータ群こそが固定された値であり、それぞれのデータに変動 があるのは、母集団が変化しているからである ⇢ つまり、母集団が確率的に変動しているという考え ☛ 変に聞こえるかもしれないが、実際には手に入るデータは 変化しようもなく、唯一無二の存在であるので、それほど おかしい考え方ではないようにも思える。
7.
7 頻度論とベイズ論では同じ問題に対して、それぞれの捉え方が 異なるだけであって、「一体これがどうしたんだ・・?」という疑問が 湧いてくるが、実際この捉え方の違いで問題を解決出来るか出来ないか が決まったりするものだから、驚きである。
8.
8 経験損失最小化 Empirical Risk Minimization
9.
9 損失関数 (Loss Function) ☛
推定の悪さを表現する関数 ⇢ 0-1損失関数 𝐿 𝑦, 𝑦 = 𝕀 𝑦 ≠ 𝑦 ※ 𝕀とは条件をみたすときに1を、それ以外の時に0を返す関数 ⇢ 絶対値損失関数 𝐿 𝑦, 𝑦 = 𝑦 − 𝑦 ⇢ 2乗誤差損失関数 𝐿 𝑦, 𝑦 = 𝑦 − 𝑦 2
10.
10 経験損失* (Empirical Risk) ☛
あるデータ群𝑫に対する損失関数の期待値(平均値) ただし、 𝑫とは𝒙と𝑦の𝑁個からなる教師データ、 𝑓が性能を図りたい何らかの分類器、 𝐿は損失関数とする。 𝑅 𝑒𝑚𝑝 𝑓, 𝑃 = 𝐸 𝒙,𝑦 ~𝑃 𝐿(𝑓 𝒙 , 𝑦) * 標本誤差、経験誤差などとも呼ばれる
11.
11 経験損失と頻度論とベイズ論 ここで、始めに紹介した頻度論とベイズ論の考え方の違いに 依る問題が生じる。 この経験損失𝑅 𝑒𝑚𝑝 𝑓,
𝑫 は簡単に計算できるだろうか?
12.
12 ベイズ論の場合 母集団から得られたデータ群𝑫とはデータであり、 確率的に変動するものではない ⇢ 前述のとおり、確率的に変動するのは母集団の方である ☛ 従って、ベイズ論で考えると、データそのものに依存しているため、データ群𝑫 を使ってそのまま経験損失を計算してしまえば良い
13.
13 ベイズ論の場合、経験損失とは以下のように表せる。 𝑅 𝑒𝑚𝑝 𝑓,
𝑫 = 1 𝑁 𝑖=1 𝑁 𝐿 𝑓 𝒙𝑖 , 𝑦𝑖 確率的に変動しない固定データである𝑫を用いて、それを用いた 損失関数の結果の平均をとってやればいいのである。
14.
14 頻度論の場合 得られたデータ群𝑫は確率的に変動してしまうため、 これを使うのでは正しい経験損失が得られない ☛ 正しい経験損失を得るためには固定されたデータ、つまり 母集団の分布に関する情報=母集団P 𝒙|𝜽
を決定する モデルのパラメータ𝜽が必要である しかし、母集団のモデルのパラメータは 基本的には得られない!
15.
15 経験損失は母集団の分布𝑃に依存していて、これは計算出来ない。 𝑅 𝑒𝑚𝑝 𝑓,
𝑃 = 𝐸 𝒙,𝑦 ~𝑃 𝐿(𝑓 𝒙 , 𝑦) この問題は、母集団の分布ではなく、得られたデータ𝑫分布を 用いることで解決する。 𝑅 𝑒𝑚𝑝 𝑓, 𝑃 → 𝑅 𝑒𝑚𝑝 𝑓, 𝑝∗ 要するに、 ☛ 母集団の分布、つまり真の分布は求められないので、データから 分布𝑝∗を求めて、それを使って経験損失を計算する
16.
16 そうなると「𝑝∗をどうやって求めるか」という新たな問題が生じる。 ☛ 𝑝∗を経験分布(Empirical Distribution)で近似する。 𝑝∗
𝒙, 𝑦 ≈ 𝑝 𝑒𝑚𝑝 𝒙, 𝑦 経験分布は以下のように定義される 𝑝 𝑒𝑚𝑝 𝒙, 𝑦 ≜ 1 𝑁 𝑖=1 𝑁 𝛿 𝒙 𝑖 𝒙 𝛿 𝑦 𝑖 𝑦 式で見ると少しややこしいが、 データ群にたくさん含まれてる データほど強い値を示す分布である 𝛿 𝑎(𝑏)とはクロネッカーのデルタ関数で、 a = 𝑏のときに1を返し、それ以外の時は 0を返す関数である。
17.
17 経験損失最小化 (Empirical Risk
Minimization) 経験分布𝑝 𝑒𝑚𝑝を用いて、経験損失𝑅 𝑒𝑚𝑝を再定義する。 𝑅 𝑒𝑚𝑝 𝑓, 𝑫 ≜ 𝑅 𝑒𝑚𝑝 𝑓, 𝑝 𝑒𝑚𝑝 = 1 𝑁 𝑖=1 𝑁 𝐿 𝑓 𝒙𝑖 , 𝑦𝑖 ☛ お分かりいただけただろうか? データの分布を経験分布にした時、ベイズ論の経験損失と頻度論の経験損失は 同じものになる。
18.
18 そもそも、経験損失を考えていたのはモデルのパラメータを決定する際に、「経験 損失の最小にするパラメータを探す」という手段をとるため。 従って、幾つか分類器𝑓が存在する中で、 𝑓𝐸𝑅𝑀 𝑫 =
𝑎𝑟𝑔𝑚𝑖𝑛 𝑓 𝑅 𝑒𝑚𝑝 𝑫, 𝑓 というルールに基いて、𝑓を推定する。 これを、経験損失最小化(Empirical Risk Minimization; ERM)という。
19.
19 正則化損失最小化 Regularized Risk Minimization
20.
20 ここまでで紹介した経験損失最小化(ERM)だが、一般にERMは 過学習するという事が分かっている。 ☛ そこで、過学習を防ぐための正則化項を設けた手法を取る。 𝑅′ 𝑓, 𝑫
= 𝑅 𝑒𝑚𝑝 𝑓, 𝑫 + 𝜆𝐶 𝑓 正則化項を加えたこの損失を用いて、損失の最小化を図ることを 正則化損失最小化(Regularized Risk Minimization; RRM)と呼ぶ。 𝐶 𝑓 とは関数𝑓の複雑さ(Complexity)の計測器で、𝜆はその程度を 制御する係数である。
21.
21 正則化項の働きの一例 過学習とDropoutについて http://sonickun.hatenablog.com/entry/2016/07/18/191656 ※このグラフはイメージです。 正則化項とは関係ありません。 グラフを滑らかにするという規則に向かう場合
22.
22 正則化損失最小化 RRMの式に登場した正則化項について以下の問題が浮上する。 1. 複雑さ𝐶 𝑓
をどのように定義するのか 2. 係数𝜆をどうやって選べばよいのか これらの問題について、それぞれ考えていく。
23.
23 構造的損失最小化 (Structural Risk
Minimization) RRMを用いてモデルの最適化を図ろうとする。 ただし、𝐶 𝑓 は与えられているとする。 𝑓𝜆 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝑓 𝑅 𝑒𝑚𝑝 𝑓, 𝑫 + 𝜆𝐶 𝑓 ☛ 𝐶 𝑓 は与えられる仮定だが𝜆を選択する必要がある。 訓練データを利用して、𝜆を選択することは出来ない。 ⇢ 真の損失(true risk)を過小評価するようになってしまう。
24.
24 代わりに次の式を用いて𝜆を推定する。 𝑅 𝑓𝜆
は𝜆を求めるために推定される 損失の代わりになるものである。 𝜆 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝜆 𝑅 𝑓𝜆 ☛ この最適化を 構造的損失最小化(Structural Risk Minimization; SRM)という。 𝑅 𝑓𝜆 の推定について、2つの方法が広く用いられている。 1. 交差検証(Cross Validation) 2. 統計的学習理論などを用いて損失の上界を求める (Theoretical upper bounds on the risk)
25.
25 交差検証とSRM SRM with Cross
Validation
26.
26 交差検証 (Cross Validation) 訓練データしかなく、検証データ(Test
data)がない場合に用いられる手法。 データが少ない時にはすごく便利なので、色んな所で使われている。 訓練に用いているデータセットを訓練に使うものと検証に使うものに 分割し、学習(パラメータ推定など)と検証(モデルの良さを測る)を行う。 ☛ 交差検証を用いて、損失 𝑅の推定を行う!
27.
27 ☛ このやり方はk-fold法と呼ばれる 与えられたデータ をK個に分割する 検証データに使う 検証データに使う 訓練データに使う 訓練データに使う
28.
28 交差検証を用いた損失の推定 パラメータを返す関数ℱを定義する。 𝜽 𝑚 =
ℱ 𝑫, 𝑚 ⇢ 𝑚は多項式の次元のような離散値だったり、 正則化項の強さのような連続値だったりする。関数ℱの中で使われるんだろう。 ⇢ ℱの中身は学習アルゴリズムだったりする。
29.
29 次に、パラメータ𝜽と入力𝒙を受け取って予測を行う関数𝒫を定義する。 𝑦 = 𝒫
𝒙, 𝜽 これらを用いて、学習と予測のサイクルは以下のように表せる。 𝑓𝑚 𝒙, 𝑫 = 𝒫 𝒙, ℱ 𝑫, 𝑚 ☛ 𝑓𝑚の損失に対するK層の交差検証による推定はこうなる。 𝑅 𝑚, 𝑫, 𝐾 ≜ 1 𝑁 𝑘=1 𝐾 𝑖∈𝑫 𝑘 𝐿 𝑦𝑖, 𝒫 𝒙𝑖, ℱ 𝑫−𝒌, 𝑚 𝑘の値が変わるたびに 計算する必要がある = 𝐾回の学習が必要
30.
30 ☛ 交差検証による、この推定の式を一般化する。 𝑘層以外のデータを学習して予測を行う関数を定義する。 𝑓𝑚 𝑘 𝒙
= 𝒫 𝒙, ℱ 𝑫−𝑘, 𝑚 これを用いて、損失の推定は以下のようになる。 𝑅 𝑚, 𝑫, 𝐾 = 1 𝑁 𝑘=1 𝐾 𝑖∈𝑫 𝑘 𝐿 𝑦𝑖, 𝑓𝑚 𝑘 𝒙𝑖 = 1 𝑁 𝑖=1 𝑁 𝐿 𝑦𝑖, 𝑓𝑚 𝑘 𝑖 𝒙𝑖 𝑘 𝑖 は𝑖のデータセットが 属する層のインデックスを返す関数
31.
31 ☛ Leave-one-out法(Leave one
out CV; LOOCV) 𝐾 = 𝑁と設定する場合、 Leave-one-out法と呼ばれる。 データの最小単位の1つ以外で学習してそのデータで検証。 ⇢ この方法は、 𝑁回学習が必要という恐ろしさがある。 ☛ 一般化交差検証(Generalized cross validation; GCV) あるモデルと損失関数に対しては一般化交差検証と呼ばれる手法が利用できる。 この手法においては一度だけの学習で済ませることができる。 ググってもあんまり情報出てこず、 どういうものかはいまいち紹介できません・・・
32.
32 リッジ回帰の損失の𝜆を推定 ☛ 交差検証を使って、いよいよ本題の𝜆を推定します。 𝜆 =
𝑎𝑟𝑔𝑚𝑖𝑛 𝜆∈ 𝜆 𝑚𝑖𝑛,𝜆 𝑚𝑎𝑥 𝑅 𝜆, 𝑫 𝑡𝑟𝑎𝑖𝑛, 𝐾 〈構造的損失最小化〉 このやり方では 𝜆 𝑚𝑖𝑛, 𝜆 𝑚𝑎𝑥 という有限区間の中から 𝜆を探します。 𝑅は𝜆 を用いた𝐾層交差検証によって得られる損失であり、 𝑅 𝜆, 𝑫 𝑡𝑟𝑎𝑖𝑛, 𝐾 = 1 𝑫 𝑡𝑟𝑎𝑖𝑛 𝑘=1 𝐾 𝑖∈𝑫 𝑘 𝐿 𝑦𝑖, 𝑓𝜆 𝑘 𝒙𝑖
33.
33 𝑓𝜆 𝑘 𝒙 は以下のように定義される。 𝑓𝜆 𝑘 𝒙 =
𝒙 𝑇 𝒘 𝜆 𝑫−𝑘 与えられたデータで学習したパラメータ𝒘 𝜆 𝑫−𝑘 で値を返す関数。 𝒘 𝜆 𝑫−𝑘 = 𝑎𝑟𝑔𝑚𝑖𝑛 𝒘 𝑁𝐿𝐿 𝒘, 𝑫 + 𝜆 𝒘 2 2 𝒘 の大きさの二乗 さっき言ってた複雑さの定義 負の対数尤度 分類に対して、損失関数𝐿には0-1損失関数を用いるのが良い。 普通は𝒘 𝜆を推定するために経験損失の上界の凸関数(後述の代理損失関数) を最適化するが、今回の場合は𝜆を最適化する。
34.
34 𝜆を最適化する場合、0-1損失関数を用いた最適化を行える。 最適化をする場合などは、0-1損失関数のようなガタガタ関数には難しい。 ⇢ しかし、 𝜆の最適化とは指定した有限区間内で前述の式を最小化する𝜆を しらみつぶし的に見つけることなので、ガタガタ関数でもいける。 しかしながら、1つや2つのパラメータをこのような方法で 見つけるのは何とか頑張れるが、それ以上になると無理になる。 ⇢
しらみつぶし法ってそういうもの。 ☛ そのような場合には経験ベイズや勾配法を用いた最適化を行う。
35.
35 損失の上界を求める手法 Upper bounding on
the risk
36.
36 統計的学習理論 (Statistical learning
theory) 交差検証には最適化が遅いという弱点がある。 ⇢ 何度も学習(argmin)を行うので当然っちゃ当然である。 分析的・統計的に汎化誤差の近似や境界を計算することが望まれがち ☛ このような考え方は統計的学習理論(Statistical learning theory; SLT) という分野として研究されている。
37.
37 統計的学習理論は前述のとおり1つの学術分野であり、その詳細は 紹介した他のトピックに比べると非常に重たい。 気になる方は、以下の資料をどうぞ。 ⇢ Introduction to
Statistical Learning Theory http://www.kyb.mpg.de/fileadmin/user_upload/files/publications/pdfs/pdf2819.pdf ⇢ Statistical Learning Theory (Stanford University) https://web.stanford.edu/class/cs229t/notes.pdf ☛ 今回は統計的学習理論を用いると、 どのようにして最適化するかという概要を紹介する。
38.
38 モデルに対する有限の仮説空間を想定する。 ☛ 実数のパラメータを最適化するという、今までに紹介した手法ではなく この有限空間の中からモデル(仮説)を選択するという方法をとる。 このやり方と交差検証を用いた手法を比較したとき、損失の計算が 交差検証のそれよりも早いという利点がある。 欠点として、実際に損失を求めるための計算の中に、モデルに依っては 難しい計算が含まれてしまう場合がある。
39.
39 代理損失関数 (Surrogate loss
functions) 損失をERMやRRMといった手法を用いて最小化することは しばしば難しくなることがある。 (例) 0-1損失関数を用いた損失の最小化を測る。 一般に、よく分類で行われる最適化である。 さて、いきなり残念なお知らせとして、0-1損失はとてもなめらかな 関数ではない。(何度も言っているが…。) ☛ ガタガタ関数は最適化が難しい。
40.
40 代替の方法として、最尤法を用いることが考えられる。 これは対数尤度は0-1損失において滑らかな凸上界を持つからである。 ⇢ そんなわけないと僕は思ったのですが、とりあえず進めます。 これを確かめるために、2値ロジスティック回帰を考える。 分類の結果を𝑦𝑖 ∈
−1, +1 と定義する。 また、分類器𝑓 𝒙𝑖 を以下のように定義する。 𝑓 𝒙 = 𝒘 𝑇 𝒙 = 𝜂 𝜂は入力を分類器にかけたそのままの値で、この値の大小とかで 具体的な分類を定める。(0.5以上なら𝑦𝑖 = 1にするとか)
41.
41 例えば、とても良いパラメータが 習得できている場合は、 𝑦𝑖 = 1,
𝜂𝑖 = 10 ⇒ 𝑝 𝑦𝑖 ≈ 1 𝑦𝑖 = −1, 𝜂𝑖 = −10 ⇒ 𝑝 𝑦𝑖 ≈ 1 と、分布にすごく従ってる感じに また、出力値であるラベル𝑦𝑖についての確率分布𝑝を次のように定義する。 𝑝 𝑦𝑖|𝒙𝑖, 𝒘 = 𝑠𝑖𝑔𝑚 𝑦𝑖 𝜂𝑖
42.
42 対数損失関数を定義する。 𝐿 𝑁𝐿𝐿 𝑦,
𝜂 = − log 𝑝 𝑦|𝒙, 𝒘 = log(1 + 𝑒−𝑦𝜂) 良いパラメータを求めることは、この損失関数のデータ分布全体の 期待値(平均値)を最小化することである。 ☛ やってることは対数尤度を最大化するのと同じことしてる。 ここで、0-1損失関数は次のようになる。 𝐿01 𝑦, 𝜂 = 𝕀 𝑦 ≠ 𝑦 = 𝕀 𝑦𝜂 < 0 𝐿 𝑁𝐿𝐿 𝑦, 𝜂 と𝐿01 𝑦, 𝜂 を可視化すると…
43.
43 ☛ 0-1損失関数の上界に 対数損失関数は存在している! このように0-1損失関数のような 損失の取り方をしたい時に、 代理人のように別の関数を利用する 様から、対数損失関数は 代理損失関数 (Surrogate loss
function) と呼ばれる。
44.
44 0-1損失関数に対する他の代理損失関数の例として、 ヒンジ損失関数(Hinge loss function)がある。 𝐿ℎ𝑖𝑛𝑔𝑒
𝑦, 𝜂 = max 0,1 − 𝑦𝜂 代理損失関数は普通、上界で凸関数なものを選ぶ。 ⇢ つまり、ヒンジ損失は選ばない。(この教科書、なんで紹介したんだろう) 凸関数だと最小化しやすい。 ⇢ 多分、勾配を求められるからかな?
45.
45 参考文献 ☛ 頻度論的統計とベイズ統計の本質的な違い http://thunder0512.hatenablog.com/entry/2013/10/02/204855 ☛ Empirical
Risk Minimization http://www.ra.cs.uni-tuebingen.de/lehre/ss12/advanced_ml/lecture6.pdf ☛ リッジ回帰 http://shogo82148.github.io/homepage/memo/algorithm/ridge-regression/
Download