Foundation of Machine Leaning section4

Foundation of Machine Leaning
second edition
section 4
2020/4/21,2020/4/23
1

はじめに
機械学習における仮説空間はほぼ無限（３章）
仮説集合ℋをどのように選択すべきか
仮説集合ℋを複雑orリッチに
2
model selection（モデル選択）
理想的なベイズ分類器を含む可能性
近似誤差と推定誤差の観点でトレードオフ
計算が困難

3
Excess error（超過誤差）
推定誤差近似誤差
推定誤差:ある仮説ℎと仮説集合ℋ中の最良の仮説との差
近似誤差:仮説集合ℋ中の最良の仮説とベイズ誤差との差
汎化誤差 𝑅(ℎ)とベイズ誤差 𝑅∗
との差
2つの誤差のトレードオフによってモデルを選択
4.1 Estimation and approximation errors
推定誤差と近似誤差（１）
超過誤差

4
近似誤差にアクセスすることはできない
汎化境界を使用してサンプルによる仮説の推定誤差を制限
ℎ 𝐵𝑎𝑦𝑒𝑠
:推定誤差
:近似誤差
ℋ1
ℋ2
推定誤差が小さい
ℎℋ2
∗
ℎℋ1
∗
ℎ
近似誤差が小さい
トレードオフ
4.1 Estimation and approximation errors
推定誤差と近似誤差（２）

4.2 Empirical risk minimization(ERM)
経験的リスク最小化
5
推定誤差を制限する標準的な方法
仮説集合ℋから経験誤差の最も小さい仮説ℎを選択
Def. Empirical risk minimization
෠𝑅 𝑆(∙): ある仮説の経験（サンプル）誤差

Prop 4.1の証明（１）
ERMによって求めたℎ 𝑆
ERM
は以下の関係が成り立つ
条件
，
6
Prop 4.1
推定誤差の上限値が求まる
推定誤差が𝜖以上である確率上限値

Prop 4.1の証明（２）
7
計算のため追加
より

Prop 4.1の証明（３）
8
より

ERMについて
仮説集合ℋが複雑でない場合
仮説集合ℋが複雑な場合
9
近似誤差が大きくなる可能性
ERMの超過誤差
上限が大きくなる
推定誤差が大きくなる可能性
仮説集合の複雑さを考慮したモデルが必要

10
4.3 Structural risk minimization(SRM)
構造的リスク最小化（１）
Def. Structural risk minimization
仮説集合の複雑さを考慮したERM解
経験誤差と仮説集合の複雑さから仮説を選択

11
構造的リスク最小化（２）
トレードオフの関係の誤差
超過誤差 = 推定誤差 + 近似誤差
超過誤差の上限を最小化する仮説集合ℋ 𝑘∗と仮説ℎの選択
𝓗 𝒌
…
𝓗 𝟐
𝓗 𝟏
仮説集合族ℋ
ℋ𝑘: 仮説集合
近似誤差が小さくなる
複雑な仮説集合ℋを使用

12
学習（一般化？）境界
すべてのℎ ∈ ℋに対して以下が成立
選択する仮説に依存
目的関数
経験誤差罰則項
一般化境界（ 𝑘増加時）

13
SRMの学習保証（１）
SRMによって求めたℎ 𝑆
SRM
は以下の関係が成立
Th. 4.2(SRM Learning guarantee)
任意の𝛿 > 0 で少なくとも 1 − 𝛿 の確率で以下が成立
ℋ𝑘(ℎ): 𝑘(ℎ)番目の仮説集合
𝑘(ℎ): ℎを含むℋ𝑘のうち，最小のインデックスを返す

14
Th. 4.2の証明（１）
仮説集合ℋを ℋ𝑘に
書き換え
𝑘についての上限と
和の関係
Th. 4.2の前に以下の不等式を証明

15
Th. 4.2の証明（２）
上記の式を変形するためにTh. 3.5 の使用
目的関数の代入
Th. 3.5
Th. 3.5の不等式関係を逆にする
⇔
・・・＊

16
移行する
⇔
上記の下線部から𝛿を求める
＊の式
log
1
𝛿
2𝑚
= 𝜖 +
log 𝑘
𝑚
𝛿 = exp(−2𝑚 ϵ +
log 𝑘
𝑚
2
)
Th. 4.2の証明（３）

17
より
＊の式に上記の式を適用
𝛿 より以下の不等式が成立
Th. 4.2の証明（４）

18
Th. 4.2の証明（５）
Th. 4.2の証明に以下の不等式を使用
確率変数𝑋1, 𝑋2に対して
ℙ 𝑋1 + 𝑋2 > 𝜖 ≤ ℙ 𝑋1 >
𝜖
2
+ ℙ 𝑋2 >
𝜖
2
Inequality. 1
𝐹 𝑘 ℎ 𝑆
SRM ℎ 𝑆
SRM
≤ 𝐹 𝑘 ℎ (ℎ)
ℎ 𝑆
SRM
の定義より
Inequality. 2
Inequality. 3

19
Th. 4.2の証明（６）
Inequality.1の使用

20
Th. 4.2の証明（７）
目的関数を変形し ෠𝑅 𝑆(ℎ)を代入
Th. 3.5 の使用
3𝑒−
𝑚𝜖2
2 = 𝛿 を𝜖 について解くと， ϵ =
2 log
3
𝛿
𝑚

21
SRMの学習保証（２）
𝑅 ℎ∗
= infℎ∈ℋ 𝑅 ℎ である ℎ∗
が存在
⇒任意の𝛿 > 0 で少なくとも 1 − 𝛿 の確率で以下が成立
仮説集合が十分に複雑かつ𝑅 ℎ∗
がベイズ誤差に近い
超過誤差はSRM解に近い

22
最適解のための計算量について
𝑚𝑖𝑛ℎ∈ℋ 𝑘
𝐹𝑘 ℎ ≤ 𝑚𝑖𝑛ℎ∈ℋ 𝑘+1
𝐹𝑘 ℎ が成立
𝑘 𝑚𝑎𝑥 , 𝑘∗
を見つけるための計算量は 𝑂 𝑛 = 𝑂(log 𝑘 𝑚𝑎𝑥)
𝑘 + 1以降に最適解は存在しない
𝑚𝑖𝑛ℎ∈ℋ2 𝑛 𝐹𝑘 ℎ ≤ 𝑚𝑖𝑛ℎ∈ℋ2 𝑛+1 𝐹𝑘 ℎ が成立するような
2 𝑛
= 𝑘 𝑚𝑎𝑥を探索
[1, 𝑘 𝑚𝑎𝑥] 区間で最適解 𝑘∗
を二分探索で発見

23
SRMについて
SRMは非常に有益な保証を得ることが可能
欠点
➢ 数えきれないほど多くの仮説集合に分解でき，
それぞれの複雑さが収束するのは仮定のまま
➢ ERM解を求める必要があるが，NP困難
SRMは計算上非常に扱いにくい

4.4 Cross-validation
交差検証法（1）
24
サンプルを学習用と検証用に分割
学習用検証用
𝑚
(1 − 𝛼)𝑚 𝛼𝑚
𝛼 ∈ (0,1)
学習用サンプルで求めた仮説の，
検証用サンプルに対する誤差を用いて仮説を決定
帰納的に仮説を決定

交差検証法（2）
交差検証法を用いて得た仮説 ℎ 𝑆
𝐶𝑉
を以下のように定義
25
𝑆:サンプル全体
𝑆1:サンプル全体を分割したうちの学習用サンプル
𝑆2:サンプル全体を分割したうちの検証用サンプル
ℎ 𝑆1,𝑘
𝐸𝑅𝑀
:仮説集合ℋ𝑘とサンプル𝑆1が与えられた時の
ERMによる仮説
検証用サンプルに対する精度が最も良い仮説を選択

Proposition 4.3
任意の 𝛼 > 0 ，𝑚 ≥ 1 について以下が成立
26
Prop 4.3
𝛼:検証用サンプルの割合
𝑚:与えられたサンプル全体の大きさ

Prop 4.3の証明（1）
27
Proposition 4.3を証明
最大値≤総和より

28
𝑆1と𝑆2は独立であるため，Hoeffding’s inequality(D.2)が
適用可能
Hoeffding’s
inequalityより

29
21Pより
22Pより
のため

Theorem 4.4 (Cross-validation versus SRM)
交差検証法による仮説と，SRM法による仮説の汎化誤差を
比較することで，以下のような学習保障が得られる
30
Th. 4.4(Cross-validation versus SRM)
任意の 𝛿 > 0 で，少なくとも1 − 𝛿 の確率で下式が成立
𝑘(ℎ): ℎを含む𝐻 𝑘のうち，最小のインデックスを返す

Th 4.4の証明（1）
Prop4.3を利用し，右辺より𝜖を解くと
31
Prop4.3を変形し
上記の式より

Th 4.4の証明（2）
32
1行目と同様に
上記の不等式より

Th 4.4のより明示的な変形（1）
Th4.4はより明示的にすることが可能
33
𝑖𝑓
𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
以下を満たす 𝐻 𝑘 が与えられた時，
以下が成り立つ

34
Th 4.4のより明示的な変形（2）
また，以下が成り立つ
それにより全ての 𝑓𝐶𝑉について以下が成り立つ
また以下を満たす𝑓𝑆 𝑅𝑀が存在する
よって以下の不等式が成り立つ

αの大きさによるトレードオフ
35
αが小さい
誤差の差の上限:
𝑆1の小ささによるリスク:
Th. 4.4(Cross-validation versus SRM)
αが大きい
誤差の差の上限:
𝑆1の小ささによるリスク:
トレードオフ
サンプルが(1−α)m個の時， m個の時より性能が落ちる可能性

交差検証法のまとめ
36
利点
計算上の問題なく，SRMに近い保障を得ることが可能
欠点
𝑆1の取りかたによっては，𝑆全体を利用した時と比較
して性能が大幅に落ちる可能性が存在

4.5 n-Fold cross-validation
𝑛分割交差検証法（1）
サンプルを複数に分割して検証に用いる部分を
変えながら誤差の平均値を求める
37
検証学習学習学習学習
…
学習用サンプルによってはサンプル全体で学習した
場合よりパフォーマンスが著しく悪化する可能性

𝑛分割交差検証法（2）
𝜃：アルゴリズムの自由パラメータ配列
1. サイズ𝑚のサンプル𝑆を𝑛個に分割
2. 任意の𝑖 ∈ [𝑛]について，𝑖番目以外のサンプル群を
用いてアルゴリズムを学習，仮説ℎ𝑖を生成
3. ℎ𝑖の𝑖番目のサンプル（検証用）における誤差の平均
＝交差検証誤差 ෠𝑅CV(𝜃)を算出
38

サンプルの分割数𝑛
サンプルの分割数𝑛は ෠𝑅CV(𝜃)の偏りと分散のトレードオフ
39
𝑛が大きい場合：
• 学習用サンプルのサイズが大きくなる
• 検証用サンプルのサイズが小さくなる
෠𝑅CV(𝜃)の偏りは小，分散は大
𝑛が小さい場合：
• 学習用サンプルのサイズが小さくなる
• 検証用サンプルのサイズが大きくなる
෠𝑅CV(𝜃)の偏りは大，分散は小
一般的には𝑛 = 5 𝑜𝑟 10 とされることが多い

モデル選択における𝑛分割交差検証
1. 全サンプルを学習用とテスト用に分割
2. 学習用サンプルにn分割交差検証を行い
෠𝑅CV(𝜃)が最小となる自由パラメータ𝜃0を決定
3. 学習用サンプル全体でアルゴリズムを学習
4. テスト用サンプルを用いてアルゴリズムを評価
40

leave-one-out交差検証
𝑛 = 𝑚の場合をleave-one-out（一つ抜き）交差検証と呼ぶ
• 検証用サンプル数が1つだけであることに由来
• ෠𝑅CV(𝜃)がほぼ不偏
• 計算コストが大（サイズ𝑚 − 1のデータで𝑚回学習）
41

パフォーマンス評価における 𝑛分割交差検証
𝑛分割交差検証はパフォーマンス評価にも用いられる
パラメータ𝜃について，
1. 全サンプルを学習/検証用の区別なく𝑛個に分割
2. 全サンプルに対する𝑛分割交差検証誤差，および
各分割における誤差の標準偏差を算出
42

4.6 Regularization based algorithm
正則化ベースアルゴリズム
仮説の複雑さに対して罰則を与えるアルゴリズム
例: SRM
43
Regularization based algorithmとは
以下を満たす無限仮説空間ℋ𝛾が与えられた時，
ℋ:全ての線形関数の集合
SRM法を無限仮説空間に拡張し，以下のようにℎを選択

正則化について
仮説集合の複雑さに対する罰則項をまとめると，
44
＝
多くの場合，最適化問題の制約をなくすこと可能な
関数が任意のγ＞0，とあるλ＞0で存在
は正則化項，λは正則化パラメータと呼称される
λが大きいほど，仮説の複雑さへのペナルティが増加

正則化項の凸性
45
多くはℎのノルムによる増加関数を正則化項に採用
正則化項が，𝑝 ≥ 1 正則化項はℎの凸関数
0-1損失を使用最適化問題の第一項は非凸関数
一方で
最適化問題は計算困難
凸な，0-1損失の上限を代用最適化問題が凸関数に
解決策として
最適化問題は計算可能

4.7 Convex surrogate losses
凸代替損失関数（１）
ERM最適化問題の計算はNP困難
0-1損失関数は凸でないため
46
凸の代替関数で0-1損失の上限値を設定

凸代替損失関数（２）
について以下を定義
47
ℎの点における損失を以下に定義

凸代替損失関数（３）
𝜂 𝑥 = ℙ[𝑦 = +1|𝑥]，𝒟 𝑋を𝑋の周辺分布として，
ℎの損失の期待値𝑅(ℎ)は以下のように表せる
48
場合分け

Lemma 4.5
49
ベイズスコア関数 ℎ∗
を以下の式で定義
Lemma4.5
任意の仮説ℎについて
ℎの超過誤差は𝜂とℎ∗
を用いて以下のように表せる
また，𝑅∗
= 𝑅 ℎ∗
をベイズスコア関数の誤差とする
𝑦が
1
2
以上の確率で，あるラベルとなるとき
正しい予測を返す

Lemma 4.5の証明（1）
任意のℎについて，
50
反転
ℎ∗の定義

Lemma 4.5の証明（2）
51

Φ損失関数
52
記号定義
定義
, ,
𝑦が+1である確率 𝑦が−1である確率
Φ損失関数
𝑦とℎ(𝑥)が異なるとき1以上を返す
仮説ℎにおけるΦ損失の期待値
,かつΦ(∙)は凸で非減少

Φ損失関数の一般化
Φ損失を一般化
損失関数を最小化する仮説ℎΦ
∗
53
Φ損失関数

損失の最小化
54
𝜂 𝑥 = 0
ℎΦ
∗
𝑥 は𝑢 = −∞で最小
𝜂 𝑥 = 1
ℎΦ
∗
𝑥 はu = +∞で最小
𝜂 𝑥 =
1
2
ℎΦ
∗
𝑥 はu = 0で最小
損失の最小化について
その他
Φによって決まる

55
劣微分
微分不可能な点（絶対値など）の傾き
𝑓(∙)が凸関数のとき𝑥0における劣微分は
を満たす𝑐の集合である
具体的には区間[𝑎, 𝑏]に存在
微分不可能な点の微分を集合として扱う

Propositon 4.6
56
ϕを最小化するBayes classfier:ℎ∗
(x)に関して以下が成立
Proposition 4.6
仮定
ϕ: 0で微分可能な非減少凸関数
ϕ′
0 > 0
結論
任意のについて

57
η 𝑥 = 0 ℎ∗
𝑥 = −
1
2
， ℎϕ
∗
𝑥 = −∞
η 𝑥 = 1 ℎ∗
𝑥 =
1
2
， ℎϕ
∗
𝑥 = ∞
η 𝑥 が0,1の時， ℎ∗
𝑥 とℎϕ
∗
𝑥 の符号が一致
Prop 4.6の証明（１）

58
𝑢∗
= ℎϕ
∗
𝑥 であり，以下が成り立つ
⇔
𝑢∗
が𝑢 ↦ 𝐿Φ(𝑥, 𝑢)を最小化
，が存在
を満たす，
今後よく出る
⇔
Prop 4.6の証明（２）

59
𝑢∗
= 0の時，𝜙は0で微分可能なため，
ϕ′ 0 = ϕ′(−0)，𝑣1
∗
= 𝑣2
∗
= ϕ′
0 > 0が成り立つ
より，𝜂 𝑥 =
1
2
, ℎ∗
𝑥 = 0
逆にℎ∗
𝑥 = 0の時， 𝜂 𝑥 =
1
2
，
よって，スライド54𝑝より，ℎ 𝜙
∗
= u∗
= 0
ℎ∗
𝑥 = 0 ⇔ ℎ 𝜙
∗
= 0 ⇔ 𝜂 𝑥 =
1
2
Prop 4.6の証明（３）

𝑢1 < 𝑢2である任意の𝑢1, 𝑢2 ∈ ℝ，
およびその劣勾配𝑣1 ∈ 𝜕Φ 𝑢1 , 𝑣2 ∈ 𝜕Φ 𝑢2 について，
60
以上の連立により
𝑢1 < 𝑢2なので，𝑣2 ≥ 𝑣1
以降，𝜂 𝑥 ∉ {0,1,
1
2
}を想定
Prop 4.6の証明（４）

➢ 𝑣1
∗
= 𝑣2
∗
= 0も不成立
➢𝑣1
∗
≤ 𝑣2
∗
61
➢ 𝑣1
∗
= 𝑣2
∗
≠ 0 は不成立
（ 𝑢∗
> 0 より 0 < Φ′
0 ≤ 𝜕Φ(𝑢∗
) = 𝑣2
∗
であるため）
𝑢∗
> 0の場合，以下のことが言える
よって，
（において𝜂(𝑥) =
1
2
となるため）
以上より， 𝑣1
∗
< 𝑣2
∗
のため， 𝜂 𝑥 > 1 − 𝜂 𝑥 ⇒ ℎ∗
𝑥 > 0
（𝑢1 < 𝑢2ならば𝑣2 ≥ 𝑣1であり−𝑢∗ < 𝑢∗ であるため）
Prop 4.6の証明（５）

62
➢𝜂 𝑥 > 1 − 𝜂 𝑥
➢ 𝑣1
∗
≠ 𝑣2
∗
𝑢∗
≠ 0，62ページより
➢𝑣1
∗
< 𝑣2
∗
上記の式，𝜂 𝑥 ≠ 1，𝜂 𝑥 𝑣1
∗
= 1 − 𝜂 𝑥 𝑣2
∗
より
➢−𝑢∗
< 𝑢∗
𝑣1
∗
< 𝑣2
∗
より
逆に，ℎ∗
𝑥 > 0の場合，以下のことが言える
以上のことから，ℎ 𝜙
∗
= u∗
> 0が成り立つ
よって，
Prop 4.6の証明（６）

Φ損失による超過誤差の上限
63
Th. 4.7
:凸かつ非減少関数
𝑠 ≥ 1, 𝑐 > 0が存在し，すべての 𝑥 ∈ 𝑋に対して
以下の式を満たす
仮定
結論
任意の仮説 ℎ に対して以下の式が成り立つ

64
Th4.7の証明（１）
の凸性によって以下の不等式が成り立つ
ℎ∗を代入
DefinitionB.7より
≤
Convexity Inequality

65
Th4.7の証明（２）
Lemma 4.5
ℎ∗ 𝑥 = η 𝑥 −
1
2
を代入
上の式を以下のJensen’s inequalityを用いて変形
Jensen’s Inequality

66
𝑓 𝑥 = 𝑥 𝑠
, 𝑋 = 2𝜂 𝑥 − 1 1ℎ 𝑥 ℎ∗ 𝑥 ≤0とする
Jensen’s inequality
Th4.7の証明（３）

67
Th4.7の証明（４）
仮定:
は非減少関数
Convexity inequality

68
Th4.7の証明（５）
Φ損失から超過誤差の上限を設定可能

𝚽の例
69
Φ に対して，Th 4.7の仮定が成り立つs, 𝑐を適切に設定する
例
ヒンジ損失
指数関数損失
ロジスティック損失
→ 𝑠 = 1, 𝑐 =
1
2
→ 𝑠 = 2, 𝑐 =
1
2
→ 𝑠 = 2, 𝑐 =
1
2
⇒損失Φによる超過誤差の上限が分かる

４章のまとめ
70
モデル選択および誤差の上限設定
モデル選択手法
➢ ERM，SRM
➢ N分割交差検証
➢ 凸代替損失関数

Foundation of Machine Leaning section4

More Related Content

Featured (20)

Foundation of Machine Leaning section4