Foundation of Machine Leaning
second edition
section 4
2020/4/21,2020/4/23
1
はじめに
機械学習における仮説空間はほぼ無限(3章)
仮説集合ℋをどのように選択すべきか
仮説集合ℋを複雑orリッチに
2
model selection(モデル選択)
理想的なベイズ分類器を含む可能性
近似誤差と推定誤差の観点でトレードオフ
計算が困難
3
Excess error(超過誤差)
推定誤差 近似誤差
推定誤差:ある仮説ℎと仮説集合ℋ中の最良の仮説との差
近似誤差:仮説集合ℋ中の最良の仮説とベイズ誤差との差
汎化誤差 𝑅(ℎ)とベイズ誤差 𝑅∗
との差
2つの誤差のトレードオフによってモデルを選択
4.1 Estimation and approximation errors
推定誤差と近似誤差 (1)
超過誤差
4
近似誤差にアクセスすることはできない
汎化境界を使用してサンプルによる仮説の推定誤差を制限
ℎ 𝐵𝑎𝑦𝑒𝑠
:推定誤差
:近似誤差
ℋ1
ℋ2
推定誤差が小さい
ℎℋ2
∗
ℎℋ1
∗
ℎ
近似誤差が小さい
トレードオフ
4.1 Estimation and approximation errors
推定誤差と近似誤差 (2)
4.2 Empirical risk minimization(ERM)
経験的リスク最小化
5
推定誤差を制限する標準的な方法
仮説集合ℋから経験誤差の最も小さい仮説ℎを選択
Def. Empirical risk minimization
෠𝑅 𝑆(∙): ある仮説の経験(サンプル)誤差
4.2 Empirical risk minimization(ERM)
Prop 4.1の証明(1)
ERMによって求めたℎ 𝑆
ERM
は以下の関係が成り立つ
条件
,
6
Prop 4.1
推定誤差の上限値が求まる
推定誤差が𝜖以上である確率 上限値
4.2 Empirical risk minimization(ERM)
Prop 4.1の証明(2)
7
計算のため追加
より
計算のため追加
4.2 Empirical risk minimization(ERM)
Prop 4.1の証明(3)
8
より
4.2 Empirical risk minimization(ERM)
ERMについて
仮説集合ℋが複雑でない場合
仮説集合ℋが複雑な場合
9
近似誤差が大きくなる可能性
ERMの超過誤差
上限が大きくなる
推定誤差が大きくなる可能性
仮説集合の複雑さを考慮したモデルが必要
10
4.3 Structural risk minimization(SRM)
構造的リスク最小化(1)
Def. Structural risk minimization
仮説集合の複雑さを考慮したERM解
経験誤差と仮説集合の複雑さから仮説を選択
11
4.3 Structural risk minimization(SRM)
構造的リスク最小化(2)
トレードオフの関係の誤差
超過誤差 = 推定誤差 + 近似誤差
超過誤差の上限を最小化する仮説集合ℋ 𝑘∗と仮説ℎの選択
𝓗 𝒌
…
𝓗 𝟐
𝓗 𝟏
仮説集合族ℋ
ℋ𝑘: 仮説集合
近似誤差が小さくなる
複雑な仮説集合ℋを使用
12
4.3 Structural risk minimization(SRM)
学習(一般化?)境界
すべてのℎ ∈ ℋに対して以下が成立
選択する仮説に依存
目的関数
経験誤差 罰則項
一般化境界( 𝑘増加時)
13
4.3 Structural risk minimization(SRM)
SRMの学習保証(1)
SRMによって求めたℎ 𝑆
SRM
は以下の関係が成立
Th. 4.2(SRM Learning guarantee)
任意の𝛿 > 0 で少なくとも 1 − 𝛿 の確率で以下が成立
ℋ𝑘(ℎ): 𝑘(ℎ)番目の仮説集合
𝑘(ℎ): ℎを含むℋ𝑘のうち,最小のインデックスを返す
14
4.3 Structural risk minimization(SRM)
Th. 4.2の証明(1)
仮説集合ℋを ℋ𝑘に
書き換え
𝑘についての上限と
和の関係
Th. 4.2の前に以下の不等式を証明
15
4.3 Structural risk minimization(SRM)
Th. 4.2の証明(2)
上記の式を変形するためにTh. 3.5 の使用
目的関数の代入
Th. 3.5
Th. 3.5の不等式関係を逆にする
⇔
・・・*
16
移行する
⇔
上記の下線部から𝛿を求める
*の式
log
1
𝛿
2𝑚
= 𝜖 +
log 𝑘
𝑚
𝛿 = exp(−2𝑚 ϵ +
log 𝑘
𝑚
2
)
4.3 Structural risk minimization(SRM)
Th. 4.2の証明(3)
17
より
*の式に上記の式を適用
𝛿 より以下の不等式が成立
4.3 Structural risk minimization(SRM)
Th. 4.2の証明(4)
18
4.3 Structural risk minimization(SRM)
Th. 4.2の証明(5)
Th. 4.2の証明に以下の不等式を使用
確率変数𝑋1, 𝑋2に対して
ℙ 𝑋1 + 𝑋2 > 𝜖 ≤ ℙ 𝑋1 >
𝜖
2
+ ℙ 𝑋2 >
𝜖
2
Inequality. 1
𝐹 𝑘 ℎ 𝑆
SRM ℎ 𝑆
SRM
≤ 𝐹 𝑘 ℎ (ℎ)
ℎ 𝑆
SRM
の定義より
Inequality. 2
Inequality. 3
19
4.3 Structural risk minimization(SRM)
Th. 4.2の証明(6)
Inequality.1の使用
Inequality.2の使用
計算のため追加
Inequality.3の使用
20
4.3 Structural risk minimization(SRM)
Th. 4.2の証明(7)
目的関数を変形し ෠𝑅 𝑆(ℎ)を代入
Th. 3.5 の使用
3𝑒−
𝑚𝜖2
2 = 𝛿 を𝜖 について解くと, ϵ =
2 log
3
𝛿
𝑚
21
4.3 Structural risk minimization(SRM)
SRMの学習保証(2)
𝑅 ℎ∗
= infℎ∈ℋ 𝑅 ℎ である ℎ∗
が存在
⇒任意の𝛿 > 0 で少なくとも 1 − 𝛿 の確率で以下が成立
仮説集合が十分に複雑かつ𝑅 ℎ∗
がベイズ誤差に近い
超過誤差はSRM解に近い
22
4.3 Structural risk minimization(SRM)
最適解のための計算量について
𝑚𝑖𝑛ℎ∈ℋ 𝑘
𝐹𝑘 ℎ ≤ 𝑚𝑖𝑛ℎ∈ℋ 𝑘+1
𝐹𝑘 ℎ が成立
𝑘 𝑚𝑎𝑥 , 𝑘∗
を見つけるための計算量は 𝑂 𝑛 = 𝑂(log 𝑘 𝑚𝑎𝑥)
𝑘 + 1以降に最適解は存在しない
𝑚𝑖𝑛ℎ∈ℋ2 𝑛 𝐹𝑘 ℎ ≤ 𝑚𝑖𝑛ℎ∈ℋ2 𝑛+1 𝐹𝑘 ℎ が成立するような
2 𝑛
= 𝑘 𝑚𝑎𝑥を探索
[1, 𝑘 𝑚𝑎𝑥] 区間で最適解 𝑘∗
を二分探索で発見
23
4.3 Structural risk minimization(SRM)
SRMについて
SRMは非常に有益な保証を得ることが可能
欠点
➢ 数えきれないほど多くの仮説集合に分解でき,
それぞれの複雑さが収束するのは仮定のまま
➢ ERM解を求める必要があるが,NP困難
SRMは計算上非常に扱いにくい
4.4 Cross-validation
交差検証法(1)
24
サンプルを学習用と検証用に分割
学習用 検証用
𝑚
(1 − 𝛼)𝑚 𝛼𝑚
𝛼 ∈ (0,1)
学習用サンプルで求めた仮説の,
検証用サンプルに対する誤差を用いて仮説を決定
帰納的に仮説を決定
4.4 Cross-validation
交差検証法(2)
交差検証法を用いて得た仮説 ℎ 𝑆
𝐶𝑉
を以下のように定義
25
𝑆:サンプル全体
𝑆1:サンプル全体を分割したうちの学習用サンプル
𝑆2:サンプル全体を分割したうちの検証用サンプル
ℎ 𝑆1,𝑘
𝐸𝑅𝑀
:仮説集合ℋ𝑘とサンプル𝑆1が与えられた時の
ERMによる仮説
検証用サンプルに対する精度が最も良い仮説を選択
4.4 Cross-validation
Proposition 4.3
任意の 𝛼 > 0 ,𝑚 ≥ 1 について以下が成立
26
Prop 4.3
𝛼:検証用サンプルの割合
𝑚:与えられたサンプル全体の大きさ
4.4 Cross-validation
Prop 4.3の証明(1)
27
Proposition 4.3を証明
最大値≤総和より
4.4 Cross-validation
Prop 4.3の証明(2)
28
𝑆1と𝑆2は独立であるため,Hoeffding’s inequality(D.2)が
適用可能
Hoeffding’s
inequalityより
4.4 Cross-validation
Prop 4.3の証明(3)
29
21Pより
22Pより
のため
4.4 Cross-validation
Theorem 4.4 (Cross-validation versus SRM)
交差検証法による仮説と,SRM法による仮説の汎化誤差を
比較することで,以下のような学習保障が得られる
30
Th. 4.4(Cross-validation versus SRM)
任意の 𝛿 > 0 で,少なくとも1 − 𝛿 の確率で下式が成立
𝑘(ℎ): ℎを含む𝐻 𝑘のうち,最小のインデックスを返す
4.4 Cross-validation
Th 4.4の証明(1)
Prop4.3を利用し,右辺より𝜖を解くと
31
Prop4.3を変形し
上記の式より
4.4 Cross-validation
Th 4.4の証明(2)
32
1行目と同様に
上記の不等式より
4.4 Cross-validation
Th 4.4のより明示的な変形(1)
Th4.4はより明示的にすることが可能
33
𝑖𝑓
𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
以下を満たす 𝐻 𝑘 が与えられた時,
以下が成り立つ
34
4.4 Cross-validation
Th 4.4のより明示的な変形(2)
また,以下が成り立つ
それにより全ての 𝑓𝐶𝑉について以下が成り立つ
また以下を満たす𝑓𝑆 𝑅𝑀が存在する
よって以下の不等式が成り立つ
4.4 Cross-validation
αの大きさによるトレードオフ
35
αが小さい
誤差の差の上限:
𝑆1の小ささによるリスク:
Th. 4.4(Cross-validation versus SRM)
αが大きい
誤差の差の上限:
𝑆1の小ささによるリスク:
トレードオフ
サンプルが(1−α)m個の時, m個の時より性能が落ちる可能性
4.4 Cross-validation
交差検証法のまとめ
36
利点
計算上の問題なく,SRMに近い保障を得ることが可能
欠点
𝑆1の取りかたによっては,𝑆全体を利用した時と比較
して性能が大幅に落ちる可能性が存在
4.5 n-Fold cross-validation
𝑛分割交差検証法(1)
サンプルを複数に分割して検証に用いる部分を
変えながら誤差の平均値を求める
37
検証学習学習学習学習
検証学習 学習学習学習
…
検証 学習 学習学習学習
学習用サンプルによってはサンプル全体で学習した
場合よりパフォーマンスが著しく悪化する可能性
4.5 n-Fold cross-validation
𝑛分割交差検証法(2)
𝜃:アルゴリズムの自由パラメータ配列
1. サイズ𝑚のサンプル𝑆を𝑛個に分割
2. 任意の𝑖 ∈ [𝑛]について,𝑖番目以外のサンプル群を
用いてアルゴリズムを学習,仮説ℎ𝑖を生成
3. ℎ𝑖の𝑖番目のサンプル(検証用)における誤差の平均
=交差検証誤差 ෠𝑅CV(𝜃)を算出
38
4.5 n-Fold cross-validation
サンプルの分割数𝑛
サンプルの分割数𝑛は ෠𝑅CV(𝜃)の偏りと分散のトレードオフ
39
𝑛が大きい場合:
• 学習用サンプルのサイズが大きくなる
• 検証用サンプルのサイズが小さくなる
෠𝑅CV(𝜃)の偏りは小,分散は大
𝑛が小さい場合:
• 学習用サンプルのサイズが小さくなる
• 検証用サンプルのサイズが大きくなる
෠𝑅CV(𝜃)の偏りは大,分散は小
一般的には𝑛 = 5 𝑜𝑟 10 とされることが多い
4.5 n-Fold cross-validation
モデル選択における𝑛分割交差検証
1. 全サンプルを学習用とテスト用に分割
2. 学習用サンプルにn分割交差検証を行い
෠𝑅CV(𝜃)が最小となる自由パラメータ𝜃0を決定
3. 学習用サンプル全体でアルゴリズムを学習
4. テスト用サンプルを用いてアルゴリズムを評価
40
4.5 n-Fold cross-validation
leave-one-out交差検証
𝑛 = 𝑚の場合をleave-one-out(一つ抜き)交差検証と呼ぶ
• 検証用サンプル数が1つだけであることに由来
• ෠𝑅CV(𝜃)がほぼ不偏
• 計算コストが大(サイズ𝑚 − 1のデータで𝑚回学習)
41
4.5 n-Fold cross-validation
パフォーマンス評価における 𝑛分割交差検証
𝑛分割交差検証はパフォーマンス評価にも用いられる
パラメータ𝜃について,
1. 全サンプルを学習/検証用の区別なく𝑛個に分割
2. 全サンプルに対する𝑛分割交差検証誤差,および
各分割における誤差の標準偏差を算出
42
4.6 Regularization based algorithm
正則化ベースアルゴリズム
仮説の複雑さに対して罰則を与えるアルゴリズム
例: SRM
43
Regularization based algorithmとは
以下を満たす無限仮説空間ℋ𝛾が与えられた時,
ℋ:全ての線形関数の集合
SRM法を無限仮説空間に拡張し,以下のようにℎを選択
4.6 Regularization based algorithm
正則化について
仮説集合の複雑さに対する罰則項をまとめると,
44
=
多くの場合,最適化問題の制約をなくすこと可能な
関数 が任意のγ>0,とあるλ>0で存在
は正則化項,λは正則化パラメータと呼称される
λが大きいほど,仮説の複雑さへのペナルティが増加
4.6 Regularization based algorithm
正則化項の凸性
45
多くはℎのノルムによる増加関数を正則化項に採用
正則化項が ,𝑝 ≥ 1 正則化項はℎの凸関数
0-1損失を使用 最適化問題の第一項は非凸関数
一方で
最適化問題は計算困難
凸な,0-1損失の上限を代用 最適化問題が凸関数に
解決策として
最適化問題は計算可能
4.7 Convex surrogate losses
凸代替損失関数(1)
ERM最適化問題の計算はNP困難
0-1損失関数は凸でないため
46
凸の代替関数で0-1損失の上限値を設定
4.7 Convex surrogate losses
凸代替損失関数(2)
について以下を定義
47
ℎの点 における損失を以下に定義
4.7 Convex surrogate losses
凸代替損失関数(3)
𝜂 𝑥 = ℙ[𝑦 = +1|𝑥],𝒟 𝑋を𝑋の周辺分布として,
ℎの損失の期待値𝑅(ℎ)は以下のように表せる
48
場合分け
4.7 Convex surrogate losses
Lemma 4.5
49
ベイズスコア関数 ℎ∗
を以下の式で定義
Lemma4.5
任意の仮説ℎについて
ℎの超過誤差は𝜂とℎ∗
を用いて以下のように表せる
また,𝑅∗
= 𝑅 ℎ∗
をベイズスコア関数の誤差とする
𝑦が
1
2
以上の確率で,あるラベルとなるとき
正しい予測を返す
4.7 Convex surrogate losses
Lemma 4.5の証明(1)
任意のℎについて,
50
反転
ℎ∗の定義
4.7 Convex surrogate losses
Lemma 4.5の証明(2)
51
4.7 Convex surrogate losses
Φ損失関数
52
記号定義
定義
, ,
𝑦が+1である確率 𝑦が−1である確率
Φ損失関数
𝑦とℎ(𝑥)が異なるとき1以上を返す
仮説ℎにおけるΦ損失の期待値
,かつΦ(∙)は凸で非減少
4.7 Convex surrogate losses
Φ損失関数の一般化
Φ損失を一般化
損失関数を最小化する仮説ℎΦ
∗
53
Φ損失関数
4.7 Convex surrogate losses
損失の最小化
54
𝜂 𝑥 = 0
ℎΦ
∗
𝑥 は𝑢 = −∞で最小
𝜂 𝑥 = 1
ℎΦ
∗
𝑥 はu = +∞で最小
𝜂 𝑥 =
1
2
ℎΦ
∗
𝑥 はu = 0で最小
損失の最小化について
その他
Φによって決まる
55
4.7 Convex surrogate losses
劣微分
微分不可能な点(絶対値など)の傾き
𝑓(∙)が凸関数のとき𝑥0における劣微分は
を満たす𝑐の集合である
具体的には区間[𝑎, 𝑏]に存在
微分不可能な点の微分を集合として扱う
4.7 Convex surrogate losses
Propositon 4.6
56
ϕを最小化するBayes classfier:ℎ∗
(x)に関して以下が成立
Proposition 4.6
仮定
ϕ: 0で微分可能な非減少凸関数
ϕ′
0 > 0
結論
任意の について
57
η 𝑥 = 0 ℎ∗
𝑥 = −
1
2
, ℎϕ
∗
𝑥 = −∞
η 𝑥 = 1 ℎ∗
𝑥 =
1
2
, ℎϕ
∗
𝑥 = ∞
η 𝑥 が0,1の時, ℎ∗
𝑥 とℎϕ
∗
𝑥 の符号が一致
4.7 Convex surrogate losses
Prop 4.6の証明(1)
58
𝑢∗
= ℎϕ
∗
𝑥 であり,以下が成り立つ
⇔
𝑢∗
が𝑢 ↦ 𝐿Φ(𝑥, 𝑢)を最小化
, が存在
を満たす,
今後よく出る
⇔
4.7 Convex surrogate losses
Prop 4.6の証明(2)
59
𝑢∗
= 0の時,𝜙は0で微分可能なため,
ϕ′ 0 = ϕ′(−0),𝑣1
∗
= 𝑣2
∗
= ϕ′
0 > 0が成り立つ
より,𝜂 𝑥 =
1
2
, ℎ∗
𝑥 = 0
逆にℎ∗
𝑥 = 0の時, 𝜂 𝑥 =
1
2
,
よって,スライド54𝑝より,ℎ 𝜙
∗
= u∗
= 0
ℎ∗
𝑥 = 0 ⇔ ℎ 𝜙
∗
= 0 ⇔ 𝜂 𝑥 =
1
2
4.7 Convex surrogate losses
Prop 4.6の証明(3)
𝑢1 < 𝑢2である任意の𝑢1, 𝑢2 ∈ ℝ,
およびその劣勾配𝑣1 ∈ 𝜕Φ 𝑢1 , 𝑣2 ∈ 𝜕Φ 𝑢2 について,
60
以上の連立により
𝑢1 < 𝑢2なので,𝑣2 ≥ 𝑣1
以降,𝜂 𝑥 ∉ {0,1,
1
2
}を想定
4.7 Convex surrogate losses
Prop 4.6の証明(4)
➢ 𝑣1
∗
= 𝑣2
∗
= 0も不成立
➢𝑣1
∗
≤ 𝑣2
∗
61
➢ 𝑣1
∗
= 𝑣2
∗
≠ 0 は不成立
( 𝑢∗
> 0 より 0 < Φ′
0 ≤ 𝜕Φ(𝑢∗
) = 𝑣2
∗
であるため)
𝑢∗
> 0の場合,以下のことが言える
よって,
( において𝜂(𝑥) =
1
2
となるため)
以上より, 𝑣1
∗
< 𝑣2
∗
のため, 𝜂 𝑥 > 1 − 𝜂 𝑥 ⇒ ℎ∗
𝑥 > 0
(𝑢1 < 𝑢2ならば𝑣2 ≥ 𝑣1であり−𝑢∗ < 𝑢∗ であるため)
4.7 Convex surrogate losses
Prop 4.6の証明(5)
62
➢𝜂 𝑥 > 1 − 𝜂 𝑥
➢ 𝑣1
∗
≠ 𝑣2
∗
𝑢∗
≠ 0,62ページより
➢𝑣1
∗
< 𝑣2
∗
上記の式,𝜂 𝑥 ≠ 1,𝜂 𝑥 𝑣1
∗
= 1 − 𝜂 𝑥 𝑣2
∗
より
➢−𝑢∗
< 𝑢∗
𝑣1
∗
< 𝑣2
∗
より
逆に,ℎ∗
𝑥 > 0の場合,以下のことが言える
以上のことから,ℎ 𝜙
∗
= u∗
> 0が成り立つ
よって,
4.7 Convex surrogate losses
Prop 4.6の証明(6)
4.7 Convex surrogate losses
Φ損失による超過誤差の上限
63
Th. 4.7
:凸かつ非減少関数
𝑠 ≥ 1, 𝑐 > 0が存在し,すべての 𝑥 ∈ 𝑋に対して
以下の式を満たす
仮定
結論
任意の仮説 ℎ に対して以下の式が成り立つ
64
4.7 Convex surrogate losses
Th4.7の証明(1)
の凸性によって以下の不等式が成り立つ
ℎ∗を代入
DefinitionB.7より
≤
Convexity Inequality
65
4.7 Convex surrogate losses
Th4.7の証明(2)
Lemma 4.5
ℎ∗ 𝑥 = η 𝑥 −
1
2
を代入
上の式を以下のJensen’s inequalityを用いて変形
Jensen’s Inequality
66
𝑓 𝑥 = 𝑥 𝑠
, 𝑋 = 2𝜂 𝑥 − 1 1ℎ 𝑥 ℎ∗ 𝑥 ≤0とする
Jensen’s inequality
4.7 Convex surrogate losses
Th4.7の証明(3)
67
4.7 Convex surrogate losses
Th4.7の証明(4)
仮定:
は非減少関数
Convexity inequality
68
4.7 Convex surrogate losses
Th4.7の証明(5)
Φ損失から超過誤差の上限を設定可能
4.7 Convex surrogate losses
𝚽の例
69
Φ に対して,Th 4.7の仮定が成り立つs, 𝑐を適切に設定する
例
ヒンジ損失
指数関数損失
ロジスティック損失
→ 𝑠 = 1, 𝑐 =
1
2
→ 𝑠 = 2, 𝑐 =
1
2
→ 𝑠 = 2, 𝑐 =
1
2
⇒損失Φによる超過誤差の上限が分かる
4章のまとめ
70
モデル選択および誤差の上限設定
モデル選択手法
➢ ERM,SRM
➢ N分割交差検証
➢ 凸代替損失関数

More Related Content

PDF
打ち切りデータのヒストグラム
PPT
Survival analysis0702
PPT
Survival analysis0702 2
PDF
第5回Zansa勉強会
PDF
幾何を使った統計のはなし
PPTX
Rゼミ 3
PPTX
Risk based portfolio with large dynamic covariance matrices
PDF
Feature Generationg Networks for Zero-Shot Learning 論文紹介
打ち切りデータのヒストグラム
Survival analysis0702
Survival analysis0702 2
第5回Zansa勉強会
幾何を使った統計のはなし
Rゼミ 3
Risk based portfolio with large dynamic covariance matrices
Feature Generationg Networks for Zero-Shot Learning 論文紹介
Ad

Foundation of Machine Leaning section4