Upload
Download free for 30 days
Login
Submit Search
Foundation of Machine Leaning section4
0 likes
47 views
Y
YukiK2
ERMとSRMの一部を担当しました.
Technology
Read more
1 of 70
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
More Related Content
PDF
打ち切りデータのヒストグラム
Ko Abe
PPT
Survival analysis0702
Nobuaki Oshiro
PPT
Survival analysis0702 2
Nobuaki Oshiro
PDF
第5回Zansa勉強会
Zansa
PDF
幾何を使った統計のはなし
Toru Imai
PPTX
Rゼミ 3
tarokun3
PPTX
Risk based portfolio with large dynamic covariance matrices
Kei Nakagawa
PDF
Feature Generationg Networks for Zero-Shot Learning 論文紹介
YukiK2
打ち切りデータのヒストグラム
Ko Abe
Survival analysis0702
Nobuaki Oshiro
Survival analysis0702 2
Nobuaki Oshiro
第5回Zansa勉強会
Zansa
幾何を使った統計のはなし
Toru Imai
Rゼミ 3
tarokun3
Risk based portfolio with large dynamic covariance matrices
Kei Nakagawa
Feature Generationg Networks for Zero-Shot Learning 論文紹介
YukiK2
Featured
(20)
PDF
2024 Trend Updates: What Really Works In SEO & Content Marketing
Search Engine Journal
PDF
Storytelling For The Web: Integrate Storytelling in your Design Process
Chiara Aliotta
PDF
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
OECD Directorate for Financial and Enterprise Affairs
PDF
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
SocialHRCamp
PDF
2024 State of Marketing Report – by Hubspot
Marius Sescu
PDF
Everything You Need To Know About ChatGPT
Expeed Software
PDF
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
PDF
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
PDF
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
PDF
Skeleton Culture Code
Skeleton Technologies
PDF
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
PDF
Content Methodology: A Best Practices Report (Webinar)
contently
PPTX
How to Prepare For a Successful Job Search for 2024
Albert Qian
PDF
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
PDF
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
PDF
5 Public speaking tips from TED - Visualized summary
SpeakerHub
PDF
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
PDF
Getting into the tech field. what next
Tessa Mero
PDF
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
PDF
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
2024 Trend Updates: What Really Works In SEO & Content Marketing
Search Engine Journal
Storytelling For The Web: Integrate Storytelling in your Design Process
Chiara Aliotta
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
OECD Directorate for Financial and Enterprise Affairs
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
SocialHRCamp
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Ad
Foundation of Machine Leaning section4
1.
Foundation of Machine
Leaning second edition section 4 2020/4/21,2020/4/23 1
2.
はじめに 機械学習における仮説空間はほぼ無限(3章) 仮説集合ℋをどのように選択すべきか 仮説集合ℋを複雑orリッチに 2 model selection(モデル選択) 理想的なベイズ分類器を含む可能性 近似誤差と推定誤差の観点でトレードオフ 計算が困難
3.
3 Excess error(超過誤差) 推定誤差 近似誤差 推定誤差:ある仮説ℎと仮説集合ℋ中の最良の仮説との差 近似誤差:仮説集合ℋ中の最良の仮説とベイズ誤差との差 汎化誤差
𝑅(ℎ)とベイズ誤差 𝑅∗ との差 2つの誤差のトレードオフによってモデルを選択 4.1 Estimation and approximation errors 推定誤差と近似誤差 (1) 超過誤差
4.
4 近似誤差にアクセスすることはできない 汎化境界を使用してサンプルによる仮説の推定誤差を制限 ℎ 𝐵𝑎𝑦𝑒𝑠 :推定誤差 :近似誤差 ℋ1 ℋ2 推定誤差が小さい ℎℋ2 ∗ ℎℋ1 ∗ ℎ 近似誤差が小さい トレードオフ 4.1 Estimation
and approximation errors 推定誤差と近似誤差 (2)
5.
4.2 Empirical risk
minimization(ERM) 経験的リスク最小化 5 推定誤差を制限する標準的な方法 仮説集合ℋから経験誤差の最も小さい仮説ℎを選択 Def. Empirical risk minimization 𝑅 𝑆(∙): ある仮説の経験(サンプル)誤差
6.
4.2 Empirical risk
minimization(ERM) Prop 4.1の証明(1) ERMによって求めたℎ 𝑆 ERM は以下の関係が成り立つ 条件 , 6 Prop 4.1 推定誤差の上限値が求まる 推定誤差が𝜖以上である確率 上限値
7.
4.2 Empirical risk
minimization(ERM) Prop 4.1の証明(2) 7 計算のため追加 より 計算のため追加
8.
4.2 Empirical risk
minimization(ERM) Prop 4.1の証明(3) 8 より
9.
4.2 Empirical risk
minimization(ERM) ERMについて 仮説集合ℋが複雑でない場合 仮説集合ℋが複雑な場合 9 近似誤差が大きくなる可能性 ERMの超過誤差 上限が大きくなる 推定誤差が大きくなる可能性 仮説集合の複雑さを考慮したモデルが必要
10.
10 4.3 Structural risk
minimization(SRM) 構造的リスク最小化(1) Def. Structural risk minimization 仮説集合の複雑さを考慮したERM解 経験誤差と仮説集合の複雑さから仮説を選択
11.
11 4.3 Structural risk
minimization(SRM) 構造的リスク最小化(2) トレードオフの関係の誤差 超過誤差 = 推定誤差 + 近似誤差 超過誤差の上限を最小化する仮説集合ℋ 𝑘∗と仮説ℎの選択 𝓗 𝒌 … 𝓗 𝟐 𝓗 𝟏 仮説集合族ℋ ℋ𝑘: 仮説集合 近似誤差が小さくなる 複雑な仮説集合ℋを使用
12.
12 4.3 Structural risk
minimization(SRM) 学習(一般化?)境界 すべてのℎ ∈ ℋに対して以下が成立 選択する仮説に依存 目的関数 経験誤差 罰則項 一般化境界( 𝑘増加時)
13.
13 4.3 Structural risk
minimization(SRM) SRMの学習保証(1) SRMによって求めたℎ 𝑆 SRM は以下の関係が成立 Th. 4.2(SRM Learning guarantee) 任意の𝛿 > 0 で少なくとも 1 − 𝛿 の確率で以下が成立 ℋ𝑘(ℎ): 𝑘(ℎ)番目の仮説集合 𝑘(ℎ): ℎを含むℋ𝑘のうち,最小のインデックスを返す
14.
14 4.3 Structural risk
minimization(SRM) Th. 4.2の証明(1) 仮説集合ℋを ℋ𝑘に 書き換え 𝑘についての上限と 和の関係 Th. 4.2の前に以下の不等式を証明
15.
15 4.3 Structural risk
minimization(SRM) Th. 4.2の証明(2) 上記の式を変形するためにTh. 3.5 の使用 目的関数の代入 Th. 3.5 Th. 3.5の不等式関係を逆にする ⇔ ・・・*
16.
16 移行する ⇔ 上記の下線部から𝛿を求める *の式 log 1 𝛿 2𝑚 = 𝜖 + log
𝑘 𝑚 𝛿 = exp(−2𝑚 ϵ + log 𝑘 𝑚 2 ) 4.3 Structural risk minimization(SRM) Th. 4.2の証明(3)
17.
17 より *の式に上記の式を適用 𝛿 より以下の不等式が成立 4.3 Structural
risk minimization(SRM) Th. 4.2の証明(4)
18.
18 4.3 Structural risk
minimization(SRM) Th. 4.2の証明(5) Th. 4.2の証明に以下の不等式を使用 確率変数𝑋1, 𝑋2に対して ℙ 𝑋1 + 𝑋2 > 𝜖 ≤ ℙ 𝑋1 > 𝜖 2 + ℙ 𝑋2 > 𝜖 2 Inequality. 1 𝐹 𝑘 ℎ 𝑆 SRM ℎ 𝑆 SRM ≤ 𝐹 𝑘 ℎ (ℎ) ℎ 𝑆 SRM の定義より Inequality. 2 Inequality. 3
19.
19 4.3 Structural risk
minimization(SRM) Th. 4.2の証明(6) Inequality.1の使用 Inequality.2の使用 計算のため追加 Inequality.3の使用
20.
20 4.3 Structural risk
minimization(SRM) Th. 4.2の証明(7) 目的関数を変形し 𝑅 𝑆(ℎ)を代入 Th. 3.5 の使用 3𝑒− 𝑚𝜖2 2 = 𝛿 を𝜖 について解くと, ϵ = 2 log 3 𝛿 𝑚
21.
21 4.3 Structural risk
minimization(SRM) SRMの学習保証(2) 𝑅 ℎ∗ = infℎ∈ℋ 𝑅 ℎ である ℎ∗ が存在 ⇒任意の𝛿 > 0 で少なくとも 1 − 𝛿 の確率で以下が成立 仮説集合が十分に複雑かつ𝑅 ℎ∗ がベイズ誤差に近い 超過誤差はSRM解に近い
22.
22 4.3 Structural risk
minimization(SRM) 最適解のための計算量について 𝑚𝑖𝑛ℎ∈ℋ 𝑘 𝐹𝑘 ℎ ≤ 𝑚𝑖𝑛ℎ∈ℋ 𝑘+1 𝐹𝑘 ℎ が成立 𝑘 𝑚𝑎𝑥 , 𝑘∗ を見つけるための計算量は 𝑂 𝑛 = 𝑂(log 𝑘 𝑚𝑎𝑥) 𝑘 + 1以降に最適解は存在しない 𝑚𝑖𝑛ℎ∈ℋ2 𝑛 𝐹𝑘 ℎ ≤ 𝑚𝑖𝑛ℎ∈ℋ2 𝑛+1 𝐹𝑘 ℎ が成立するような 2 𝑛 = 𝑘 𝑚𝑎𝑥を探索 [1, 𝑘 𝑚𝑎𝑥] 区間で最適解 𝑘∗ を二分探索で発見
23.
23 4.3 Structural risk
minimization(SRM) SRMについて SRMは非常に有益な保証を得ることが可能 欠点 ➢ 数えきれないほど多くの仮説集合に分解でき, それぞれの複雑さが収束するのは仮定のまま ➢ ERM解を求める必要があるが,NP困難 SRMは計算上非常に扱いにくい
24.
4.4 Cross-validation 交差検証法(1) 24 サンプルを学習用と検証用に分割 学習用 検証用 𝑚 (1
− 𝛼)𝑚 𝛼𝑚 𝛼 ∈ (0,1) 学習用サンプルで求めた仮説の, 検証用サンプルに対する誤差を用いて仮説を決定 帰納的に仮説を決定
25.
4.4 Cross-validation 交差検証法(2) 交差検証法を用いて得た仮説 ℎ
𝑆 𝐶𝑉 を以下のように定義 25 𝑆:サンプル全体 𝑆1:サンプル全体を分割したうちの学習用サンプル 𝑆2:サンプル全体を分割したうちの検証用サンプル ℎ 𝑆1,𝑘 𝐸𝑅𝑀 :仮説集合ℋ𝑘とサンプル𝑆1が与えられた時の ERMによる仮説 検証用サンプルに対する精度が最も良い仮説を選択
26.
4.4 Cross-validation Proposition 4.3 任意の
𝛼 > 0 ,𝑚 ≥ 1 について以下が成立 26 Prop 4.3 𝛼:検証用サンプルの割合 𝑚:与えられたサンプル全体の大きさ
27.
4.4 Cross-validation Prop 4.3の証明(1) 27 Proposition
4.3を証明 最大値≤総和より
28.
4.4 Cross-validation Prop 4.3の証明(2) 28 𝑆1と𝑆2は独立であるため,Hoeffding’s
inequality(D.2)が 適用可能 Hoeffding’s inequalityより
29.
4.4 Cross-validation Prop 4.3の証明(3) 29 21Pより 22Pより のため
30.
4.4 Cross-validation Theorem 4.4
(Cross-validation versus SRM) 交差検証法による仮説と,SRM法による仮説の汎化誤差を 比較することで,以下のような学習保障が得られる 30 Th. 4.4(Cross-validation versus SRM) 任意の 𝛿 > 0 で,少なくとも1 − 𝛿 の確率で下式が成立 𝑘(ℎ): ℎを含む𝐻 𝑘のうち,最小のインデックスを返す
31.
4.4 Cross-validation Th 4.4の証明(1) Prop4.3を利用し,右辺より𝜖を解くと 31 Prop4.3を変形し 上記の式より
32.
4.4 Cross-validation Th 4.4の証明(2) 32 1行目と同様に 上記の不等式より
33.
4.4 Cross-validation Th 4.4のより明示的な変形(1) Th4.4はより明示的にすることが可能 33 𝑖𝑓 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 以下を満たす
𝐻 𝑘 が与えられた時, 以下が成り立つ
34.
34 4.4 Cross-validation Th 4.4のより明示的な変形(2) また,以下が成り立つ それにより全ての
𝑓𝐶𝑉について以下が成り立つ また以下を満たす𝑓𝑆 𝑅𝑀が存在する よって以下の不等式が成り立つ
35.
4.4 Cross-validation αの大きさによるトレードオフ 35 αが小さい 誤差の差の上限: 𝑆1の小ささによるリスク: Th. 4.4(Cross-validation
versus SRM) αが大きい 誤差の差の上限: 𝑆1の小ささによるリスク: トレードオフ サンプルが(1−α)m個の時, m個の時より性能が落ちる可能性
36.
4.4 Cross-validation 交差検証法のまとめ 36 利点 計算上の問題なく,SRMに近い保障を得ることが可能 欠点 𝑆1の取りかたによっては,𝑆全体を利用した時と比較 して性能が大幅に落ちる可能性が存在
37.
4.5 n-Fold cross-validation 𝑛分割交差検証法(1) サンプルを複数に分割して検証に用いる部分を 変えながら誤差の平均値を求める 37 検証学習学習学習学習 検証学習
学習学習学習 … 検証 学習 学習学習学習 学習用サンプルによってはサンプル全体で学習した 場合よりパフォーマンスが著しく悪化する可能性
38.
4.5 n-Fold cross-validation 𝑛分割交差検証法(2) 𝜃:アルゴリズムの自由パラメータ配列 1.
サイズ𝑚のサンプル𝑆を𝑛個に分割 2. 任意の𝑖 ∈ [𝑛]について,𝑖番目以外のサンプル群を 用いてアルゴリズムを学習,仮説ℎ𝑖を生成 3. ℎ𝑖の𝑖番目のサンプル(検証用)における誤差の平均 =交差検証誤差 𝑅CV(𝜃)を算出 38
39.
4.5 n-Fold cross-validation サンプルの分割数𝑛 サンプルの分割数𝑛は
𝑅CV(𝜃)の偏りと分散のトレードオフ 39 𝑛が大きい場合: • 学習用サンプルのサイズが大きくなる • 検証用サンプルのサイズが小さくなる 𝑅CV(𝜃)の偏りは小,分散は大 𝑛が小さい場合: • 学習用サンプルのサイズが小さくなる • 検証用サンプルのサイズが大きくなる 𝑅CV(𝜃)の偏りは大,分散は小 一般的には𝑛 = 5 𝑜𝑟 10 とされることが多い
40.
4.5 n-Fold cross-validation モデル選択における𝑛分割交差検証 1.
全サンプルを学習用とテスト用に分割 2. 学習用サンプルにn分割交差検証を行い 𝑅CV(𝜃)が最小となる自由パラメータ𝜃0を決定 3. 学習用サンプル全体でアルゴリズムを学習 4. テスト用サンプルを用いてアルゴリズムを評価 40
41.
4.5 n-Fold cross-validation leave-one-out交差検証 𝑛
= 𝑚の場合をleave-one-out(一つ抜き)交差検証と呼ぶ • 検証用サンプル数が1つだけであることに由来 • 𝑅CV(𝜃)がほぼ不偏 • 計算コストが大(サイズ𝑚 − 1のデータで𝑚回学習) 41
42.
4.5 n-Fold cross-validation パフォーマンス評価における
𝑛分割交差検証 𝑛分割交差検証はパフォーマンス評価にも用いられる パラメータ𝜃について, 1. 全サンプルを学習/検証用の区別なく𝑛個に分割 2. 全サンプルに対する𝑛分割交差検証誤差,および 各分割における誤差の標準偏差を算出 42
43.
4.6 Regularization based
algorithm 正則化ベースアルゴリズム 仮説の複雑さに対して罰則を与えるアルゴリズム 例: SRM 43 Regularization based algorithmとは 以下を満たす無限仮説空間ℋ𝛾が与えられた時, ℋ:全ての線形関数の集合 SRM法を無限仮説空間に拡張し,以下のようにℎを選択
44.
4.6 Regularization based
algorithm 正則化について 仮説集合の複雑さに対する罰則項をまとめると, 44 = 多くの場合,最適化問題の制約をなくすこと可能な 関数 が任意のγ>0,とあるλ>0で存在 は正則化項,λは正則化パラメータと呼称される λが大きいほど,仮説の複雑さへのペナルティが増加
45.
4.6 Regularization based
algorithm 正則化項の凸性 45 多くはℎのノルムによる増加関数を正則化項に採用 正則化項が ,𝑝 ≥ 1 正則化項はℎの凸関数 0-1損失を使用 最適化問題の第一項は非凸関数 一方で 最適化問題は計算困難 凸な,0-1損失の上限を代用 最適化問題が凸関数に 解決策として 最適化問題は計算可能
46.
4.7 Convex surrogate
losses 凸代替損失関数(1) ERM最適化問題の計算はNP困難 0-1損失関数は凸でないため 46 凸の代替関数で0-1損失の上限値を設定
47.
4.7 Convex surrogate
losses 凸代替損失関数(2) について以下を定義 47 ℎの点 における損失を以下に定義
48.
4.7 Convex surrogate
losses 凸代替損失関数(3) 𝜂 𝑥 = ℙ[𝑦 = +1|𝑥],𝒟 𝑋を𝑋の周辺分布として, ℎの損失の期待値𝑅(ℎ)は以下のように表せる 48 場合分け
49.
4.7 Convex surrogate
losses Lemma 4.5 49 ベイズスコア関数 ℎ∗ を以下の式で定義 Lemma4.5 任意の仮説ℎについて ℎの超過誤差は𝜂とℎ∗ を用いて以下のように表せる また,𝑅∗ = 𝑅 ℎ∗ をベイズスコア関数の誤差とする 𝑦が 1 2 以上の確率で,あるラベルとなるとき 正しい予測を返す
50.
4.7 Convex surrogate
losses Lemma 4.5の証明(1) 任意のℎについて, 50 反転 ℎ∗の定義
51.
4.7 Convex surrogate
losses Lemma 4.5の証明(2) 51
52.
4.7 Convex surrogate
losses Φ損失関数 52 記号定義 定義 , , 𝑦が+1である確率 𝑦が−1である確率 Φ損失関数 𝑦とℎ(𝑥)が異なるとき1以上を返す 仮説ℎにおけるΦ損失の期待値 ,かつΦ(∙)は凸で非減少
53.
4.7 Convex surrogate
losses Φ損失関数の一般化 Φ損失を一般化 損失関数を最小化する仮説ℎΦ ∗ 53 Φ損失関数
54.
4.7 Convex surrogate
losses 損失の最小化 54 𝜂 𝑥 = 0 ℎΦ ∗ 𝑥 は𝑢 = −∞で最小 𝜂 𝑥 = 1 ℎΦ ∗ 𝑥 はu = +∞で最小 𝜂 𝑥 = 1 2 ℎΦ ∗ 𝑥 はu = 0で最小 損失の最小化について その他 Φによって決まる
55.
55 4.7 Convex surrogate
losses 劣微分 微分不可能な点(絶対値など)の傾き 𝑓(∙)が凸関数のとき𝑥0における劣微分は を満たす𝑐の集合である 具体的には区間[𝑎, 𝑏]に存在 微分不可能な点の微分を集合として扱う
56.
4.7 Convex surrogate
losses Propositon 4.6 56 ϕを最小化するBayes classfier:ℎ∗ (x)に関して以下が成立 Proposition 4.6 仮定 ϕ: 0で微分可能な非減少凸関数 ϕ′ 0 > 0 結論 任意の について
57.
57 η 𝑥 =
0 ℎ∗ 𝑥 = − 1 2 , ℎϕ ∗ 𝑥 = −∞ η 𝑥 = 1 ℎ∗ 𝑥 = 1 2 , ℎϕ ∗ 𝑥 = ∞ η 𝑥 が0,1の時, ℎ∗ 𝑥 とℎϕ ∗ 𝑥 の符号が一致 4.7 Convex surrogate losses Prop 4.6の証明(1)
58.
58 𝑢∗ = ℎϕ ∗ 𝑥 であり,以下が成り立つ ⇔ 𝑢∗ が𝑢
↦ 𝐿Φ(𝑥, 𝑢)を最小化 , が存在 を満たす, 今後よく出る ⇔ 4.7 Convex surrogate losses Prop 4.6の証明(2)
59.
59 𝑢∗ = 0の時,𝜙は0で微分可能なため, ϕ′ 0
= ϕ′(−0),𝑣1 ∗ = 𝑣2 ∗ = ϕ′ 0 > 0が成り立つ より,𝜂 𝑥 = 1 2 , ℎ∗ 𝑥 = 0 逆にℎ∗ 𝑥 = 0の時, 𝜂 𝑥 = 1 2 , よって,スライド54𝑝より,ℎ 𝜙 ∗ = u∗ = 0 ℎ∗ 𝑥 = 0 ⇔ ℎ 𝜙 ∗ = 0 ⇔ 𝜂 𝑥 = 1 2 4.7 Convex surrogate losses Prop 4.6の証明(3)
60.
𝑢1 < 𝑢2である任意の𝑢1,
𝑢2 ∈ ℝ, およびその劣勾配𝑣1 ∈ 𝜕Φ 𝑢1 , 𝑣2 ∈ 𝜕Φ 𝑢2 について, 60 以上の連立により 𝑢1 < 𝑢2なので,𝑣2 ≥ 𝑣1 以降,𝜂 𝑥 ∉ {0,1, 1 2 }を想定 4.7 Convex surrogate losses Prop 4.6の証明(4)
61.
➢ 𝑣1 ∗ = 𝑣2 ∗ =
0も不成立 ➢𝑣1 ∗ ≤ 𝑣2 ∗ 61 ➢ 𝑣1 ∗ = 𝑣2 ∗ ≠ 0 は不成立 ( 𝑢∗ > 0 より 0 < Φ′ 0 ≤ 𝜕Φ(𝑢∗ ) = 𝑣2 ∗ であるため) 𝑢∗ > 0の場合,以下のことが言える よって, ( において𝜂(𝑥) = 1 2 となるため) 以上より, 𝑣1 ∗ < 𝑣2 ∗ のため, 𝜂 𝑥 > 1 − 𝜂 𝑥 ⇒ ℎ∗ 𝑥 > 0 (𝑢1 < 𝑢2ならば𝑣2 ≥ 𝑣1であり−𝑢∗ < 𝑢∗ であるため) 4.7 Convex surrogate losses Prop 4.6の証明(5)
62.
62 ➢𝜂 𝑥 >
1 − 𝜂 𝑥 ➢ 𝑣1 ∗ ≠ 𝑣2 ∗ 𝑢∗ ≠ 0,62ページより ➢𝑣1 ∗ < 𝑣2 ∗ 上記の式,𝜂 𝑥 ≠ 1,𝜂 𝑥 𝑣1 ∗ = 1 − 𝜂 𝑥 𝑣2 ∗ より ➢−𝑢∗ < 𝑢∗ 𝑣1 ∗ < 𝑣2 ∗ より 逆に,ℎ∗ 𝑥 > 0の場合,以下のことが言える 以上のことから,ℎ 𝜙 ∗ = u∗ > 0が成り立つ よって, 4.7 Convex surrogate losses Prop 4.6の証明(6)
63.
4.7 Convex surrogate
losses Φ損失による超過誤差の上限 63 Th. 4.7 :凸かつ非減少関数 𝑠 ≥ 1, 𝑐 > 0が存在し,すべての 𝑥 ∈ 𝑋に対して 以下の式を満たす 仮定 結論 任意の仮説 ℎ に対して以下の式が成り立つ
64.
64 4.7 Convex surrogate
losses Th4.7の証明(1) の凸性によって以下の不等式が成り立つ ℎ∗を代入 DefinitionB.7より ≤ Convexity Inequality
65.
65 4.7 Convex surrogate
losses Th4.7の証明(2) Lemma 4.5 ℎ∗ 𝑥 = η 𝑥 − 1 2 を代入 上の式を以下のJensen’s inequalityを用いて変形 Jensen’s Inequality
66.
66 𝑓 𝑥 =
𝑥 𝑠 , 𝑋 = 2𝜂 𝑥 − 1 1ℎ 𝑥 ℎ∗ 𝑥 ≤0とする Jensen’s inequality 4.7 Convex surrogate losses Th4.7の証明(3)
67.
67 4.7 Convex surrogate
losses Th4.7の証明(4) 仮定: は非減少関数 Convexity inequality
68.
68 4.7 Convex surrogate
losses Th4.7の証明(5) Φ損失から超過誤差の上限を設定可能
69.
4.7 Convex surrogate
losses 𝚽の例 69 Φ に対して,Th 4.7の仮定が成り立つs, 𝑐を適切に設定する 例 ヒンジ損失 指数関数損失 ロジスティック損失 → 𝑠 = 1, 𝑐 = 1 2 → 𝑠 = 2, 𝑐 = 1 2 → 𝑠 = 2, 𝑐 = 1 2 ⇒損失Φによる超過誤差の上限が分かる
70.
4章のまとめ 70 モデル選択および誤差の上限設定 モデル選択手法 ➢ ERM,SRM ➢ N分割交差検証 ➢
凸代替損失関数
Download