SlideShare a Scribd company logo
Theory of Information Integration in Statistical Learning ( 統計的学習における情報統合の理論 ) 情報理工学系研究科 数理情報学専攻 数理第五研究室 助教 鈴木 大慈 2011 年 4 月 25 日
博士論文のテーマ(?) 人間は様々な事物を「統合」し,多くの問題を 解決している. 情報統合  情報:機能・データ(知識) 統合:組み合わせる・まとめる・整合性を取る 機能(関数)の統合 知識(データ)の統合 異なる環境の情報統合
発表の概要 ベイズ予測分布 事前分布の選択と α ダイバージェンス 相互情報量推定 二乗損失型相互情報量 Multiple Kernel Learning L1 と L2 の狭間で
ベイズ予測分布 - 事前分布の選択と α ダイバージェンス -
ベイズ予測分布 分布を事後分布で積分 真の分布    を推定したい. ベイズ予測分布 モデル : 事前分布 : 事後分布
ベイズ予測分布 ベイズ予測分布はモデルをはみ出る( Komaki, ’96 ). モデル 真 最尤推定量 事前分布による変動 ベイズ予測分布 真の分布がモデルに含まれている場合
事前分布の選択 KL- リスク をなるべく小さくしたい ->   事前分布の選択 Jeffreys 事前分布のリスク 事前分布 π のリスク (Komaki, 2006) : Jeffreys 事前分布 : Fisher 計量 :  KL- ダイバージェンス ラプラシアン:これが負であれば良い ラプラシアン 我々の結果: これを拡張 定理
α- ベイズ α ダイバージェンス : KL ダイバージェンスの一般化  (α=-1 で KL) α- ベイズ予測分布 ->  α ダイバージェンスに関するベイズリスクを最小化している : α=-1 の時は普通のベイズ予測分布
リスク β- 予測分布 の真の分布からの α- ダイバージェンス β- 予測分布: α- ダイバージェンス: を小さくする事前分布を選ぶ. できる限り一般化
結果 :   を事前分布としたときの β- ベイズ予測分布 漸近的なリスクの差  [Suzuki&Komaki,2010] 二階微分作用素 ← 補正項  (α=β で 0) A 優調和関数であれば良い α=β の時,ラプラシアンによる特徴付けが現われる A に付随した拡散過程 が存在
大域幾何学との関係 定理   (Aomoto, 1966)    断面局率が至る所 負 なら非負優調和関数が存在  (d≧2) 断面曲率 正 負 ブラウン運動が非再帰的 ⇔ 正値優調和関数が存在 ブラウン運動との関係
ラプラシアンと統計的推測 正規分布平均値推定   (Brown, 1971) 正規分布密度推定   (George, Liang and Xu, 2006) ( ある有界性条件のもと )     ベイズ推定量が admissible ⇔  事前分布で特徴付けられるブラウン運動が再帰的    (スタイン推定)     事前分布が優調和関数 ⇒  ベイズ予測分布が minimax
真がモデルからはずれている場合 モデル ベイズ予測分布 最尤推定量 モデルのどちら側に真があるかで推定の良し悪しが変わる
Fisher 計量 Fisher 計量( Fisher 情報行列) 真がモデルからはずれることにより扱いが    非自明になる. 他の情報量 (真がモデルに含まれる)なら
結果 最尤推定 ベイズ予測分布 β- ベイズ予測分布 真の分布から推定した分布への KL- ダイバージェンス ->   β の値(分布の統合の仕方)によって   モデルのどちら側に飛び出るかが変わる. 真 ( 最近点 )
結論 ラプラシアンによる特徴付けは普遍性があった. α≠β の場合は二階楕円型微分作用素が現われた.    -> 大域幾何学との関係. 真がモデルに含まれていない場合,            1/N のオーダーに β の影響が現われた. ->  モデルと真との位置関係およびモデルの                      幾何的性質を反映.     -> (今後の課題)最適な β の決定方法.
発表の概要 ベイズ予測分布 事前分布の選択と α ダイバージェンス 相互情報量推定 二乗損失型相互情報量 Multiple Kernel Learning L1 と L2 の狭間で
相互情報量に関する研究   - 二乗損失型相互情報量 -
Mutual Information Common strategy : Find  W  which makes  as independent as possible. Mutual Information  is a good independence measure.  are mutually independent. ⇔ : joint distribution of  : marginal distribution of
Our Proposal Squared-loss Mutual Information (SMI) are mutually independent. ⇔ We propose a  non-parametric  estimator of  I s thanks to squared loss,  analytic solution  is available Gradient of  I s  w.r.t.  W  is also  analytically available gradient descent  method for ICA and Dim. Reduction.
Estimation Method Estimate the  density ratio : (Legendre-Fenchel convex duality  [Nguyen et al. 08] ) Define , then we can write where sup is taken over  all measurable functions . the optimal function is the  density ratio
The problem is reduced to solving  Empirical Approximation The objective function is empirically approximated as V-statistics (Decoupling) Assume we have  n  samples:
Linear model for  g   Linear model is basis function, e.g.,  Gaussian kernel penalty term
Estimator of SMI
Gaussian Kernel We use a  Gaussian kernel  for basis functions: where  are center points randomly chosen  from sample points:  . Linear combinations of Gaussian kernels span  a broad function class. Distribution Free
Model Selection The estimator of SMI is formulated as an  optimization problem . Cross Validation is applicable. Model selection is available Now we have two parameters  : regularization parameter : Gaussian width
Asymptotic Analysis Regularization parameter  : Theorem :  Complexity  of the model ( large:complex, small:simple ) Theorem Nonarametric Parametric : matrices like Fisher Information matrix (bracketing entropy condition)
Applications ICA (Independent Component Analysis) [Suzuki&Sugiyama, 2011] SDR (Sufficient Dimension Reduction) [Suzuki&Sugiyama, 2010] Independence Test [Sugiyama&Suzuki, 2011] Causal Inference  [Yamada&Sugiyama, 2010]
ICA mixed signal (observation) original signal  ( d   dimension) independent of each other estimated signal (demixed signal) :mixing matrix ( d × d  matrix) Goal : estimating demixing matrix  ( d × d  matrix) Ideally
Supervised Dimension Reduction Input  Output :“ good ” low dimensional  representation ->   Sufficient Dimension Reduction (SDR)  A natural choice of  W :
Artificial Data Set We compared our method with KDR   (Kernel Dimension Reduction) HSIC   (Hilbert-Schmidt Independence Criterion) SIR   (Sliced Inverse Regression) SAVE   (Sliced Average Variance Estimation) Performance measure: We used  median distance for Gaussian width of  KDR  and  HSIC .
Data Sets d=1 d=1 d=1 d=1 d=1 d=2
Result one-sided t-test with sig. level 1 %. Mean and standard deviation over 50 times trials Our method nicely performs.
UCI Data Set one-sided t-test with sig. level 1 %. Choose 200 samples and train  SVM  on the low dimensional representation. Classification error  over 20 trials.
発表の概要 ベイズ予測分布 事前分布の選択と α ダイバージェンス 相互情報量推定 二乗損失型相互情報量 Multiple Kernel Learning L1 と L2 の狭間で
Multiple Kernel Learning
Multiple Kernel Learning (MKL) ↓ Elasticnet MKL Lp-norm MKL 汎化誤差を理論的に解析 スパース性と汎化誤差の関係 どのような正則化が好ましい?
Sparse Learning : n  samples : Convex loss ( hinge, square, logistic ) L 1 -regularization->  sparse Lasso Group Lasso I : subset of indices [Yuan&Lin:JRSS2006] [Tibshirani :JRSS1996]
教師有りカーネル法 回帰 ,  判別 : SVM, SVR, …. カーネル関数 ( :再生核ヒルベルト空間)
Reproducing Kernel Hilbert Space (RKHS) :  Hilbert space of real valued functions : map to the Hilbert space such that Reproducing kernel Representer theorem
Moore-Aronszajn Theorem : positive (semi-)definite, symmetric : RKHS with reproducing kernel  k one to one
ガウシアン,多項式 ,  カイ二乗 , …. パラメータ:ガウス幅 ,  多項式の次数,… 特徴量 Computer Vision :色 ,  勾配 , sift (sift, hsvsift, huesift, scaling of sift), Geometric Blur,   画像領域の切り出し ,  ... カーネル関数の例 MKL : カーネルを選択して統合
MKL: Multiple Kernel Learning :  M 個のカーネル関数 : カーネル関数 k m に付随した RKHS [ Lanckriet et al. 2004 ] L1 正則化: スパース Gourp Lasso の無限次元への拡張 [Bach, Lanchriet, Jordan:ICML 2004 ]
カーネル重みとの関係 [Micchelli & Pontil: JMLR2005] 目的関数をカーネル関数の凸結合の中で最小化 : given k は k m らの凸結合 Young の不等式
カーネル重み : L 2 L 1   (MKL) L 2  (Uniform) :単なる一様重みでの重ね合わせ スパース デンス 結構良い性能
L 1 L 2 スパース デンス
L 1 と L 2 の橋渡し Elasticnet MKL Lp-norm MKL (1≦p≦2) [Marius et al.: NIPS2009] [Shawe-Taylor: NIPS workshop 2008,  Tomioka & Suzuki: NIPS workshop 2009] cf. elastic-net: [Zou & Hastie: JRSS, 2005]
Best Medium density dense [Tomioka & Suzuki: NIPS 2009 Workshop ] Elasticnet MKL:  caltech 101 dataset L1 L2 中間的なスパースさが良い
[Cortes, Mohri, and Rostamizadeh: UAI 2009] MKL (sparse) 一様重み  (dense) 中間 (p=4/3) Lp-norm MKL # of features
ここまでのまとめ L 1 (MKL) と L 2 ( 一様重み ) の 中間的なスパースさ  ->  elasticnet/Lp-norm MKL  -> 実験的に 性能○ 実は, 計算量も少なくてすむ (後述)
なぜ,性能が良いのか? どのような条件のとき,中間的スパースさが良いのか?    以後,主に Elasticnet MKL を扱う.
導入 効率的計算法 漸近的汎化誤差の解析 Elasticnet MKL の収束レート 真がスパースな状況 真がスパースでない状況 Lp-norm MKL の収束レート 概要
効率的計算法
双対問題 表現定理: なめらか! 降下法( Newton 法など)が使える Fenchel 双対
数値実験 UCI:Ringnorm UCI:Splice SimpleMKL(L1) SpicyMKL(L1) Elasticnet MKL
導入 効率的計算法 漸近的汎化誤差の解析 Elasticnet MKL の収束レート 真がスパースな状況 真がスパースでない状況 Lp-norm MKL の収束レート 概要
漸近的汎化誤差の解析 これからは 二乗ロス(回帰) を想定:
Lasso & Dantzig Selector Candes & Tao: AS2007 (Dantzig selector) Bunea, Tsybakov & Wegkamp: AS2007 (Lasso) Meinshausen & Yu: AS2009 (Lasso) Bickel, Ritov & Tsybakov: AS2009 (Dantzig&Lasso) Raskutti, Wainwright & Yu: arXiv:0910.2042, 2009. mini-max  レート スパース学習の収束レート
L 1 -MKL Koltchinskii & Yuan: COLT2008 Minimax- レート Raskutti, Wainwright & Yu: NIPS2009 Elasticnet 型正則化 Meier, van de Geer  & B ü hlmann: AS2009 Sobolev 空間 タイトではない MKL に関する既存の結果

More Related Content

PDF
階層ベイズとWAIC
PPTX
変分ベイズ法の説明
PDF
PRML輪読#1
PDF
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
PDF
関数データ解析の概要とその方法
PPTX
ベイズ統計学の概論的紹介
PDF
あなたの心にBridgeSampling
PDF
機械学習におけるオンライン確率的最適化の理論
階層ベイズとWAIC
変分ベイズ法の説明
PRML輪読#1
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
関数データ解析の概要とその方法
ベイズ統計学の概論的紹介
あなたの心にBridgeSampling
機械学習におけるオンライン確率的最適化の理論

What's hot (20)

PDF
スパース推定法による統計モデリング(入門)
PDF
[DL輪読会]Deep Learning 第15章 表現学習
PDF
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
PDF
Rで階層ベイズモデル
PDF
PDF
最適輸送の計算アルゴリズムの研究動向
PDF
ベイズ統計入門
PDF
階層ベイズと自由エネルギー
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PDF
機械学習のためのベイズ最適化入門
PPTX
MCMCでマルチレベルモデル
PPTX
PRML第9章「混合モデルとEM」
PDF
グラフィカルモデル入門
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
PPTX
【解説】 一般逆行列
PPTX
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
PDF
PRML 6.1章 カーネル法と双対表現
PDF
線形計画法入門
PDF
「統計的学習理論」第1章
PDF
Prml 2.3
スパース推定法による統計モデリング(入門)
[DL輪読会]Deep Learning 第15章 表現学習
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Rで階層ベイズモデル
最適輸送の計算アルゴリズムの研究動向
ベイズ統計入門
階層ベイズと自由エネルギー
変分推論法(変分ベイズ法)(PRML第10章)
機械学習のためのベイズ最適化入門
MCMCでマルチレベルモデル
PRML第9章「混合モデルとEM」
グラフィカルモデル入門
トピックモデルの評価指標 Perplexity とは何なのか?
【解説】 一般逆行列
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
PRML 6.1章 カーネル法と双対表現
線形計画法入門
「統計的学習理論」第1章
Prml 2.3
Ad

Viewers also liked (13)

PDF
Stochastic Alternating Direction Method of Multipliers
PDF
PDF
岩波データサイエンス_Vol.5_勉強会資料01
PDF
Sparse estimation tutorial 2014
PDF
スパース性に基づく機械学習 4.1 ノイズなしL1ノルム最小化問題の問題設定
PDF
岩波データサイエンス_Vol.5_勉強会資料02
PDF
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
PDF
卒論プレゼンテーション -DRAFT-
PPTX
Oracle property and_hdm_pkg_rigorouslasso
PPTX
Introduction of "the alternate features search" using R
PDF
Ibis2016
PDF
PRMLの線形回帰モデル(線形基底関数モデル)
PDF
スパースモデリング入門
Stochastic Alternating Direction Method of Multipliers
岩波データサイエンス_Vol.5_勉強会資料01
Sparse estimation tutorial 2014
スパース性に基づく機械学習 4.1 ノイズなしL1ノルム最小化問題の問題設定
岩波データサイエンス_Vol.5_勉強会資料02
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
卒論プレゼンテーション -DRAFT-
Oracle property and_hdm_pkg_rigorouslasso
Introduction of "the alternate features search" using R
Ibis2016
PRMLの線形回帰モデル(線形基底関数モデル)
スパースモデリング入門
Ad

Similar to Jokyokai (20)

PDF
Infomation geometry(overview)
PDF
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
PDF
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
PDF
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
PPTX
PRML読み会第一章
PDF
データマイニング勉強会3
PPTX
マルコフ連鎖モンテカルロ法と多重代入法
PDF
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
PDF
PDF
How to study stat
PPTX
頻度論とベイズ論と誤差最小化について
PDF
PRML 上 1.2.4 ~ 1.2.6
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
PDF
機械学習の理論と実践
PDF
Bishop prml 9.3_wk77_100408-1504
PPTX
数理最適化と機械学習の 融合アプローチ -分類と新しい枠組み-
PDF
確率的深層学習における中間層の改良と高性能学習法の提案
PDF
Infinite SVM [改] - ICML 2011 読み会
PPTX
スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節
PPTX
Infomation geometry(overview)
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
PRML読み会第一章
データマイニング勉強会3
マルコフ連鎖モンテカルロ法と多重代入法
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
How to study stat
頻度論とベイズ論と誤差最小化について
PRML 上 1.2.4 ~ 1.2.6
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
機械学習の理論と実践
Bishop prml 9.3_wk77_100408-1504
数理最適化と機械学習の 融合アプローチ -分類と新しい枠組み-
確率的深層学習における中間層の改良と高性能学習法の提案
Infinite SVM [改] - ICML 2011 読み会
スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 3.3節と3.4節

More from Taiji Suzuki (10)

PPTX
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
PDF
[NeurIPS2020 (spotlight)] Generalization bound of globally optimal non convex...
PPTX
深層学習の数理:カーネル法, スパース推定との接点
PPTX
Iclr2020: Compression based bound for non-compressed network: unified general...
PDF
数学で解き明かす深層学習の原理
PPTX
深層学習の数理
PDF
はじめての機械学習
PDF
Minimax optimal alternating minimization \\ for kernel nonparametric tensor l...
PDF
PAC-Bayesian Bound for Gaussian Process Regression and Multiple Kernel Additi...
PDF
Jokyokai2
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...
[NeurIPS2020 (spotlight)] Generalization bound of globally optimal non convex...
深層学習の数理:カーネル法, スパース推定との接点
Iclr2020: Compression based bound for non-compressed network: unified general...
数学で解き明かす深層学習の原理
深層学習の数理
はじめての機械学習
Minimax optimal alternating minimization \\ for kernel nonparametric tensor l...
PAC-Bayesian Bound for Gaussian Process Regression and Multiple Kernel Additi...
Jokyokai2

Jokyokai

  • 1. Theory of Information Integration in Statistical Learning ( 統計的学習における情報統合の理論 ) 情報理工学系研究科 数理情報学専攻 数理第五研究室 助教 鈴木 大慈 2011 年 4 月 25 日
  • 2. 博士論文のテーマ(?) 人間は様々な事物を「統合」し,多くの問題を 解決している. 情報統合 情報:機能・データ(知識) 統合:組み合わせる・まとめる・整合性を取る 機能(関数)の統合 知識(データ)の統合 異なる環境の情報統合
  • 3. 発表の概要 ベイズ予測分布 事前分布の選択と α ダイバージェンス 相互情報量推定 二乗損失型相互情報量 Multiple Kernel Learning L1 と L2 の狭間で
  • 4. ベイズ予測分布 - 事前分布の選択と α ダイバージェンス -
  • 5. ベイズ予測分布 分布を事後分布で積分 真の分布    を推定したい. ベイズ予測分布 モデル : 事前分布 : 事後分布
  • 6. ベイズ予測分布 ベイズ予測分布はモデルをはみ出る( Komaki, ’96 ). モデル 真 最尤推定量 事前分布による変動 ベイズ予測分布 真の分布がモデルに含まれている場合
  • 7. 事前分布の選択 KL- リスク をなるべく小さくしたい ->   事前分布の選択 Jeffreys 事前分布のリスク 事前分布 π のリスク (Komaki, 2006) : Jeffreys 事前分布 : Fisher 計量 : KL- ダイバージェンス ラプラシアン:これが負であれば良い ラプラシアン 我々の結果: これを拡張 定理
  • 8. α- ベイズ α ダイバージェンス : KL ダイバージェンスの一般化 (α=-1 で KL) α- ベイズ予測分布 -> α ダイバージェンスに関するベイズリスクを最小化している : α=-1 の時は普通のベイズ予測分布
  • 9. リスク β- 予測分布 の真の分布からの α- ダイバージェンス β- 予測分布: α- ダイバージェンス: を小さくする事前分布を選ぶ. できる限り一般化
  • 10. 結果 :   を事前分布としたときの β- ベイズ予測分布 漸近的なリスクの差 [Suzuki&Komaki,2010] 二階微分作用素 ← 補正項 (α=β で 0) A 優調和関数であれば良い α=β の時,ラプラシアンによる特徴付けが現われる A に付随した拡散過程 が存在
  • 11. 大域幾何学との関係 定理 (Aomoto, 1966)    断面局率が至る所 負 なら非負優調和関数が存在 (d≧2) 断面曲率 正 負 ブラウン運動が非再帰的 ⇔ 正値優調和関数が存在 ブラウン運動との関係
  • 12. ラプラシアンと統計的推測 正規分布平均値推定 (Brown, 1971) 正規分布密度推定 (George, Liang and Xu, 2006) ( ある有界性条件のもと )    ベイズ推定量が admissible ⇔  事前分布で特徴付けられるブラウン運動が再帰的    (スタイン推定)    事前分布が優調和関数 ⇒  ベイズ予測分布が minimax
  • 13. 真がモデルからはずれている場合 モデル ベイズ予測分布 最尤推定量 モデルのどちら側に真があるかで推定の良し悪しが変わる
  • 14. Fisher 計量 Fisher 計量( Fisher 情報行列) 真がモデルからはずれることにより扱いが    非自明になる. 他の情報量 (真がモデルに含まれる)なら
  • 15. 結果 最尤推定 ベイズ予測分布 β- ベイズ予測分布 真の分布から推定した分布への KL- ダイバージェンス ->   β の値(分布の統合の仕方)によって   モデルのどちら側に飛び出るかが変わる. 真 ( 最近点 )
  • 16. 結論 ラプラシアンによる特徴付けは普遍性があった. α≠β の場合は二階楕円型微分作用素が現われた.    -> 大域幾何学との関係. 真がモデルに含まれていない場合,            1/N のオーダーに β の影響が現われた. ->  モデルと真との位置関係およびモデルの                      幾何的性質を反映.     -> (今後の課題)最適な β の決定方法.
  • 17. 発表の概要 ベイズ予測分布 事前分布の選択と α ダイバージェンス 相互情報量推定 二乗損失型相互情報量 Multiple Kernel Learning L1 と L2 の狭間で
  • 18. 相互情報量に関する研究 - 二乗損失型相互情報量 -
  • 19. Mutual Information Common strategy : Find W which makes as independent as possible. Mutual Information is a good independence measure. are mutually independent. ⇔ : joint distribution of : marginal distribution of
  • 20. Our Proposal Squared-loss Mutual Information (SMI) are mutually independent. ⇔ We propose a non-parametric estimator of I s thanks to squared loss, analytic solution is available Gradient of I s w.r.t. W is also analytically available gradient descent method for ICA and Dim. Reduction.
  • 21. Estimation Method Estimate the density ratio : (Legendre-Fenchel convex duality [Nguyen et al. 08] ) Define , then we can write where sup is taken over all measurable functions . the optimal function is the density ratio
  • 22. The problem is reduced to solving Empirical Approximation The objective function is empirically approximated as V-statistics (Decoupling) Assume we have n samples:
  • 23. Linear model for g Linear model is basis function, e.g., Gaussian kernel penalty term
  • 25. Gaussian Kernel We use a Gaussian kernel for basis functions: where are center points randomly chosen from sample points: . Linear combinations of Gaussian kernels span a broad function class. Distribution Free
  • 26. Model Selection The estimator of SMI is formulated as an optimization problem . Cross Validation is applicable. Model selection is available Now we have two parameters : regularization parameter : Gaussian width
  • 27. Asymptotic Analysis Regularization parameter : Theorem : Complexity of the model ( large:complex, small:simple ) Theorem Nonarametric Parametric : matrices like Fisher Information matrix (bracketing entropy condition)
  • 28. Applications ICA (Independent Component Analysis) [Suzuki&Sugiyama, 2011] SDR (Sufficient Dimension Reduction) [Suzuki&Sugiyama, 2010] Independence Test [Sugiyama&Suzuki, 2011] Causal Inference [Yamada&Sugiyama, 2010]
  • 29. ICA mixed signal (observation) original signal ( d dimension) independent of each other estimated signal (demixed signal) :mixing matrix ( d × d matrix) Goal : estimating demixing matrix ( d × d matrix) Ideally
  • 30. Supervised Dimension Reduction Input Output :“ good ” low dimensional representation ->   Sufficient Dimension Reduction (SDR) A natural choice of W :
  • 31. Artificial Data Set We compared our method with KDR (Kernel Dimension Reduction) HSIC (Hilbert-Schmidt Independence Criterion) SIR (Sliced Inverse Regression) SAVE (Sliced Average Variance Estimation) Performance measure: We used median distance for Gaussian width of KDR and HSIC .
  • 32. Data Sets d=1 d=1 d=1 d=1 d=1 d=2
  • 33. Result one-sided t-test with sig. level 1 %. Mean and standard deviation over 50 times trials Our method nicely performs.
  • 34. UCI Data Set one-sided t-test with sig. level 1 %. Choose 200 samples and train SVM on the low dimensional representation. Classification error over 20 trials.
  • 35. 発表の概要 ベイズ予測分布 事前分布の選択と α ダイバージェンス 相互情報量推定 二乗損失型相互情報量 Multiple Kernel Learning L1 と L2 の狭間で
  • 37. Multiple Kernel Learning (MKL) ↓ Elasticnet MKL Lp-norm MKL 汎化誤差を理論的に解析 スパース性と汎化誤差の関係 どのような正則化が好ましい?
  • 38. Sparse Learning : n samples : Convex loss ( hinge, square, logistic ) L 1 -regularization-> sparse Lasso Group Lasso I : subset of indices [Yuan&Lin:JRSS2006] [Tibshirani :JRSS1996]
  • 39. 教師有りカーネル法 回帰 , 判別 : SVM, SVR, …. カーネル関数 ( :再生核ヒルベルト空間)
  • 40. Reproducing Kernel Hilbert Space (RKHS) : Hilbert space of real valued functions : map to the Hilbert space such that Reproducing kernel Representer theorem
  • 41. Moore-Aronszajn Theorem : positive (semi-)definite, symmetric : RKHS with reproducing kernel k one to one
  • 42. ガウシアン,多項式 , カイ二乗 , …. パラメータ:ガウス幅 , 多項式の次数,… 特徴量 Computer Vision :色 , 勾配 , sift (sift, hsvsift, huesift, scaling of sift), Geometric Blur,  画像領域の切り出し , ... カーネル関数の例 MKL : カーネルを選択して統合
  • 43. MKL: Multiple Kernel Learning : M 個のカーネル関数 : カーネル関数 k m に付随した RKHS [ Lanckriet et al. 2004 ] L1 正則化: スパース Gourp Lasso の無限次元への拡張 [Bach, Lanchriet, Jordan:ICML 2004 ]
  • 44. カーネル重みとの関係 [Micchelli & Pontil: JMLR2005] 目的関数をカーネル関数の凸結合の中で最小化 : given k は k m らの凸結合 Young の不等式
  • 45. カーネル重み : L 2 L 1 (MKL) L 2 (Uniform) :単なる一様重みでの重ね合わせ スパース デンス 結構良い性能
  • 46. L 1 L 2 スパース デンス
  • 47. L 1 と L 2 の橋渡し Elasticnet MKL Lp-norm MKL (1≦p≦2) [Marius et al.: NIPS2009] [Shawe-Taylor: NIPS workshop 2008, Tomioka & Suzuki: NIPS workshop 2009] cf. elastic-net: [Zou & Hastie: JRSS, 2005]
  • 48. Best Medium density dense [Tomioka & Suzuki: NIPS 2009 Workshop ] Elasticnet MKL: caltech 101 dataset L1 L2 中間的なスパースさが良い
  • 49. [Cortes, Mohri, and Rostamizadeh: UAI 2009] MKL (sparse) 一様重み (dense) 中間 (p=4/3) Lp-norm MKL # of features
  • 50. ここまでのまとめ L 1 (MKL) と L 2 ( 一様重み ) の 中間的なスパースさ  ->  elasticnet/Lp-norm MKL  -> 実験的に 性能○ 実は, 計算量も少なくてすむ (後述)
  • 52. 導入 効率的計算法 漸近的汎化誤差の解析 Elasticnet MKL の収束レート 真がスパースな状況 真がスパースでない状況 Lp-norm MKL の収束レート 概要
  • 54. 双対問題 表現定理: なめらか! 降下法( Newton 法など)が使える Fenchel 双対
  • 55. 数値実験 UCI:Ringnorm UCI:Splice SimpleMKL(L1) SpicyMKL(L1) Elasticnet MKL
  • 56. 導入 効率的計算法 漸近的汎化誤差の解析 Elasticnet MKL の収束レート 真がスパースな状況 真がスパースでない状況 Lp-norm MKL の収束レート 概要
  • 58. Lasso & Dantzig Selector Candes & Tao: AS2007 (Dantzig selector) Bunea, Tsybakov & Wegkamp: AS2007 (Lasso) Meinshausen & Yu: AS2009 (Lasso) Bickel, Ritov & Tsybakov: AS2009 (Dantzig&Lasso) Raskutti, Wainwright & Yu: arXiv:0910.2042, 2009. mini-max レート スパース学習の収束レート
  • 59. L 1 -MKL Koltchinskii & Yuan: COLT2008 Minimax- レート Raskutti, Wainwright & Yu: NIPS2009 Elasticnet 型正則化 Meier, van de Geer & B ü hlmann: AS2009 Sobolev 空間 タイトではない MKL に関する既存の結果