SlideShare a Scribd company logo
法入門
@ksmzn
第 17 回 Zansa
27 Novenber 2013
1 / 31
誰
Twiiter : @ksmzn
専門 : 計算機統計
2 / 31
本日 !
3 / 31
4 / 31
!
5 / 31
法!!
6 / 31
法 ?
法(Bootstrap Method) 、
n 個 標本 x1, x2, ..., xn
繰 返 許 n 個
標本 B 組選 、平均 分散
推定値 繰 返 求 、 分布
確率分布 誤差 推定 方法
7 / 31
法
!!
8 / 31
前提
、統計量 標本分布!
定義
F : 未知 確率分布
θ : F 関 興味
θ = T(F) 表
Fn : 既知 経験分布関数
F 抽出 n 個 標本 X 構成
θn : θ 推定値 用 統計量
θn = T(FN ) 表
θn 変動 、
θn 分布 Gn 持 。(θn ∼ Gn)
9 / 31
例 考 !
10 / 31
簡単 例
平均 求 場合
F : 未知 確率分布
µ : F 平均 知 。µ = T(F) = EF [X]
x = {12, 15, 16, 17, 19, 20, 22, 23, 25, 28}
F 抽出 10 個 標本
Fn : 既知 経験分布関数
10 個 標本 x 構成
µn : µ 推定値 用 統計量
µn = T(Fn) = 1
n
∑n
i=1 xi = 19.7
µn 変動 、
µn 分布 Gn 持 。(µn ∼ Gn)
11 / 31
経験分布関数Fn
n 個 標本 x1, x2, ..., xn
大 順 x(1), x(2), ..., x(n) 並 替 、
各点 等確率 1
n 与 分布
赤:真 分布関数 黒:経験分布関数(n = 40)
12 / 31
経験分布関数Fn
!
→ x 復元抽出 !
13 / 31
標本 例
n = 10 標本
x = {12, 15, 16, 17, 19, 20, 22, 23, 25, 28}
10 個 復元抽出
x∗
(1) = {20, 19, 20, 23, 19, 28, 23, 28, 17, 25}
一度 10 個 復元抽出
x∗
(2) = {15, 23, 12, 17, 23, 25, 16, 22, 25, 25}
14 / 31
標本
経験分布関数 Fn
標本 。
x1, x2, ..., xn n 個 復元抽出 得
x∗
= {x∗
1, x∗
2, ..., x∗
n}
構成 経験分布関数 F∗
n
15 / 31
標本 平均
標本 平均
x = {12, 15, 16, 17, 19, 20, 22, 23, 25, 28}
→ µn = 1
n
∑n
i=1 xi = 19.7
x∗
(1) = {20, 19, 20, 23, 19, 28, 23, 28, 17, 25}
→ µ∗
1 = 1
n
∑n
i=1 x∗
i (1) = 22.2
x∗
(2) = {15, 23, 12, 17, 23, 25, 16, 22, 25, 25}
→ µ∗
2 = 1
n
∑n
i=1 x∗
i (2) = 20.3
16 / 31
推定量 分布
µ∗
1 = 22.2, µ∗
2 = 20.3, µ∗
3 = 19.5, ...
標本 取 平均値
変 、
推定量 µ∗
分布 G∗
n 。
↓
標本 平均 B = 2000 回
作 、
作 !!
17 / 31
Mathematica code
bootstrap[func_ , dat_ , num_] :=
Table[func[ RandomChoice [dat , Length[dat ]]], {i, num }]
data = {12, 15, 16, 17, 19, 20, 22, 23, 25, 28};
boot = bootstrap[Mean , data , 2000];
Histogram[boot , Automatic]
In [289]:= N[Mean[boot ]]
Out [289]= 19.6897
16 18 20 22 24 26
50
100
150
200
250
300
18 / 31
法 流
1 母集団 F 大 n 標本 抽出
2 標本 興味 θn 求
3 標本 復元抽出 B 回繰 返
標本
4 推定値 求 、
信頼区間 求
19 / 31
法 考 方
法 以下 置 換
未知 確率分布 F ⇒ 経験分布関数 Fn
F 関 θ = T(F) ⇒ Fn 関 θn = T(Fn)
推定量 θn = T(Fn) ⇒ 推定量
分布 Gn θ∗
n = T(F∗
n ) 分布 G∗
n
未知 F 標本 何度 抽出 、
既知 Fn 。
20 / 31
適用例
分布Γ(α, β)
推定 !
21 / 31
分布
分布 Γ(5, 2) 標本 抽出 、 推定
5 10 15 20 25 30
0.02
0.04
0.06
0.08
22 / 31
標本 抽出
Γ(5, 2) 標本 30 個抽出 、
最尤推定
In [304]:= dat = RandomReal[ GammaDistribution [5, 2], 30];
edist = FindDistributionParameters [dat ,
GammaDistribution [α, β]]
Out [305]= {α -> 7.05494 , β -> 1.41704}
_人人人人人人人人_
>  違  <
 ̄Y^Y^Y^Y^Y^Y^Y ̄
23 / 31
最尤推定値 分布
試 、30 個 標本 1000 組取 出 、
最尤推定値 分布 見
4 6 8 10 12 14
50
100
150
α : 平均 5.46133
分散 2.05054
1.0 1.5 2.0 2.5 3.0 3.5 4.0
50
100
150
β : 平均 1.94222
分散 0.247136
24 / 31
母集団 何度
、
現実的 難 。
↓
標本 !
25 / 31
推定量
標本 2000 組抽出 、
推定 。
In [432]:=
Fgamma[dat_] :=
FindDistributionParameters [dat ,
GammaDistribution [α, β]]
boot = bootstrap[Fgamma , dat , 2000];
Mean[boot [[All , All , 2]]]
Out [434]={7.95611 , 1.34972}
↑ 2000 組 推定値 α, β 平均
26 / 31
計算
推定 誤差 捉 、 計算
推定量 θn
b(Fn) = EFn (θ∗
n) − θn
≈
1
B
B∑
b=1
θ∗
n(b) − θn
In [443]:= nvalue = Fgamma[dat]
bias = Mean[boot [[All , All , 2]]] - nvalue [[All , 2]]
Out [443]= {0.901169 , -0.067321}
α 0.901169, β −0.067321
27 / 31
推定量 修正
偏 修正済推定量
˜θ = θn − b(Fn)
= 2θn − EFn (θ∗
n)
In [443]:= nvalue [[All , 2]] - bias
Out [444]= {6.15377 , 1.48436}
偏 修正済推定量 、(α, β) = (6.15377, 1.48436)
28 / 31
偏 修正済推定量 分布
偏 修正済推定量
temp = Table[dat = RandomReal[ GammaDistribution [5, 2], 30];
boot = bootstrap[Fgamma , dat , 100];
nvalue = Fgamma[dat];
bias = Mean[boot [[All , All , 2]]] - nvalue [[All , 2]];
nvalue [[All , 2]] - bias , {i, 100}];
3 4 5 6 7 8 9 10
10
20
30
40
α : 平均 4.98765
分散 1.38136
1.0 1.5 2.0 2.5 3.0
10
20
30
40
β : 平均 1.96953
分散 0.203531
29 / 31
法 、標本 多数回
行 推定
未知 確率分布 既知 経験分布 置 換
母集団 場合 、
計算機
統計量 偏 ( 分散、 対
信頼区間) 構成
30 / 31
。
31 / 31

More Related Content

PDF
よくわかるフリストンの自由エネルギー原理
PPTX
ようやく分かった!最尤推定とベイズ推定
PDF
統計的因果推論への招待 -因果構造探索を中心に-
PDF
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
PDF
因果探索: 基本から最近の発展までを概説
PDF
『自由エネルギー原理入門』勉強会1章&2章前半
PDF
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
PDF
非ガウス性を利用した 因果構造探索
よくわかるフリストンの自由エネルギー原理
ようやく分かった!最尤推定とベイズ推定
統計的因果推論への招待 -因果構造探索を中心に-
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
因果探索: 基本から最近の発展までを概説
『自由エネルギー原理入門』勉強会1章&2章前半
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
非ガウス性を利用した 因果構造探索

What's hot (20)

PDF
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
PDF
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
PDF
最適輸送の計算アルゴリズムの研究動向
PDF
グラフィカル Lasso を用いた異常検知
PDF
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
PDF
相関と因果について考える:統計的因果推論、その(不)可能性の中心
PDF
Bayes Independence Test - HSIC と性能を比較する-
PPTX
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
PDF
順序データでもベイズモデリング
 
PPTX
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PDF
工学系大学4年生のための論文の読み方
PDF
階層ベイズとWAIC
PDF
『バックドア基準の入門』@統数研研究集会
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PDF
3次元レジストレーション(PCLデモとコード付き)
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PDF
2 7.一般化線形混合モデル
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
MICの解説
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
最適輸送の計算アルゴリズムの研究動向
グラフィカル Lasso を用いた異常検知
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
相関と因果について考える:統計的因果推論、その(不)可能性の中心
Bayes Independence Test - HSIC と性能を比較する-
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
【DL輪読会】時系列予測 Transfomers の精度向上手法
順序データでもベイズモデリング
 
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
工学系大学4年生のための論文の読み方
階層ベイズとWAIC
『バックドア基準の入門』@統数研研究集会
変分推論法(変分ベイズ法)(PRML第10章)
3次元レジストレーション(PCLデモとコード付き)
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
2 7.一般化線形混合モデル
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
MICの解説
Ad

Similar to 【Zansa】第17回 ブートストラップ法入門 (20)

PDF
Rm20150520 6key
PPT
K070 点推定
PPT
070 統計的推測 母集団と推定
PPTX
便利な数を100億個の乱数から算出
PPTX
統計分析
PPTX
Introduction to Statistical Estimation (統計的推定入門)
PPT
K070k80 点推定 区間推定
KEY
第5章 統計的仮説検定 (Rによるやさしい統計学)
PPTX
Bootstrap methodの勉強メモ
PDF
データ解析4 確率の復習
PDF
PRML2.1 2.2
PDF
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
PDF
Prml2.1 2.2,2.4-2.5
PDF
クラシックな機械学習の入門  9. モデル推定
PDF
PRML10章
PDF
2013年度秋学期 統計学 第14回「分布についての仮説を検証する ― 仮説検定」
PDF
Simulation_assignment2
PDF
第8章 ガウス過程回帰による異常検知
PDF
第5回スキル養成講座 講義スライド
PDF
2021年度秋学期 統計学 第11回 分布の「型」を考える ー 確率分布モデルと正規分布(2021. 12. 7)
Rm20150520 6key
K070 点推定
070 統計的推測 母集団と推定
便利な数を100億個の乱数から算出
統計分析
Introduction to Statistical Estimation (統計的推定入門)
K070k80 点推定 区間推定
第5章 統計的仮説検定 (Rによるやさしい統計学)
Bootstrap methodの勉強メモ
データ解析4 確率の復習
PRML2.1 2.2
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
Prml2.1 2.2,2.4-2.5
クラシックな機械学習の入門  9. モデル推定
PRML10章
2013年度秋学期 統計学 第14回「分布についての仮説を検証する ― 仮説検定」
Simulation_assignment2
第8章 ガウス過程回帰による異常検知
第5回スキル養成講座 講義スライド
2021年度秋学期 統計学 第11回 分布の「型」を考える ー 確率分布モデルと正規分布(2021. 12. 7)
Ad

More from Zansa (12)

PPTX
121218 zansa13 for web
PDF
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
PPTX
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
PPTX
【Zansa】物理学はWebデータ分析に使えるか
PPTX
第8回Zansa 俺の人生ランダムウォーク
PDF
【Zansa】 人工社会-複雑系とマルチエージェントシミュレーションの紹介-
PDF
ベイズ入門
PDF
第5回Zansa勉強会
PDF
Zansa第4回勉強会 重回帰分析
PPTX
Text classification zansa
PDF
Zansa第二回11 28 発表資料 植木
PDF
Zansa0130presentation
121218 zansa13 for web
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
【Zansa】物理学はWebデータ分析に使えるか
第8回Zansa 俺の人生ランダムウォーク
【Zansa】 人工社会-複雑系とマルチエージェントシミュレーションの紹介-
ベイズ入門
第5回Zansa勉強会
Zansa第4回勉強会 重回帰分析
Text classification zansa
Zansa第二回11 28 発表資料 植木
Zansa0130presentation

【Zansa】第17回 ブートストラップ法入門

  • 1. 法入門 @ksmzn 第 17 回 Zansa 27 Novenber 2013 1 / 31
  • 2. 誰 Twiiter : @ksmzn 専門 : 計算機統計 2 / 31
  • 7. 法 ? 法(Bootstrap Method) 、 n 個 標本 x1, x2, ..., xn 繰 返 許 n 個 標本 B 組選 、平均 分散 推定値 繰 返 求 、 分布 確率分布 誤差 推定 方法 7 / 31
  • 9. 前提 、統計量 標本分布! 定義 F : 未知 確率分布 θ : F 関 興味 θ = T(F) 表 Fn : 既知 経験分布関数 F 抽出 n 個 標本 X 構成 θn : θ 推定値 用 統計量 θn = T(FN ) 表 θn 変動 、 θn 分布 Gn 持 。(θn ∼ Gn) 9 / 31
  • 11. 簡単 例 平均 求 場合 F : 未知 確率分布 µ : F 平均 知 。µ = T(F) = EF [X] x = {12, 15, 16, 17, 19, 20, 22, 23, 25, 28} F 抽出 10 個 標本 Fn : 既知 経験分布関数 10 個 標本 x 構成 µn : µ 推定値 用 統計量 µn = T(Fn) = 1 n ∑n i=1 xi = 19.7 µn 変動 、 µn 分布 Gn 持 。(µn ∼ Gn) 11 / 31
  • 12. 経験分布関数Fn n 個 標本 x1, x2, ..., xn 大 順 x(1), x(2), ..., x(n) 並 替 、 各点 等確率 1 n 与 分布 赤:真 分布関数 黒:経験分布関数(n = 40) 12 / 31
  • 14. 標本 例 n = 10 標本 x = {12, 15, 16, 17, 19, 20, 22, 23, 25, 28} 10 個 復元抽出 x∗ (1) = {20, 19, 20, 23, 19, 28, 23, 28, 17, 25} 一度 10 個 復元抽出 x∗ (2) = {15, 23, 12, 17, 23, 25, 16, 22, 25, 25} 14 / 31
  • 15. 標本 経験分布関数 Fn 標本 。 x1, x2, ..., xn n 個 復元抽出 得 x∗ = {x∗ 1, x∗ 2, ..., x∗ n} 構成 経験分布関数 F∗ n 15 / 31
  • 16. 標本 平均 標本 平均 x = {12, 15, 16, 17, 19, 20, 22, 23, 25, 28} → µn = 1 n ∑n i=1 xi = 19.7 x∗ (1) = {20, 19, 20, 23, 19, 28, 23, 28, 17, 25} → µ∗ 1 = 1 n ∑n i=1 x∗ i (1) = 22.2 x∗ (2) = {15, 23, 12, 17, 23, 25, 16, 22, 25, 25} → µ∗ 2 = 1 n ∑n i=1 x∗ i (2) = 20.3 16 / 31
  • 17. 推定量 分布 µ∗ 1 = 22.2, µ∗ 2 = 20.3, µ∗ 3 = 19.5, ... 標本 取 平均値 変 、 推定量 µ∗ 分布 G∗ n 。 ↓ 標本 平均 B = 2000 回 作 、 作 !! 17 / 31
  • 18. Mathematica code bootstrap[func_ , dat_ , num_] := Table[func[ RandomChoice [dat , Length[dat ]]], {i, num }] data = {12, 15, 16, 17, 19, 20, 22, 23, 25, 28}; boot = bootstrap[Mean , data , 2000]; Histogram[boot , Automatic] In [289]:= N[Mean[boot ]] Out [289]= 19.6897 16 18 20 22 24 26 50 100 150 200 250 300 18 / 31
  • 19. 法 流 1 母集団 F 大 n 標本 抽出 2 標本 興味 θn 求 3 標本 復元抽出 B 回繰 返 標本 4 推定値 求 、 信頼区間 求 19 / 31
  • 20. 法 考 方 法 以下 置 換 未知 確率分布 F ⇒ 経験分布関数 Fn F 関 θ = T(F) ⇒ Fn 関 θn = T(Fn) 推定量 θn = T(Fn) ⇒ 推定量 分布 Gn θ∗ n = T(F∗ n ) 分布 G∗ n 未知 F 標本 何度 抽出 、 既知 Fn 。 20 / 31
  • 22. 分布 分布 Γ(5, 2) 標本 抽出 、 推定 5 10 15 20 25 30 0.02 0.04 0.06 0.08 22 / 31
  • 23. 標本 抽出 Γ(5, 2) 標本 30 個抽出 、 最尤推定 In [304]:= dat = RandomReal[ GammaDistribution [5, 2], 30]; edist = FindDistributionParameters [dat , GammaDistribution [α, β]] Out [305]= {α -> 7.05494 , β -> 1.41704} _人人人人人人人人_ >  違  <  ̄Y^Y^Y^Y^Y^Y^Y ̄ 23 / 31
  • 24. 最尤推定値 分布 試 、30 個 標本 1000 組取 出 、 最尤推定値 分布 見 4 6 8 10 12 14 50 100 150 α : 平均 5.46133 分散 2.05054 1.0 1.5 2.0 2.5 3.0 3.5 4.0 50 100 150 β : 平均 1.94222 分散 0.247136 24 / 31
  • 25. 母集団 何度 、 現実的 難 。 ↓ 標本 ! 25 / 31
  • 26. 推定量 標本 2000 組抽出 、 推定 。 In [432]:= Fgamma[dat_] := FindDistributionParameters [dat , GammaDistribution [α, β]] boot = bootstrap[Fgamma , dat , 2000]; Mean[boot [[All , All , 2]]] Out [434]={7.95611 , 1.34972} ↑ 2000 組 推定値 α, β 平均 26 / 31
  • 27. 計算 推定 誤差 捉 、 計算 推定量 θn b(Fn) = EFn (θ∗ n) − θn ≈ 1 B B∑ b=1 θ∗ n(b) − θn In [443]:= nvalue = Fgamma[dat] bias = Mean[boot [[All , All , 2]]] - nvalue [[All , 2]] Out [443]= {0.901169 , -0.067321} α 0.901169, β −0.067321 27 / 31
  • 28. 推定量 修正 偏 修正済推定量 ˜θ = θn − b(Fn) = 2θn − EFn (θ∗ n) In [443]:= nvalue [[All , 2]] - bias Out [444]= {6.15377 , 1.48436} 偏 修正済推定量 、(α, β) = (6.15377, 1.48436) 28 / 31
  • 29. 偏 修正済推定量 分布 偏 修正済推定量 temp = Table[dat = RandomReal[ GammaDistribution [5, 2], 30]; boot = bootstrap[Fgamma , dat , 100]; nvalue = Fgamma[dat]; bias = Mean[boot [[All , All , 2]]] - nvalue [[All , 2]]; nvalue [[All , 2]] - bias , {i, 100}]; 3 4 5 6 7 8 9 10 10 20 30 40 α : 平均 4.98765 分散 1.38136 1.0 1.5 2.0 2.5 3.0 10 20 30 40 β : 平均 1.96953 分散 0.203531 29 / 31
  • 30. 法 、標本 多数回 行 推定 未知 確率分布 既知 経験分布 置 換 母集団 場合 、 計算機 統計量 偏 ( 分散、 対 信頼区間) 構成 30 / 31