SlideShare a Scribd company logo
パターン認識と機械学習
増田 太郎
勉強会資料
2018/12/06
1
目次
• 第2章 確率分布
– 2.1 2値変数
• ベルヌーイ分布
• 二項分布
• 2.1.1 ベータ分布
– 2.2 多値変数
• 多項分布
2
目次
• 第2章 確率分布
– 2.1 2値変数
• ベルヌーイ分布
• 二項分布
• 2.1.1 ベータ分布
– 2.2 多値変数
• 多項分布
3
第2章 確率分布
• この章では、いろいろな確率分布や、それらの
特徴について勉強しよう。
– それら自身をモデルに使うこともできるし、
より複雑なモデルの基礎を成すこともあるため、
ここを勉強しておくことが非常に大事になります。
• また、勉強した確率分布(モデル)を例とした
ベイズ推論についても勉強しよう。
4
第2章 確率分布
• Q.確率分布って何に使うの? A. 密度推定
– 有限個のデータセット が与えられた
とき、確率変数 を
確率分布 でモデル化するときに使う。
– 観測されたデータセットを生成した可能性のある
分布の形は無限通りあるため、本質的に難しい
• 各データ点での確率密度 > 0でさえあれば可能性あり
– 例) x = 0.2, x = 0.4 と2つのデータが得られたとき、
p(x)は定義域(0, 1)の一様分布である可能性も、
平均0,分散1のガウス分布である可能性も
否定できない
5
第2章 確率分布
• これからの「勉強する確率分布」の話をしよう
– パラメトリックなモデル: 与えられた観測データ
集合に基づき、適切なパラメータの値を決めろ!
(例:1次元ガウス分布なら平均、分散の2つ)
• 離散確率変数
– 二項分布
– 多項分布
• 連続確率変数
– ガウス分布
6
第2章 確率分布
• じゃあ、パラメータの求め方は?
– 頻度主義
• 目的関数の最適化問題を解いてパラメータを決める
⇒パラメータ自体は確率変数とみなさない
– 尤度関数の最大化など(KL Divergenceの最小化とかも?)
– ベイズ主義
• パラメータとして事前分布を用意する
• 観測データが与えられたときのパラメータの事後分布
を、ベイズの定理で計算する
⇒パラメータ自体を確率変数とみなす
7
第2章 確率分布
• 共役事前分布について
– 事後分布の形と事前分布の形が同じになるように
選んだ事前分布のこと
⇒ベイズ解析(推論)の計算が簡易になる!
– 例:指数型分布族 (2.4節)
• 多項分布のパラメータの事前分布にディリクレ分布
(2.2.1節)を用いると、事後分布もディリクレ分布になる
• ガウス分布の平均の事前分布にガウス分布を用いると、
事後分布もガウス分布になる
8
第2章 確率分布
• ノンパラメトリックな密度推定について (2.5節)
– パラメトリックな推定のように、分布に特定の形状
を仮定したくないときに使う
– データ集合の大きさに分布の形状が依存する
– パラメータを持つが、分布の形状ではなく、
モデルの複雑さを調節するために使う
– 例
• ヒストグラム法
• 最近傍法
• カーネル法
9
目次
• 第2章 確率分布
– 2.1 2値変数
• ベルヌーイ分布
• 二項分布
• 2.1.1 ベータ分布
– 2.2 多値変数
• 多項分布
10
目次
• 第2章 確率分布
– 2.1 2値変数
• ベルヌーイ分布
• 二項分布
• 2.1.1 ベータ分布
– 2.2 多値変数
• 多項分布
11
2.1 二値変数
• ベルヌーイ分布(Bernoulli distribution)
– {0, 1}の二値しか取り得ない確率変数を考える
– 歪んだコインで、表( )が出る確率を 、
裏( )が出る確率を で表す
(2.1)
– 確率分布は以下の形に書ける
∵ 、 を代入してみると上の式になる
12
2.1 二値変数
• ベルヌーイ分布(Bernoulli distribution)
– 正規化されている
– 平均と分散は以下 (2.3, 2.4)
13
2.1 二値変数
• ベルヌーイ分布(Bernoulli distribution)
– 尤度関数は、データ集合を
とすると
• ※観測値は独立に得られたと仮定している
(前後の表裏の結果に影響されない)
– 頻度主義=最尤推定では を1つの点として
推定する
14
2.1 二値変数
• ベルヌーイ分布(Bernoulli distribution)
– 計算の便宜上、自然対数をとって最大化する
– 観測データ に依存する項では、総和
のみ計算すればいいことが分かる
⇒パラメタを推定するのに十分な統計量
=十分統計量 とよぶ
15
2.1 二値変数
• ベルヌーイ分布(Bernoulli distribution)
– 十分統計量について考察するため、微分して
0と置いてみる
(2.7) サンプル平均とよぶ
16
2.1 二値変数
• ベルヌーイ分布(Bernoulli distribution)
– 表が出た回数(x=1)をmとおくと
=データ集合中での表の観測値の割合
=高校数学(数学A?)でやった
確率の求め方と同じ
– 3回コインを投げ、たまたま3回とも表になったら、
という「表しか出さない」コイン
という極端な推定をしてしまう = 過学習!
⇒パラメータ 自体に事前分布を導入して、
常識的な結果を得よう(ベイズ推定)
17
2.1 二値変数
• 二項分布(binomial distribution)
– N個のデータを持つデータ集合のうち、 (表)
となる観測値の数 についての分布
=値域は [0,N]となる(最小で0回、最大でN回)
– 分布の式は という形をとるはず
– 正規化係数は、二項定理(高校数学A?)を
思い出すと
組合せの数
18
2.1 二値変数
• 二項分布(binomial distribution)
– 二項定理の証明は以下(演習2.3)
19
2.1 二値変数
• 二項分布(binomial distribution)
– 二項定理の証明は以下(演習2.3)
20
• 二項分布(binomial distribution)
– (例)N=10, μ=0.25の時のグラフ
– ガウス分布と違って非対称なグラフが出てくるの
が面白い
2.1 二値変数
21
• 二項分布(binomial distribution)
– 平均と分散を求めてみよう!
• mは統計的に独立(mを何度測定しても、前回/次回の
結果とは互いに影響を及ぼしあわない)なことに注目
• 統計的に独立な事象において、
和の平均は平均の和になり、和の分散は分散の和にな
る(演習1.10, 後述)ので
2.1 二値変数
22
• 二項分布(binomial distribution)
– 演習1.10の証明
2.1 二値変数
23
Q&A + コーヒーブレイク
24
• 意図:これまで見てきたベルヌーイ分布、二項
分布のパラメータ推定をベイズ主義的に扱い
たい
– 最尤推定ではμは となる観測値の割合だ
が、データが少ないと過学習してしまうことがある
– ベイズの定理に従う場合、パラメータμに関する
事前分布p(μ)を導入する必要がある
• 計算や解釈がしやすい分布を考えたい
• 尤度関数は の積になっているので、
事前分布も と のべき乗に比例するように
選ぶ⇒事後分布は事前分布と同じ形式になる
=共役性(conjugacy) とよぶ
2.1.1 ベータ分布
25
• 以上より、次のベータ分布を事前分布に選ぶ
– ただし、 はガンマ関数
– 分布は正規化されている(演習2.5, web参照)
– 平均と分散はそれぞれ(演習2.6, 後述)
– パラメータaとbはパラメータのパラメータなので
ハイパーパラメータという
2.1.1 ベータ分布
26
• ベータ分布の平均と分散とモード(演習2.6)
2.1.1 ベータ分布
27
• ガンマ関数の公式に関する証明(演習1.17)
2.1.1 ベータ分布
28
• ベータ分布のいろいろな形
– パラメータ数はa, bの2個
(1次元ガウス分布と同じ)だが
非対称形など形状のバリエーションが豊富
2.1.1 ベータ分布
29
• ベータ分布に二項分布(尤度関数)をかけ、
μに依存する要素だけ取り出すと
・ はコインの裏が出た回数
– 共役性により、事前分布と同じ形の分布になった
– 正規化係数は、ベータ分布の元の式で
と置き換えると
となり、aを+m個、bを+l個すると事後分布になる!
2.1.1 ベータ分布
30
• 以上の考察から、 をそれぞれ、 と
における有効観測数という
– ※ は必ずしも整数でなくてよい
• 逐次学習(sequential learning)
– さらに続けてデータを観測すると、事後分布が
事前分布のように見なせる
• 次の観測値に対する尤度関数を、現在の事後分布に
掛けて正規化して新しい事後分布を得る
• 各段階における に対して、 を観測したら
, を観測したら
と足し算すれば新たな事後分布になる
2.1.1 ベータ分布
31
• 逐次学習(sequential learning) または
オンライン学習(online learning)の特徴
– 1つずつ or 少数ずつの観測値をもとに更新したら
次の観測値が使える前に捨ててしまう
– データが独立同分布に従えば成立する
=定常な系列で入ってくるデータに有効
– 全てのデータが届く前に予測をしたい実時間処理
に用いられる
– データ集合全体をメモリに保持しなくてよいので大
規模データセットに対しても有用
– 最尤法でも逐次学習はできる(⇒2.3.5節)
2.1.1 ベータ分布
32
• 逐次ベイズ学習の1段階分の図解
– 事前分布:a=2, b=2、μ=0.5の軸に対称な形
– 尤度関数:x=1を観測
– 事後分布:a=3,b=2 (山の高いところを1側に更新)
2.1.1 ベータ分布
33
• 次に出る観測値を予測しよう
– データセット が与えられたときの の分布を考
えればいいので
となり、前述の事後分布の結果と、ベータ分布の
平均の式を用いて
2.1.1 ベータ分布
乗法定理 加法定理
34
• 次に出る観測値を予測しよう
– 実際の観測値(m,l)と仮想的な事前の観測値(a,b)
とを合わせた観測値のうち、 となる割合と
解釈できる
– データが無限にある場合は最尤推定と同じ
2.1.1 ベータ分布
35
• 有限のデータ集合では、μの事後平均は、
事前平均と、事象の相対頻度(最尤推定量)
との間の値になる(演習2.7)
2.1.1 ベータ分布
36
• 右図から、
“観測値の数”(aやb)
が増えると、
事後分布のピークは
より鋭くなる
• 分散の式を見ても、
または とすると分散が0に収束!
=分布が点(デルタ関数)になる
2.1.1 ベータ分布
37
• Q. ベイズ学習の、多くのデータを観測すれば
するほど不確実性が恒常的に減少する特性
は一般的なものか?
• A. 平均的には、YES。つまり例外
(事後分散が事前分散よりも大きくなる場合)
あり。
• パラメータ をベイズ推論する一般的な問題
において、同時確率が で記述される
とすると (演習2.8)
2.1.1 ベータ分布
38
• (演習2.8)の証明
• この式は、 の事後平均を、データを生成す
る分布上で平均すると、 の事前平均に等し
くなることを示している
2.1.1 ベータ分布
39
• また、
(演習2.8)の証明
2.1.1 ベータ分布
40
•
– の事前分散 = の事後分散の平均
+ の事後平均の分散
– 右辺第2項の分散 > 0 より、 の事後分散は
平均的に左辺の事前分散よりも小さくなる
– 事後平均の分散が大きいほど、
事後分散の平均は小さくなる
– これらはあくまでも平均的に成り立つだけ
事後分散が事前分散より大きくなる場合もある
2.1.1 ベータ分布
41
目次
• 第2章 確率分布
– 2.1 2値変数
• ベルヌーイ分布
• 二項分布
• 2.1.1 ベータ分布
– 2.2 多値変数
• 多項分布
42
目次
• 第2章 確率分布
– 2.1 2値変数
• ベルヌーイ分布
• 二項分布
• 2.1.1 ベータ分布
– 2.2 多値変数
• 多項分布
43
• おさらい:2値変数は2つの取りうる値(1 or 0)
のうち1つを取る量を記述
• しかし、互いに排他的な K個の可能な状態の
うち1つを取るような離散変数を扱いたい
場合も多い
– 表現法として1-of-K符号化法(one-hot vector)
を使う
• 要素の1つ が 1で、残りは全て0であるような
K次元ベクトル (以下は6次元の例、 )
2.2 多値変数
44
• 1-of-K符号化法(one-hot vector)
– を満たす (例:0+0+1+0+0+0=1)
– となる確率をパラメータ で表すと、
の分布は、ベルヌーイ分布(K=2)
の一般化形となり
–
– μは確率なので
2.2 多値変数
45
• ベルヌーイ分布(K=2)の一般化形
– 正規化されている
– 期待値は
2.2 多値変数
46
• N個の独立な観測値 のデータ
集合 について考えると、尤度関数は
– ただし、
– この式から、N個のデータ点は、上記の という
K個の変数によってのみ尤度関数に寄与する
– は となる観測値の数を
表す、この分布の十分統計量
2.2 多値変数
47
• μの最尤推定解を求めよう
– の総和が1になる制約条件付きの
対数尤度
の最大化
– Lagrangeの未定乗数法を用いて
を最大化すればよい。 で微分して0とおくと
2.2 多値変数
48
• μの最尤推定解を求めよう
–
– k について和を取ると、 の総和が1より
– よって、最尤推定解は
=N個の観測値のうち となる割合
2.2 多値変数
49
• 多項分布(multinomial distribution)
– パラメータμと観測数Nが与えられたときの
の同時確率を考える
– ただし は となる観測値の数なので、
2.2 多値変数
50
• 多項分布(multinomial distribution)
– 正規化係数は N個の対象を
のK個のグループに分割する場合の数
(同じものを含む順列 from 数学A?)
– ∵多項定理より
2.2 多値変数
51
• ご清聴ありがとうございました!
Q&A
52

More Related Content

PDF
PRML2.1 2.2
PDF
[PRML] パターン認識と機械学習(第2章:確率分布)
PPTX
GEE(一般化推定方程式)の理論
PDF
PRML 第4章
PDF
Prml 2.3
PDF
Prml2.1 2.2,2.4-2.5
PDF
PRML 2.3.2-2.3.4 ガウス分布
PDF
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML2.1 2.2
[PRML] パターン認識と機械学習(第2章:確率分布)
GEE(一般化推定方程式)の理論
PRML 第4章
Prml 2.3
Prml2.1 2.2,2.4-2.5
PRML 2.3.2-2.3.4 ガウス分布
PRML上巻勉強会 at 東京大学 資料 第1章後半

What's hot (20)

PDF
PDF
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PDF
PRML復々習レーン#2 2.3.6 - 2.3.7
PDF
確率(人間科学のための基礎数学)
PDF
Prml 1.2,4 5,1.3|輪講資料1120
PDF
PRML 2.4
PDF
PRML_titech 2.3.1 - 2.3.7
PDF
Chapter 6 part2-Introduction to Inference-Tests of Significance, Stating Hyp...
PDF
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PDF
PRML 上 2.3.6 ~ 2.5.2
PDF
Probability
PDF
PRML 5.5.6-5.6
PDF
ggplotのplotエリアで日本語ラベルを使う
PDF
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
PDF
確率的主成分分析
PDF
Prml3.5 エビデンス近似〜
PDF
PRML 1.6 情報理論
PPT
Two-sample Hypothesis Tests
PDF
Supervised PCAとその周辺
PDF
データ解析5 単回帰分析
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML復々習レーン#2 2.3.6 - 2.3.7
確率(人間科学のための基礎数学)
Prml 1.2,4 5,1.3|輪講資料1120
PRML 2.4
PRML_titech 2.3.1 - 2.3.7
Chapter 6 part2-Introduction to Inference-Tests of Significance, Stating Hyp...
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML 上 2.3.6 ~ 2.5.2
Probability
PRML 5.5.6-5.6
ggplotのplotエリアで日本語ラベルを使う
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
確率的主成分分析
Prml3.5 エビデンス近似〜
PRML 1.6 情報理論
Two-sample Hypothesis Tests
Supervised PCAとその周辺
データ解析5 単回帰分析
Ad

Similar to Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料 (20)

PDF
ベイズ統計入門
PDF
PRML輪読#2
PDF
PRML勉強会第3回 2章前半 2013/11/28
PDF
PRML 上 1.2.4 ~ 1.2.6
PPTX
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
PDF
[PRML] パターン認識と機械学習(第1章:序論)
PDF
第4章 確率的学習---単純ベイズを使った分類
PDF
20190609 bayes ml ch3
PDF
20191006 bayesian dl_1_pub
PDF
MLaPP 5章 「ベイズ統計学」
PPT
C:\D Drive\Prml\プレゼン\パターン認識と機械学習2 4章 D0703
PDF
PRML第3章_3.3-3.4
PDF
PRML セミナー
PPTX
PDF
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
PPTX
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
PDF
クラシックな機械学習入門 1 導入
PPTX
基礎からのベイズ統計学 3章(3.1~3.3)
PPTX
Bernoulli distribution and multinomial distribution (ベルヌーイ分布と多項分布)
PDF
演習II.第1章 ベイズ推論の考え方 Part 2.講義ノート
ベイズ統計入門
PRML輪読#2
PRML勉強会第3回 2章前半 2013/11/28
PRML 上 1.2.4 ~ 1.2.6
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
[PRML] パターン認識と機械学習(第1章:序論)
第4章 確率的学習---単純ベイズを使った分類
20190609 bayes ml ch3
20191006 bayesian dl_1_pub
MLaPP 5章 「ベイズ統計学」
C:\D Drive\Prml\プレゼン\パターン認識と機械学習2 4章 D0703
PRML第3章_3.3-3.4
PRML セミナー
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
クラシックな機械学習入門 1 導入
基礎からのベイズ統計学 3章(3.1~3.3)
Bernoulli distribution and multinomial distribution (ベルヌーイ分布と多項分布)
演習II.第1章 ベイズ推論の考え方 Part 2.講義ノート
Ad

Recently uploaded (8)

PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告

Pattern Recognition and Machine Learning study session - パターン認識と機械学習 勉強会資料