SlideShare a Scribd company logo
ベイズファクターと
モデル選択
自己紹介
• 前田和寛(MAEDA Kazuhiro)
• 比治山大学短期大学部 総合生活デザイン学科
• kazum@hijiyama-u.ac.jp
• http://kz-md.net/
• Twitter: @kazutan #ビールうめぇ
本日の内容
• ベイズの定理について考える
• ベイズファクターとモデル選択
※イメージを掴んでもらうことを意識してます
• 細かいところで用語が不適切な場合があるかもしれません
ベイズの定理について考える
ベイズの式
𝑃 𝐴|𝐵 =
𝑃(𝐵|𝐴)𝑃(𝐴)
𝑃(𝐵)
• 𝑃 𝐴
• ある事象Aが起こる確率
• 𝑃 𝐵
• ある事象Bが起こる確率
• 𝑃 𝐵 𝐴
• ある事象Aが起こった上での
事象Bが起こる確率
• 𝑃 𝐴 𝐵
• ある事象Bが起こった上での
事象Aが起こる確率
A B
ベイズの式(例)
𝑃 𝐴|𝐵 =
𝑃(𝐵|𝐴)𝑃(𝐴)
𝑃(𝐵)
• 𝑃 𝐴
• 事象「カープのホームゲーム」が
起こる確率
• 𝑃 𝐵
• 事象「カープが勝つ」が起こる確
率
• 𝑃 𝐵 𝐴
• 「カープのホームゲーム」という
条件での「カープが勝った」確率
• 𝑃 𝐴 𝐵
• 「カープが勝った」という条件で
の「カープのホームゲーム」確率
A B
実際に計算してみる(1)
勝 負 計
ホーム 18 7 25
アウェイ 12 14 26
計 30 21 51
• 𝑃 𝐴 = 0.49
• 事象「カープのホームゲーム」が
起こる確率
• 𝑃 𝐵 = 0.59
• 事象「カープが勝つ」が起こる確
率
• 𝑃 𝐵 𝐴 =
0.35
0.49
= 0.72
• 「カープのホームゲーム」という
条件での「カープが勝った」確率
• 𝑃 𝐴 𝐵 =
0.72∗0.49
0.59
= 0.60
• 「カープが勝った」という条件で
の「カープのホームゲーム」確率
勝 負 計
ホーム 0.35 0.14 0.49
アウェイ 0.24 0.27 0.51
計 0.59 0.41 1.00
※ 2014年5月末までの成績で算出してます
事前確率と事後確率
𝑃 𝐴|𝐵 =
𝑃(𝐵|𝐴)𝑃(𝐴)
𝑃(𝐵)
• Aを「原因」となる事象、Bを
「結果」となる事象として考え
ると…
• 𝑃 𝐴
• 結果が起こる前、つまり事前の状
態の確率・・・事前確率
• 𝑃 𝐵
• 得られた(測定した)結果
• 𝑃 𝐵 𝐴
• 原因があった時(条件下)での、結
果が発生する確率
• 𝑃 𝐴 𝐵
• その結果が起こった後、つまり事
後の状態の確率・・・事後確率
A B
よぉわからんけぇカープで例えてくれ
𝑃 𝐴|𝐵 =
𝑃(𝐵|𝐴)𝑃(𝐴)
𝑃(𝐵)
• A:「カープのホームゲーム」
B:「カープが勝利」
• 𝑃 𝐴
• 「カープがホームゲーム」である
確率
• 𝑃 𝐵
• カープが勝つ確率
• 𝑃 𝐵 𝐴
• 「ホームゲーム」で行われたなら
ば「カープが勝つ」確率
• 𝑃 𝐴 𝐵
• 「カープが勝った」というニュー
スから、「ホームゲーム」であっ
た確率
A B
仮説(H)とデータ(D)で考えてみよう
𝑃 𝐻|𝐷 =
𝑃(𝐷|𝐻)𝑃(𝐻)
𝑃(𝐷)
• H:なんらかの仮説
D:得られたデータ
• 𝑃 𝐻
• (データを取る前の)仮説の確率
• 𝑃 𝐷
• そのデータが得られる確率
• 𝑃 𝐷 𝐻
• その仮説が正しいとするときに、
そのデータが得られる確率
• 𝑃 𝐻 𝐷
• データが得られた後での、仮説
が正しい確率
H D
よぉわからんけぇカープで(ry
𝑃 𝐻|𝐷 =
𝑃(𝐷|𝐻)𝑃(𝐻)
𝑃(𝐷)
• 6月1日「カープが勝った」が、
この試合が「ホームゲーム」で
ある確率は?
• H:「6/1はホームゲーム」
D:「カープが勝つ」
• ホームゲームの確率は0.49
• 5月末カープの勝率は0.59
• 同ホームでの勝率は0.72
• 𝑃 𝐻
• ホームゲームが開催される確率
• 𝑃 𝐷
• カープの勝率
• 𝑃 𝐷 𝐻
• ホームでのカープの勝率
• 𝑃 𝐻 𝐷
• 「カープが勝った」ときのホーム
ゲームである確率
• さあ計算してみよう!
• (てかもう答え前に出してる)
𝑃(𝐷|𝐻)について踏み込んでみよう
• 仮説Hが正しいとした時に得られるデータ(D)の確率
• カープで(ry : ホームゲーム(仮説H)である時の、5月末までの成績(デー
タ)で得られるカープの勝率
• 言い換えれば…
得られたデータから、その仮説がどのくらい「もっともなのか」を表
す確率
• この6/1の勝利ゲームが「ホームゲーム」だった、と仮定しよう
• ホームゲームは0.49だけ行われてる…からそのまま考えたらこのとおりだけど…
• それじゃあ、ホームゲームで今のところ実際にどれだけ勝ってる?→0.72
• てことは、データからみたら、この仮定はこの確率くらい「もっともらしい」よ
ね。
• この𝑃(𝐷|𝐻)は、尤度と言われる
• 母数を含む仮説モデルの場合。データ分布とも。
事前分布・事後分布・尤度
• ベイズの式は、以下のように表現できます
• 事後確率 =
尤度 × 事前確率
基準化定数
• 基準化定数はさっきの分母P(D)のこと。
「全事象の確率の総和は1である」という制約から、そうなるように設定
…つまり「定数」です
• 定数は定数なので、更に書き換えると…
• [事後確率] ∝ [尤度]×[事前確率]
• 事後確率は、尤度と事前確率をかけたものに比例する
• つまりこの2つが重要となっている!
ベイスファクターと
モデル選択
ホーム(H0)とアウェー(H1)で考えてみる
• 仮説H0 :ホームゲーム
𝑃 𝐻0|𝐷 =
𝑃(𝐷|𝐻0)𝑃(𝐻0)
𝑃(𝐷)
• さっきまで説明したものと同一
• 仮説H1 :アウェーゲーム
𝑃 𝐻1|𝐷 =
𝑃(𝐷|𝐻1)𝑃(𝐻1)
𝑃(𝐷)
• 仮説「アウェー」になっている
• それ以外は同一
どっちがいい仮説(モデル)なの?
ベイズファクター
• さっきの2つの仮説(モデル)について、事後確率を比べてみる
(比を取る)
𝑃 𝐻1|𝐷
𝑃 𝐻0|𝐷
=
𝑃(𝐷|𝐻1)𝑃(𝐻1)
𝑃(𝐷|𝐻0)𝑃(𝐻0)
=
𝑃(𝐷|𝐻1)
𝑃(𝐷|𝐻0)
×
𝑃(𝐻1)
𝑃(𝐻0)
• これは、[事後確率の比]=[尤度の比]×[事前確率の比]となります
• この式を変形すると…
• [尤度の比(ベイズファクター)] =
[事後確率の比(事後オッズ)]
[事前確率の比(事前オッズ)]
• つまり、「2つの仮説(モデル)のもっともらしさを比較したもの」
がベイズファクター!
なにがどうなればいいの?
• ベイズファクターは簡単に言うと
「2つのモデルそれぞれのもっとらしさを比べた指標」
• 先の例で言うと…
• ベイズファクターが1より大きい
→ H1のモデルの方が(相対的に)もっともらしい、となる
• ベイズファクターが1より小さい
→H0 のモデルの方が(相対的に)もっともらしい、となる
• ではカープで…
•
𝑃 𝐻1|𝐷
𝑃 𝐻0|𝐷
=
0.47
0.72
=0.65
• これってどうなの?
ベイズファクターの基準
• Kass & Raftery(1995)の基準
• 基準というか「目安」
• 他にも有名なものが色々あり
• 大切なのは、「有意水準」
みたいにズバッと切るもの
ではないこと
• そもそもそれに問題提起され
て広がってきた側面もあるん
ですしね・・・
BF 2logBF M0と比べた
M1に対する判断
BF < 1 2logBF < 0 M0の方が良い
1 < BF < 3 0 < 2logBF <2 かろうじて優れてい
る
3 < BF < 12 2 < 2logBF < 5 優れている
12 < BF < 150 5 < 2logBF < 10 かなり優れている
150 < BF 10 < 2logBF 非常に優れている
追記: 先の式で大きい方を分子に持ってきて、
その上でBFを見たほうがスムーズです。
あと基準(目安)はいろいろあります。
ベイズファクターの問題点
• 2つのモデルの相対的比較である
• ベイズファクターの式: 2つのモデルの「もっとらしさの比」
→数値の大小は、「2つを比較してどっちがいいか」にしかならない
• 複数の指標を算出して、トータルで考えていくべし
→ この後紹介します
• 計算が鬼(になることが多い)
• 詳細は省略します…
• パラメータが増えたり、事前分布などによって大変になるようです
他のモデル指標も考えよう BIC
• Bayes information criterion(ベイズ情報量基準)
𝐵𝐼𝐶ℎ = −2 log 𝑃 𝐷 𝜃ℎ, 𝑀ℎ + 𝐾ℎ log 𝐼
𝜃ℎはモデル𝑀ℎのもとでのパラメータの最尤推定値
𝐾ℎはパラメータの数、𝐼はサンプルサイズ
• 2つのモデルでそれぞれ算出された𝐵𝐼𝐶0と𝐵𝐼𝐶1の差が、
2logBFの近似となる
• 算出が比較的カンタンなので、用いられることも多い
• ただし、これはベイズファクターとは別物だということには注意
他のモデル指標も考えよう DIC
• Deviance information criterion(偏差情報量基準)
𝐷𝐼𝐶ℎ = −
2
𝑇
𝑡=1
𝑇
log 𝑃 𝐷 𝜃ℎ
(𝑡)
, 𝑀ℎ + 2𝐾ℎ
• 𝜃ℎ
(𝑡)
はパラメータ𝜃の事後分布から得られたT個の無作為標本
• この𝜃ℎ
(𝑡)
にマルコフ連鎖の連鎖要素をそのまま持ってこれる
→ MCMCとの相性がいい
• 2つのモデルについてDICを算出し、値が小さいモデルのほうが
データに対する当てはまりがいいと評価
• また、この指標も相対的な比較のための指標
他のモデル指標も考えよう 事後予測p
値
• 事後分布が算出されるんだから、それに基づく分布から標本分
布をだせるんでね?
→ 事後予測分布
• そしたらこの分布と元データの分布は近くなるはずでね?
→ 指標化したのが事後予測p値
• 0.5に近ければモデルのデータへの当てはまりがいい
• 2つのモデル比較ではなく、1つのモデルに対するデータへの当てはま
りを見る指標
• ただし、実際に事後予測p値を用いるときには、ベイズファクターなど
を補完するものとしたほうが無難とのこと
そもそもなんでベイズファクターを…?
• 帰無仮説の呪縛からの開放
• 伝統的な検定は「帰無仮説」と「対立仮説」という構図
• でもベイズファクターなら「独立する2つのモデル(仮説)」を比較
・・・別に「帰無仮説」なんてなくていい
• 正規分布の呪縛からの開放
• このベイズの式には、事前分布を組み込んでいる
• 「事前分布は正規分布でなくていい」
→ より柔軟な統計モデルをあてはめて検討可能
・・・ベイズ推定が利用される
※ この先は、あとのメンバーにお任せします
さいごに
ベイズファクターは2つの対立する 仮説について,データが支持
する程度の比を直接数量化 した量である。100倍支持するのであ
れば十分であり, 1.04倍支持するのでは不十分だ,ということに
は多くの 研究者が同意するだろう。しかしながら,文献中には
明 確なガイドラインはなく,また我々もそれを提供しな い。な
ぜならば,恣意的な決定規則を与えたくはないか らだ。
p値についてのよく知られた警句を思い出すとよ い:
『神はp<.05をp<.06と等しく,そして同じくらい 強く愛してく
ださる』
Rosnow & Rosenthal (1989)の一部より(岡田, 2014)
参考資料(主なもののみ記載)
• 涌井良幸「道具としてのベイズ時計」
• 入門書としてまず読んでみるにはちょうどいいです
• 今回の前半部分を作成するのに参考にさせていただきました
• 大久保街亜・岡田謙介「伝えるための心理統計」
• 本書の6章2節にベイズ統計学に関する説明があります
• ベイズファクターを用いた具体例も記載してあります
• 豊田秀樹(編)「マルコフ連鎖モンテカルロ法」
• 通称MCMC本。
• 本書の3章2節にベイズファクター及びモデル指標の説明があります
• 岡田謙介 (2014). ベイズ統計による情報仮説の評価は分散分析にとって代
わるのか? 基礎心理学研究, 32(2), 223-231

More Related Content

PDF
心理学におけるベイズ統計の流行を整理する
PDF
最適輸送の解き方
PDF
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
PDF
初めて論文を書くあなたへ_論文執筆の際に頻回に行ったアドバイスをまとめました.私が目指す格好いい論文を書くためのtipsです.
PDF
PDF
見やすいプレゼン資料の作り方 - リニューアル増量版
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
PDF
最適輸送入門
心理学におけるベイズ統計の流行を整理する
最適輸送の解き方
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
初めて論文を書くあなたへ_論文執筆の際に頻回に行ったアドバイスをまとめました.私が目指す格好いい論文を書くためのtipsです.
見やすいプレゼン資料の作り方 - リニューアル増量版
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
最適輸送入門

What's hot (20)

PDF
Stan超初心者入門
PDF
階層モデルの分散パラメータの事前分布について
PDF
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
PDF
Stanコードの書き方 中級編
PDF
これからの仮説検証・モデル評価
PDF
あなたの心にBridgeSampling
PDF
階層ベイズと自由エネルギー
PPTX
StanとRでベイズ統計モデリング読書会Ch.9
PDF
不均衡データのクラス分類
PPTX
ベイズ統計学の概論的紹介
PPTX
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
PPTX
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
PDF
PDF
2 6.ゼロ切断・過剰モデル
PDF
階層ベイズとWAIC
PDF
Stanの便利な事後処理関数
PDF
Chapter9 一歩進んだ文法(前半)
PDF
pymcとpystanでベイズ推定してみた話
PDF
Prophet入門【Python編】Facebookの時系列予測ツール
PDF
心理学者のためのJASP入門(操作編)[説明文をよんでください]
Stan超初心者入門
階層モデルの分散パラメータの事前分布について
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
Stanコードの書き方 中級編
これからの仮説検証・モデル評価
あなたの心にBridgeSampling
階層ベイズと自由エネルギー
StanとRでベイズ統計モデリング読書会Ch.9
不均衡データのクラス分類
ベイズ統計学の概論的紹介
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
2 6.ゼロ切断・過剰モデル
階層ベイズとWAIC
Stanの便利な事後処理関数
Chapter9 一歩進んだ文法(前半)
pymcとpystanでベイズ推定してみた話
Prophet入門【Python編】Facebookの時系列予測ツール
心理学者のためのJASP入門(操作編)[説明文をよんでください]
Ad

Viewers also liked (8)

PDF
ベイズ主義による研究の報告方法
PPTX
心理学者のためのGlmm・階層ベイズ
PDF
2 3.GLMの基礎
PDF
1 3.分散分析 anova
PDF
1 4.回帰分析と分散分析
PDF
TensorFlowで逆強化学習
PDF
シンギュラリティを知らずに機械学習を語るな
PDF
エクセルで統計分析 統計プログラムHADについて
ベイズ主義による研究の報告方法
心理学者のためのGlmm・階層ベイズ
2 3.GLMの基礎
1 3.分散分析 anova
1 4.回帰分析と分散分析
TensorFlowで逆強化学習
シンギュラリティを知らずに機械学習を語るな
エクセルで統計分析 統計プログラムHADについて
Ad

Recently uploaded (9)

PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告

ベイズファクターとモデル選択