SlideShare a Scribd company logo
1
R ゼミ
第3回
tarok
2
目次
1. 統計学における最大のテーマ(pp.3-4)
母集団の特徴(母数)を知るための統計学
母数の情報を得るための推定・仮説検定
2. 仮説検定(pp.4-21)
仮説検定の手順
仮説検定の全体像
実際の仮説検定
様々な問題への対応方法
[練習] 1標本問題
[練習] 2標本問題
仮説検定に使うR関数まとめ
3
母集団の特徴(母数)を知るための統計学
母集団
(本当は知りたいもの)
母平均
母分散
母標準偏差
母相関係数
母比率
母数
標本
(標本から計算できるもの)
標本平均
標本分散
標本標準偏差
標本相関係数
標本比率
標本統計量
推定
標本抽出
4
母数の情報を手に入れる方法
 推定
標本データをもとに,その標本が抽出された元々の母集団分布の母数
(母平均,母分散など)の値を定めること.
 仮説検定
母数に関して仮説を立て,既に得ている標本データからその仮説を棄
却するかどうかを検定すること.
研究室では仮説検定を使う機会の方が多いため,Rゼミでは仮説検定のみ扱います.
5
仮説検定の手順
I. 仮説の設定
未知の母数𝜃について,既知の値 𝜃0 から次の2つの仮説を考える.
帰無仮説 𝐻0 ∶ 𝜃 = 𝜃0 対立仮説 𝐻1 ∶
𝜃 ≠ 𝜃0
𝜃 > 𝜃0
𝜃 < 𝜃0
帰無仮説:最終的に否定したい仮説
対立仮説:最終的に採択したい仮説
両側検定:母数 𝜃 が目標値𝜃0 と等しいか否かを調べる場合
右側検定:母数 𝜃 が目標値𝜃0 より大きいか否かを調べる場合
左側検定:母数 𝜃 が目標値𝜃0 より小さいか否かを調べる場合
両側検定
右側検定
左側検定
6
仮説検定の手順
II. 検定統計量𝑇 の選定
検定する母数についての情報をもつ統計量の内,帰無仮説と対立仮説
の差をもっとも反映するような統計量を検定統計量𝑇 とする.
統計量:標本を要約し,母集団の母数の推測に用いられる数値.
(例)標本の平均,分散,最小値,最大値
III. 有意水準α の設定
有意水準αは帰無仮説を棄却するか否かの「判断基準」になる確率値.
有意水準より低い確率の現象が起こった → 帰無仮説を棄却
有意水準より高い確率の現象が起こった → 帰無仮説を棄却しない
誤った結論を導く危険率でもあるため,小さい値が求められる.
(例)α = 0.10, 0.05, 0.01
7
仮説検定の手順
IV. 棄却域の設定
検定統計量𝑇 の確率分布(確率密度関数)を用いて,
有意水準α に対応するパーセント点𝑇𝑎 と棄却域を求める.
パーセント点:棄却域と採択域の境界点
棄却域 :パーセント点より外側の領域
採択域 :パーセント点より内側の領域
確率密度関数 P(𝐴 ≤ 𝑇 ≤ B) = 𝐴
𝐵
𝑓 𝑇 𝑑𝑇 では,確率P=面積
⇒Pに,有意水準𝛼(確率)を代入
⇒区間𝐴 − 𝐵に,パーセント点𝑇𝑎 ーその外側(∞や − ∞)を代入
⇒方程式を解き,パーセント点𝑇𝑎 を得る
1-α 𝛼
2
𝛼
2
𝑇𝑎−𝑇𝑎
𝑓 𝑇
確率密度関数の例 両側検定の例 片側検定の例
α
1-α
𝑇𝑎
棄却域
8
仮説検定の手順
V. 検定統計量𝑇 の実現値𝑡 の算出
データ𝑋 = 𝑋1, 𝑋2, … , 𝑋n から,検定統計量𝑇 の実現値𝑡 を計算する.
また,確率分布を元に,実現値𝑡に対応する𝑝値も算出できる.
実現値:実際に観測された値
𝑝値 :検定統計量𝑇 が実現値𝑡 になる確率
VI. 結論
実現値が棄却域に含まれる場合 ⇒ 帰無仮説を棄却
実現値が採択域に含まれる場合 ⇒ 帰無仮説を棄却しない
𝑇𝑎 𝑡 𝑇𝑎𝑡
帰無仮説を棄却 帰無仮説を棄却できない
9
既知
未知
母数 𝜃
母集団
検定統計量 𝑇
𝑇 = 𝑓(𝑋|𝜃)
帰無仮説 𝐻0
𝐻0 ∶ 𝜃 = 𝜃0
Pに𝛼を,区間A-Bにパーセント点
𝑇𝛼や±∞を代入して方程式を解く
実現値 𝑡
𝑇の確率分布
の種類
自由度 𝑑𝑓
𝑇の確率分布
(𝐴以上𝐵以下の確率)
P(𝐴 ≤ 𝑇 ≤ B) =
𝐴
𝐵
𝑓 𝑇 𝑑𝑇
パーセント点 𝑇𝛼
既知
データ 𝑋
𝑋1, 𝑋2, … , 𝑋n
有意水準 α
比較
仮説検定の全体像
𝑝値
比較
母数𝜃 = 𝜃0である母集団から,今実現値𝑡が観測された.
この母集団の確率分布からその値が観測される確率が,有意水準より低ければ,
仮定である𝜃 = 𝜃0の方が誤っていると考えた方が自然である.
10
実際の仮説検定
実際は,
① 適切な検定統計量を考える必要はなく,
② 有意水準に対応するパーセント点を手計算する必要もない.
なぜなら,既に統計学の教科書に載っているから!
やることは,
① 帰無仮説と対立仮説を決めること
② 有意水準を決めること
③ 検定統計量の実現値を計算すること
これくらいである.
ただし,Rを使えばこれらもほぼ自動的にやってくれる.
11
様々な問題への対応
問題の種類や検定の対象,条件によって,行うべき検定は異なる.
問題の種類
• 1標本問題(1つの母集団からの1標本に関する問題)
• 2標本問題(2つの母集団からの2標本に関する問題)
検定の対象
• 母平均
• 母分散
条件
母集団に関する追加情報の有無
⇒代表的な問題に対する検定方法を次ページにまとめた.
12
1
問題 1標本問題 2標本問題
データ
標本データ ∶ 𝑋 = 𝑋1, 𝑋2 , ⋯ , 𝑋 𝑛
標本平均 ∶ 𝑋
不偏分散 ∶ 𝑠2
標本データ ∶ 𝑋 = 𝑋1, 𝑋2 , ⋯ , 𝑋 𝑚 , 𝑌 = 𝑌1, 𝑌2 , ⋯ , 𝑌𝑛 ,
𝐷 = 𝑋1 − 𝑌1, 𝑋2 − 𝑌2, ⋯ , 𝑋 𝑘 −𝑌𝑘
標本平均 ∶ 𝑋, 𝑌 , 𝐷
不偏分散 ∶ 𝑠1
2
, 𝑠2
2
, 𝑠 𝐷
2
2 検定の対象 母平均 𝜇 母分散 𝜎2
母平均の差
母分散の比
2群に対応なし 2群対応あり
3
帰無仮説𝐻0 𝜇 = 𝜇0 𝜎2
= 𝜎0
2
𝜇1 = 𝜇2 𝜇 𝐷 = 0 𝜎1
2
= 𝜎2
2
対立仮説𝐻1 両側検定か片側検定かによって,適切な対立仮説をたてる.
4
条件
母分散 𝜎2
が既知
母分散 𝜎2
が未知
𝜎1
2
= 𝜎2
2
𝜎1
2
≠ 𝜎2
2
検定統計量
の選定
𝑍 =
𝑋 − 𝜇
𝜎2 𝑛
𝑡 =
𝑋 − 𝜇
𝑠2 𝑛
𝜒2
=
(𝑛 − 1)𝑠2
𝜎2
𝑡 =
𝑋 − 𝑌
𝑠
1
𝑚
+
1
𝑛
𝑡 =
−
𝑋 − 𝑌
𝑠1
2
𝑚
+
𝑠2
2
𝑛
𝑡 =
𝐷 − 𝜇 𝐷
𝑠 𝐷
2 𝑘
𝐹 =
𝑠1
2
𝑠2
2
検定名
(分布)
𝑧 検定
(標準正規分布)
𝑡 検定
(𝑡 分布)
𝜒2
検定
(𝜒2
分布)
𝑡 検定
(𝑡 分布)
Welchの検定
(𝑡 分布)
𝑡 検定
(𝑡 分布)
𝐹 検定
(𝐹 分布)
5
有意水準α 有意水準α(確率)を設定する.(例)0.05, 0.01
分布の
自由度 𝑑𝑓
𝑛 − 1 𝑛 − 1 𝑚 + 𝑛 − 2
𝑠1
2 𝑚 + 𝑠2
2 𝑛 2
𝑠1
2 𝑚 2
𝑚 − 1
+
𝑠2
2 𝑛 2
𝑛 − 1
に最も近い整数
𝑘 − 1
𝑚 − 1
𝑛 − 1
棄却域 有意水準α と自由度𝑑𝑓 から,棄却域(パーセント点)を設定する.
6 実現値 検定統計量の実現値を計算する.また,その実現値に対応する 𝑝値を計算する.
7 結論 実現値の場合はパーセント点と,𝑝値の場合は有意水準α と比較して,結論する.
13
[練習] 例題1(1標本問題)
エアコンの作動状況を調べるために,設定温度を25℃とし,7日間に
わたって室内温度を計測したところ,次の結果を得た.
24.2 25.3 26.2 25.7 24.4 25.1 25.6
このエアコンが正しく動作しているかどうかを,有意水準5%で検定
してください.
14
計算スペース
[練習]例題1 手計算で検定
15
α
df (2α)
0.1
(0.2)
0.05
(0.10)
0.025
(0.050)
0.01
(0.02)
0.005
(0.010)
1 3.078 6.314 12.706 31.821 63.657
2 1.886 2.920 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
𝑡分布表(パーセント点)
α : 片側検定の場合の有意水準
2α: 両側検定の場合の有意水準
𝑑𝑓: 自由度
[練習]例題1 手計算で検定
16
[練習]例題1 Rで検定
> data <- c(24.2, 25.3, 26.2, 25.7, 24.4, 25.1, 25.6)
Rを起動して,コンソールに打ち込んでみよう
① データの入力
② t検定の実行
> t.test(data, mu=25)
One Sample t-test
data: data
t = 0.79277, df = 6, p-value = 0.4581
alternative hypothesis: true mean is not equal to 25
95 percent confidence interval:
24.55289 25.87568
sample estimates:
mean of x
25.21429
③ 結論
𝑝 > 𝛼 より,帰無仮説を棄却できない.⇒ エアコンは正常
17
2標本問題についての注意
対応のない2群の母平均の差を検定する𝑡検定には,
いくつか前提条件が存在する.
そのうちの一つが,「2つの母集団の分散が等しいこと」である.
したがって,母平均の差を検定する前に,母分散の比の検定を行い,
その結果から2種類の検定を選択する.
母分散が等しい ⇒ 2群の𝑡検定
母分散が等しくない ⇒ Welchの𝑡検定
母分散の比の検定
18
[練習]例題2(2標本問題)
2つのクラスA,B(各クラス10人)で統計学のテストをしました.
すると,以下の結果が得られました.
クラスA: 54 55 52 48 50 38 41 40 53 52
クラスB: 67 63 50 60 61 69 43 58 36 29
2つのクラスの平均点に差があるといえますか?
有意水準5%で検定してください.
19
[練習]例題2 Rで検定
> class1 <- c(54, 55, 52, 48, 50, 38, 41, 40, 53, 52)
> class2 <- c(67, 63, 50, 60, 61, 69, 43, 58, 36, 29)
① データの入力
> var.test(class1, class2)
F test to compare two variances
data: class1 and class2
F = 0.21567, num df = 9, denom df = 9, p-value = 0.03206
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.05356961 0.86828987
sample estimates:
ratio of variances
0.2156709
③ 母分散の比の検定
② まず母分散の比の検定をする必要がある
有意水準 𝛼 𝑣=0.05とする.
Rを起動して,コンソールに打ち込んでみよう
20
[練習]例題2 Rで検定
> t.test(class1, class2, var.equal = FALSE)
Welch Two Sample t-test
data: class1 and class2
t = -1.1191, df = 12.71, p-value = 0.2838
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.554888 4.954888
sample estimates:
mean of x mean of y
48.3 53.6
④ 母分散の比について結論
𝑝 < 𝛼 𝑣より,帰無仮説を棄却する.⇒ 2つの母分散は等しくない.
⑤ 母平均の差の検定
母分散が等しくないので,Welchの𝑡検定をおこなう.
⑥ 結論
𝑝 > 𝛼 より,帰無仮説を棄却できない.⇒ 差があるとは言えない
21
Rの仮説検定関数まとめ
問題の種類 検定の対象 Rの関数 凡例
1標本問題
母平均
・母分散が未知 t.test(X, mu)
X:データ
mu:帰無仮説
2標本問題
母平均の差
・対応なし
・母分散が等しい
t.test(X1,X2,var.equal=TRUE)
X1:データ1
X2:データ2
母平均の差
・対応なし
・母分散が等しくない
t.test(X1,X2,var.equal=FALSE)
母平均の差
・対応あり t.test(X1,X2,paired=TRUE)
母分散の比 var.test(X1,X2)

More Related Content

PPTX
Prepositions
PDF
Rules of Comma Usage
PDF
Rm20140507 4key
PDF
データ解析4 確率の復習
PDF
Rm20150520 6key
PDF
Rm20140702 11key
PDF
001 z test
PDF
R実践 機械学習による異常検知 02
Prepositions
Rules of Comma Usage
Rm20140507 4key
データ解析4 確率の復習
Rm20150520 6key
Rm20140702 11key
001 z test
R実践 機械学習による異常検知 02

Similar to Rゼミ 3 (20)

PDF
Dbda chapter15
PPTX
第二回統計学勉強会@東大駒場
PDF
第4回スキル養成講座 講義スライド
PDF
Diag test.shiraishi.2
PDF
Rm20130626 10key
PDF
データ解析6 重回帰分析
PDF
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
PDF
正則化による尤度比推定法を応用した多値分類器の改良
PPTX
Darm3(samplesize)
PDF
カテゴリカルデータの解析 (Kashiwa.R#3)
PDF
R Study Tokyo03
PDF
みどりぼん読書会 第4章
PDF
Let中部2012シンポスライド
PDF
1 2.t検定
PPTX
An introduction to statistical learning 4 logistic regression manu
PDF
人工知能2018 5 機械学習の基礎
PDF
第6章 2つの平均値を比較する - TokyoR #28
PDF
第8回スキル養成講座講義資料.pdf
PDF
幾何を使った統計のはなし
PDF
prml_titech_9.0-9.2
Dbda chapter15
第二回統計学勉強会@東大駒場
第4回スキル養成講座 講義スライド
Diag test.shiraishi.2
Rm20130626 10key
データ解析6 重回帰分析
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
正則化による尤度比推定法を応用した多値分類器の改良
Darm3(samplesize)
カテゴリカルデータの解析 (Kashiwa.R#3)
R Study Tokyo03
みどりぼん読書会 第4章
Let中部2012シンポスライド
1 2.t検定
An introduction to statistical learning 4 logistic regression manu
人工知能2018 5 機械学習の基礎
第6章 2つの平均値を比較する - TokyoR #28
第8回スキル養成講座講義資料.pdf
幾何を使った統計のはなし
prml_titech_9.0-9.2
Ad

Recently uploaded (9)

PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
液体クラトム抽出物供給側分析:世界の生産能力・販売量・平均価格動向(2025-2031)
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
口腔内スキャナー市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
液体クラトム抽出物供給側分析:世界の生産能力・販売量・平均価格動向(2025-2031)
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
口腔内スキャナー市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
Ad

Rゼミ 3