SlideShare a Scribd company logo
データ解析 第4回
2018年5月10日 八谷 大岳
1
講義内容
5
数学の復習
機械学習の基礎
内容:確率統計の復習
6
 確率の基礎
 条件付き確率とベイズの定理
 累積分布関数と確率密度関数
 統計の基礎
 平均、中央値、分散、共分散
 分散共分散行列
 相関係数と相関行列
確率の定義
7
 試行:繰り返すことができて、結果が偶然に決まる実験や観察
 事象:試行の結果起こる事柄
 標本空間:試行の結果起こりうる全ての事柄の集合
 確率の定義:標本空間の大きさを𝑁𝑁、事象𝑥𝑥𝑗𝑗の起こる場合の数
を𝑁𝑁𝑗𝑗とすると、事象𝑥𝑥𝑗𝑗が起こる確率
𝑃𝑃𝑋𝑋 𝑋𝑋 = 𝑥𝑥𝑗𝑗 = 𝑃𝑃𝑋𝑋 𝑥𝑥𝑗𝑗 =
𝑁𝑁𝑗𝑗
𝑁𝑁
𝑋𝑋:確率変数 𝑥𝑥𝑗𝑗:事象(または事象に対応する実現値)
サイコロを振る
2の目が出る
1の目が出る、2の目が出る、…、6の目が出る
𝑃𝑃𝑋𝑋 𝑋𝑋 = 2の目が出る = 𝑃𝑃 𝑋𝑋 = 2 = 1/6
6の目が出る
𝑃𝑃 X :離散確率分布関数
確率の例
8
 試行:「ボールを箱から取り出す」
 事象:「赤のボールが出る」
 標本空間:「白のボールが出る」、「赤のボールが出る」
 事象「青のボールが出る」の確率:𝑃𝑃𝑋𝑋 𝑥𝑥1 =
𝑁𝑁1
𝑁𝑁
=
6
14
=
3
7
 事象「赤のボールが出る」の確率:𝑃𝑃𝑋𝑋 𝑥𝑥2 =
𝑁𝑁2
𝑁𝑁
=
8
14
=
4
7
 全ての事象の確率の和は1:𝑃𝑃𝑋𝑋 𝑥𝑥1 + 𝑃𝑃𝑋𝑋 𝑥𝑥2 =
3
7
+
4
7
=1
標本空間𝑆𝑆
確率変数𝑋𝑋(ボールの色)
𝑥𝑥1:青 𝑥𝑥2:赤
6 8
赤の場合の数𝑁𝑁2箱
標本空間𝑆𝑆の大きさ: 𝑁𝑁 = 14
赤の場合の数𝑁𝑁1
同時確率
9
 同時確率:事象𝑦𝑦𝑖𝑖と事象𝑥𝑥𝑗𝑗が同時に起こる確率
標本空間𝑆𝑆
確率変数𝑋𝑋(ボールの色)
確率変数𝑌𝑌
(グループの種類)
𝑥𝑥1:青 𝑥𝑥2:赤
𝑦𝑦1: グループ1 5
1
2
6
𝑃𝑃𝑌𝑌𝑌𝑌 𝑦𝑦𝑖𝑖, 𝑥𝑥𝑗𝑗 =
𝑁𝑁𝑖𝑖𝑖𝑖
𝑁𝑁
箱
グループ1 グループ2
𝑦𝑦2: グループ2
グループ1の赤が選ばれる確率(同時確率)
𝑃𝑃𝑌𝑌𝑌𝑌 𝑌𝑌 = 𝑦𝑦1, 𝑋𝑋 = 𝑥𝑥2 =
𝑁𝑁12
𝑁𝑁
=
2
14
=
1
7
グループ1の赤の
場合の数𝑁𝑁12
確率変数が2つ
条件付き確率
10
 条件付き確率:事象𝑦𝑦𝑖𝑖が起きた条件下で事象𝑥𝑥𝑗𝑗が起こる確率
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗|𝑦𝑦𝑖𝑖 =
𝑁𝑁𝑖𝑖𝑖𝑖
𝑁𝑁𝑖𝑖�
=
⁄𝑁𝑁𝑖𝑖𝑖𝑖 𝑁𝑁
⁄𝑁𝑁𝑖𝑖� 𝑁𝑁
=
𝑃𝑃𝑌𝑌𝑋𝑋(𝑦𝑦𝑖𝑖, 𝑥𝑥𝑗𝑗)
𝑃𝑃𝑌𝑌(𝑦𝑦𝑖𝑖)
標本空間𝑆𝑆
確率変数𝑋𝑋(ボールの色)
確率変数𝑌𝑌
(グループの種類)
𝑥𝑥1:青 𝑥𝑥2:赤
𝑦𝑦1: グループ1 5
1
2
6
箱
グループ1 グループ2
𝑦𝑦2: グループ2
グループ1の赤の
場合の数𝑁𝑁12
グループ1が選択された条件下で赤が選ばれる確率(条件付き確率)
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 𝑥𝑥2|𝑌𝑌 = 𝑦𝑦1 =
𝑁𝑁12
𝑁𝑁1�
=
2
7
=
2
7
グループ1の
場合の数𝑁𝑁1�
確率変数が2つ
周辺確率
11
 周辺確率:事象𝑦𝑦に関係なく事象𝑥𝑥𝑗𝑗が起こる確率
標本空間𝑆𝑆
確率変数𝑋𝑋(ボールの色)
確率変数𝑌𝑌
(グループの種類)
𝑥𝑥1:青 𝑥𝑥2:赤
𝑦𝑦1: グループ1 5
1
2
6
箱
グループ1 グループ2
𝑦𝑦2: グループ2
グループに関係なく赤が選ばれる確率(周辺確率)
𝑃𝑃𝑋𝑋 𝑋𝑋 = 𝑥𝑥2 =
𝑁𝑁12
𝑁𝑁
+
𝑁𝑁22
𝑁𝑁
=
2
14
+
6
14
=
4
7
𝑃𝑃𝑋𝑋 𝑥𝑥𝑗𝑗 =
𝑁𝑁�𝑗𝑗
𝑁𝑁
=
1
𝑁𝑁
�
𝑖𝑖
𝑁𝑁𝑖𝑖𝑗𝑗 = �
𝑖𝑖
𝑃𝑃𝑌𝑌𝑋𝑋 𝑦𝑦𝑖𝑖, 𝑥𝑥𝑗𝑗
事象𝑦𝑦との同時確率
の足し合わせと等しい
確率変数が2つ
乗法定理
12
 乗法定理:同時確率と条件付き確率との関係
標本空間𝑆𝑆
確率変数𝑋𝑋(ボールの色)
確率変数𝑌𝑌
(グループの種類)
𝑥𝑥1:青 𝑥𝑥2:赤
𝑦𝑦1: グループ1 5
1
2
6
箱
グループ1 グループ2
𝑦𝑦2: グループ2
グループ1の赤が選択される確率
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑌𝑌 = 𝑦𝑦1|𝑋𝑋 = 𝑥𝑥2 =
𝑁𝑁12
𝑁𝑁�2
𝑁𝑁�2
𝑁𝑁
=
2
8
8
14
=
𝑁𝑁12
𝑁𝑁1�
𝑁𝑁1�
𝑁𝑁
=
2
7
7
14
=
1
7
𝑃𝑃𝑌𝑌𝑌𝑌 𝑦𝑦𝑖𝑖, 𝑥𝑥𝑗𝑗 =
𝑁𝑁𝑖𝑖𝑖𝑖
𝑁𝑁
=
𝑁𝑁𝑖𝑖𝑖𝑖
𝑁𝑁�𝑗𝑗
𝑁𝑁�𝑗𝑗
𝑁𝑁
=
𝑁𝑁𝑖𝑖𝑖𝑖
𝑁𝑁𝑖𝑖�
𝑁𝑁𝑖𝑖�
𝑁𝑁
= 𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦𝑖𝑖 𝑥𝑥𝑗𝑗 𝑃𝑃𝑋𝑋(𝑥𝑥𝑗𝑗) = 𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗 𝑦𝑦𝑖𝑖 𝑃𝑃𝑌𝑌(𝑦𝑦𝑖𝑖)
グループ1の赤の
場合の数𝑁𝑁12
グループ1の
場合の数𝑁𝑁1�
赤の場合の数𝑁𝑁�2
確率変数が2つ
ベイズの定理
13
 ベイズの定理:乗法定理の展開
 事象𝑦𝑦𝑖𝑖を原因、事象𝑥𝑥𝑗𝑗を結果と考える
 しかし、実際には診断では、逆の条件付き確率が必要
 この結果𝑥𝑥を観測したもとでの原因𝑦𝑦の条件付き確率を
「事後確率」という
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦𝑖𝑖|𝑥𝑥𝑗𝑗 =
𝑃𝑃𝑋𝑋𝑋𝑋(𝑥𝑥𝑗𝑗, 𝑦𝑦𝑖𝑖)
𝑃𝑃𝑋𝑋(𝑥𝑥𝑖𝑖)
=
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗 𝑦𝑦𝑖𝑖 𝑃𝑃𝑌𝑌(𝑦𝑦𝑖𝑖)
𝑃𝑃𝑋𝑋(𝑥𝑥𝑗𝑗)
例えば、原因𝑦𝑦𝑖𝑖:病気、 結果𝑥𝑥𝑗𝑗:血圧140以上とした場合、病気の患者と健康な人
を集めて、血圧140以上の人を観測することにより、以下を求めることができる。
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140以上 Y = 病気 と𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140以上 Y = 健康
𝑃𝑃𝑌𝑌|𝑋𝑋 Y = 病気 𝑋𝑋 = 血圧140以上
ベイズの定理 続き
14
 ベイズの定理:乗法定理の展開
 ベイズの定理より、事後確率を求めることができる
 ただし、𝑃𝑃(𝑦𝑦𝑗𝑗)を事前確率といい、人間が経験的に決定
 分母は、周辺確率と乗法定理より求める
𝑃𝑃𝑌𝑌|𝑋𝑋 𝑦𝑦𝑖𝑖|𝑥𝑥𝑗𝑗 =
𝑃𝑃𝑋𝑋𝑋𝑋(𝑥𝑥𝑗𝑗, 𝑦𝑦𝑖𝑖)
𝑃𝑃𝑋𝑋(𝑥𝑥𝑖𝑖)
=
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑥𝑥𝑗𝑗 𝑦𝑦𝑖𝑖 𝑃𝑃𝑌𝑌(𝑦𝑦𝑖𝑖)
𝑃𝑃𝑋𝑋(𝑥𝑥𝑗𝑗)
事前確率
事後確率
𝑃𝑃𝑌𝑌|𝑋𝑋 Y = 病気 𝑋𝑋 = 血圧140以上 =
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140以上 Y = 病気 𝑃𝑃𝑌𝑌 Y = 病気
𝑃𝑃𝑋𝑋(𝑋𝑋 = 血圧140以上)
例えば、病気の人の割合は、一般的に低いので𝑃𝑃𝑌𝑌 Y = 病気 = 0.1
𝑃𝑃𝑋𝑋 𝑋𝑋 = 血圧140以上 = �
𝑦𝑦∈{病気、健康}
𝑃𝑃𝑋𝑋|𝑌𝑌 𝑋𝑋 = 血圧140以上 Y = 𝑦𝑦 𝑃𝑃𝑌𝑌 Y = 𝑦𝑦
ベイズの定理 続き
15
 ベイズの定理は、1700年代にイギリスのエディンバラ大の
トーマスベイズにより発見
 古典的確率の頻度主義者からの批判
 原因と結果の順番が異なり、本来は観測できない確率
 事前確率を人間が設定することから主観的
 近年、未観測の事象の確率や予測の不確実性などで
工学的にとても有用なため応用が進んでいる
ベイズの定理の応用例
16
 周辺確率より
 ベイズの定理より、事後確率𝑃𝑃 𝑦𝑦2|𝑥𝑥2 は以下のように求まる。
いずれかのグループからボールを1個取り出したと
ころ、 青いボールでした。このボールがグループ2
から取り出された確率𝑃𝑃 𝑦𝑦2|𝑥𝑥2 を求めなさい。
𝑦𝑦𝑖𝑖:グループ𝑖𝑖を選択する事象
𝑥𝑥𝑗𝑗:ボールを取り出す事象(赤:j=1、青:j=2)
𝑃𝑃 𝑥𝑥2 = ∑𝑖𝑖 𝑃𝑃 𝑥𝑥2, 𝑦𝑦𝑖𝑖 = ∑𝑖𝑖 𝑃𝑃 𝑥𝑥2|𝑦𝑦𝑖𝑖 𝑃𝑃 𝑦𝑦𝑖𝑖 =
5
7
1
2
+
1
7
1
2
=
6
14
=
3
7
𝑃𝑃 𝑥𝑥2 𝑦𝑦1 =
5
7
𝑃𝑃 𝑥𝑥2 𝑦𝑦2 =
1
7
𝑃𝑃 𝑦𝑦2|𝑥𝑥2 =
𝑃𝑃 𝑥𝑥2 𝑦𝑦2 𝑃𝑃(𝑦𝑦2)
𝑃𝑃(𝑥𝑥2)
=
1
7
1
2
3
7
=
1
6
グループ1 グループ2
? ?
ただし、各グループを選択した条件下で青いボールを選択する確率は、実験より以下
のようにわかっているとする。また、各グループを選択する事前確率は𝑃𝑃 𝑦𝑦𝑖𝑖 =
1
2
とする
演習1
17
 いずれかの箱からボールを1個取り出したところ、白いボールでした。この
ボールが箱2から取り出された確率を求めなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一番上に記載
箱1 箱2 箱3
𝑦𝑦𝑖𝑖:箱𝑖𝑖を選択する事象
𝑥𝑥𝑗𝑗:ボールを取り出す事象(赤:j=1、白:j=2)? ? ?
𝑃𝑃 𝑥𝑥2 𝑦𝑦1 =
5
7
𝑃𝑃 𝑥𝑥2 𝑦𝑦2 =
1
7
𝑃𝑃 𝑥𝑥2 𝑦𝑦3 =
2
7
ただし、各箱を選択した条件下で白いボールを選択する確率は、実験より以下のよう
にわかっているとする。また、各箱を選択する確率は𝑃𝑃 𝑦𝑦𝑖𝑖 =
1
3
とする
内容:確率統計の復習
19
 確率の基礎
 条件付き確率とベイズの定理
 累積分布関数と確率密度関数
 統計の基礎
 平均、中央値、分散、共分散
 分散共分散行列
 相関係数と相関行列
累積分布関数
(cumulative distribution function)20
 確率変数𝑋𝑋が実現値𝑥𝑥以下の値をとる確率
 確率変数𝑋𝑋が実現値𝑎𝑎以上𝑏𝑏以下の値をとる確率
 確率変数が連続の場合
 積分を用いて定義
𝐹𝐹 𝑥𝑥 = 𝑃𝑃(𝑋𝑋 ≤ 𝑥𝑥)=∑𝑥𝑥𝑖𝑖≤𝑥𝑥 𝑃𝑃(𝑥𝑥𝑖𝑖)
例)出る目が2以下となる確率
F 𝑥𝑥 = 𝑃𝑃 𝑋𝑋 ≤ 𝑥𝑥 = �
−∞
𝑥𝑥
𝑓𝑓 𝑢𝑢 𝑑𝑑𝑑𝑑
𝑃𝑃 𝑎𝑎 < 𝑋𝑋 ≤ 𝑏𝑏 = 𝐹𝐹 𝑏𝑏 − 𝐹𝐹 𝑎𝑎 例)出る目が2以上4以下
となる確率
𝑓𝑓 𝑥𝑥 :確率密度関数
F 𝑥𝑥 は単調増加
𝑥𝑥
𝐹𝐹 𝑥𝑥
1 2 3 4 ⋯
1
6
2
6
3
6
4
6
⋯
-3 -2 -1 0 1 2 3
0.00.20.40.60.81.0
Normal Distribution:  = 0,  = 1
xCumulativeProbability
正規分布の累積分布関数
確率密度関数
21
 離散的な確率変数:事象の実現値がとびとび
 サイコロの目、ボールの色など
 連続な確率変数:事象の実現値が少数をとる連続
 平均身長、平均寿命など
 離散的な事象を前提にしていた以下の確率の定義は適用できない
 実現値が連続なので𝑥𝑥𝑗𝑗が無限に存在する
 代わりに、確率密度関数𝑓𝑓 𝑥𝑥 を用いて確率を定義する
 代表的な確率密度関数:正規分布、ベータ分布など
𝑃𝑃 𝑋𝑋 = 𝑥𝑥𝑗𝑗 = 𝑃𝑃 𝑥𝑥𝑗𝑗 =
𝑁𝑁𝑗𝑗
𝑁𝑁
正規分布(Normal Distribution)
22
 代表的な確率密度関数の一つで、工学分野にて幅広く応用
 19世紀にガウスにより提案されたためガウス分布とも呼ばれる
0
0.1
0.2
0.3
0.4
-3 -2 -1 0 1 2 3
𝑓𝑓 𝑥𝑥 = Ν 𝜇𝜇, 𝜎𝜎2 =
1
2𝜋𝜋𝜎𝜎
𝑒𝑒
−
(𝑥𝑥−𝜇𝜇)2
2𝜎𝜎2
𝜇𝜇
𝜇𝜇:平均(正規分布の中心)
𝜎𝜎2:分散(正規分布の幅)
𝜇𝜇 − 𝜎𝜎 𝜇𝜇 + 𝜎𝜎
34.1% 34.1%
𝜇𝜇 − 2𝜎𝜎
13.6%
2.1%
𝜇𝜇 − 3𝜎𝜎 𝜇𝜇 + 2𝜎𝜎
13.6%
2.1%
𝜇𝜇 + 3𝜎𝜎
𝑥𝑥
正規分布の平均と分散
23
-5 5 10
0.2
0.4
0.6
0.8
σ= 1.0
σ= 2.0大きい
σ= 1.5
σ= 0.5小さい
𝑓𝑓 𝑥𝑥 = Ν 2, 𝜎𝜎2
【標準偏差𝜎𝜎による正規分布の変化】【平均𝜇𝜇による正規分布の変化】
-4 -2 2 4
0.1
0.2
0.3
0.4
𝑓𝑓 𝑥𝑥 = Ν 𝜇𝜇, 1
多変量正規分布
24
 多次元の確率変数𝒙𝒙 = 𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝑑𝑑
𝛵𝛵の正規分布
 2次元の場合の正規分布
𝑓𝑓 𝒙𝒙 = Ν 𝜇𝜇, 𝜎𝜎2 =
1
2𝜋𝜋
𝑑𝑑
Σ
exp −
1
2
(𝒙𝒙 − 𝝁𝝁)ΤΣ−1(𝒙𝒙 − 𝝁𝝁)
Σ:分散共分散行列
𝝁𝝁 = 𝜇𝜇1, 𝜇𝜇2, … , 𝜇𝜇𝑑𝑑
𝛵𝛵
:平均ベクトル
𝑓𝑓 𝒙𝒙 = Ν 𝜇𝜇, 𝜎𝜎2 =
1
2𝜋𝜋 Σ
exp −
1
2
(𝒙𝒙 − 𝝁𝝁)ΤΣ−1(𝒙𝒙 − 𝝁𝝁)
𝑑𝑑:次元数
内容:確率統計の復習
25
 確率の基礎
 条件付き確率とベイズの定理
 累積分布関数と確率密度関数
 統計の基礎
 平均、中央値、分散、共分散
 分散共分散行列
 相関係数と相関行列
平均値と中央値
26
 データの中心を測るための統計量
 平均:
 データとの二乗誤差和が最小の値:
 中央値:データを値の大きさ順に並べたときの真ん中の値
 データとの絶対値誤差和が最小の値
𝜇𝜇 = ̅𝑥𝑥 =
1
𝑁𝑁
𝑥𝑥1
+ 𝑥𝑥2
+ ⋯ + 𝑥𝑥 𝑁𝑁
=
1
𝑁𝑁
�
𝑖𝑖=1
𝑁𝑁
𝑥𝑥𝑖𝑖
𝜇𝜇 = min
𝑢𝑢
�
𝑖𝑖=1
𝑁𝑁
𝑥𝑥𝑖𝑖
− 𝑢𝑢
2
二乗差の意味で中心
𝑐𝑐 = min
𝑢𝑢
�
𝑖𝑖=1
𝑁𝑁
𝑥𝑥𝑖𝑖 − 𝑢𝑢
絶対値差の意味で中心
平均値と中央値の例
27
 データ: 30, 10,25, 40,15 の平均と中央値
 平均:
 中央値
 昇順に並べ替える 10, 15,25,30, 40
 データ数が5なので、真ん中の3番目の値を選択する
𝜇𝜇 = ̅𝑥𝑥 =
1
5
30 + 10 + 25 + 40 + 15 =24
10, 15,25,30, 40
演習2
29
 平均が、データからの二乗誤差和の最小値と等しいことを
証明しなさい。
 おまけ:中央値が、データからの絶対値誤差の最小値と
等しいことを証明しなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
𝜇𝜇 = 𝑎𝑎𝑎𝑎𝑎𝑎min
𝑢𝑢
�
𝑖𝑖=1
𝑁𝑁
𝑥𝑥𝑖𝑖 − 𝑢𝑢
2
分散と共分散
31
 分散:1変数のバラツキを測るための統計量
 データの平均 ̅𝑥𝑥からの二乗差の平均:
 𝜎𝜎を標準偏差と呼ぶ
 共分散: 2変数の相関(直線的な比例関係の強さ)を測るための
統計量
𝑉𝑉𝑉𝑉𝑉𝑉 𝑋𝑋 = 𝜎𝜎2 = S𝒙𝒙𝒙𝒙 =
1
𝑁𝑁
�
𝑖𝑖=1
𝑁𝑁
(𝑥𝑥𝑖𝑖 − ̅𝑥𝑥)2
二乗差の意味でのバラツキ
Cov 𝑋𝑋, 𝑌𝑌 = S𝒙𝒙𝒙𝒙 =
1
𝑁𝑁
∑𝑖𝑖=1
𝑁𝑁
(𝑥𝑥𝑖𝑖
− ̅𝑥𝑥)(𝑦𝑦𝑖𝑖
− �𝑦𝑦)
𝑋𝑋
𝑌𝑌
Cov 𝑋𝑋, 𝑌𝑌 ≫ 0:正の相関
𝑋𝑋
𝑌𝑌
Cov 𝑋𝑋, 𝑌𝑌 ≪ 0:負の相関
𝑋𝑋
𝑌𝑌
Cov 𝑋𝑋, 𝑌𝑌 ≈ 0:無相関
偏差
演習3
32
 5人の体重と身長のデータ
 体重の平均、中央値、分散を求めなさい。
 体重と身長の共分散を求めなさい。相関関係を述べなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
体重𝑋𝑋 [kg] 身長𝑌𝑌[cm]
50 160
45 155
60 170
70 175
55 165
内容:確率統計の復習
34
 確率の基礎
 条件付き確率とベイズの定理
 累積分布関数と確率密度関数
 統計の基礎
 平均、中央値、分散、共分散
 分散共分散行列
 相関係数と相関行列
分散・共分散の行列表現
35
 𝒙𝒙 = 𝑥𝑥1
, 𝑥𝑥2
, … , 𝑥𝑥 𝑁𝑁 𝚻𝚻
と、𝒚𝒚 = 𝑦𝑦1
, 𝑦𝑦2
, … , 𝑦𝑦 𝑁𝑁 𝚻𝚻
の分散・共分散
 分散共分散行列: 2変数の場合2x2の行列
 対角成分:それぞれの変数の分散
 非対角成分:共分散
𝑺𝑺 =
1
𝑁𝑁
𝑩𝑩𝚻𝚻 𝑩𝑩
=
1
𝑁𝑁
𝒙𝒙 − ̅𝑥𝑥
𝒚𝒚 − �𝑦𝑦
𝒙𝒙 − ̅𝑥𝑥 𝒚𝒚 − �𝑦𝑦
=
1
𝑁𝑁
(𝒙𝒙 − ̅𝑥𝑥)𝚻𝚻(𝒙𝒙 − ̅𝑥𝑥) (𝒙𝒙 − ̅𝑥𝑥)𝚻𝚻(𝒚𝒚 − �𝑦𝑦)
(𝒚𝒚 − �𝑦𝑦)𝚻𝚻
(𝒙𝒙 − ̅𝑥𝑥) (𝒚𝒚 − �𝑦𝑦)𝚻𝚻
(𝒚𝒚 − �𝑦𝑦)
𝑩𝑩 = 𝒙𝒙 − ̅𝑥𝑥 𝒚𝒚 − �𝑦𝑦 =
𝑥𝑥1
− ̅𝑥𝑥
𝑥𝑥2 − ̅𝑥𝑥
⋮
𝑥𝑥 𝑁𝑁 − ̅𝑥𝑥
𝑦𝑦1 − �𝑦𝑦
𝑦𝑦2 − �𝑦𝑦
⋮
𝑦𝑦 𝑁𝑁 − �𝑦𝑦
𝒙𝒙の分散S𝒙𝒙𝒙𝒙
𝒚𝒚の分散S𝒚𝒚𝒚𝒚
𝒙𝒙と𝒚𝒚の共分散S𝒙𝒙𝒙𝒙
N(データ数)×2(変数の数)の行列
3変数の分散共分散行列
36
 3変数なので3x3の分散共分散行列
 対角成分が分散、その他は共分散
𝑩𝑩 = 𝒙𝒙 − ̅𝑥𝑥 𝒚𝒚 − �𝑦𝑦 𝒛𝒛 − ̅𝑧𝑧 =
𝑥𝑥1 − ̅𝑥𝑥
𝑥𝑥2
− ̅𝑥𝑥
⋮
𝑥𝑥 𝑁𝑁
− ̅𝑥𝑥
𝑦𝑦1 − �𝑦𝑦
𝑦𝑦2
− �𝑦𝑦
⋮
𝑦𝑦 𝑁𝑁
− �𝑦𝑦
𝑧𝑧1
− ̅𝑧𝑧
𝑧𝑧2
− ̅𝑧𝑧
⋮
𝑧𝑧 𝑁𝑁
− ̅𝑧𝑧
𝑺𝑺 =
1
𝑁𝑁
𝑩𝑩𝚻𝚻 𝑩𝑩
=
1
𝑁𝑁
(𝒙𝒙 − ̅𝑥𝑥)𝚻𝚻(𝒙𝒙 − ̅𝑥𝑥)
(𝒚𝒚 − �𝑦𝑦)𝚻𝚻(𝒙𝒙 − ̅𝑥𝑥)
(𝒛𝒛 − ̅𝑧𝑧)𝚻𝚻(𝒙𝒙 − ̅𝑥𝑥)
(𝒙𝒙 − ̅𝑥𝑥)𝚻𝚻(𝒚𝒚 − �𝑦𝑦)
(𝒚𝒚 − �𝑦𝑦)𝚻𝚻(𝒚𝒚 − �𝑦𝑦)
(𝒛𝒛 − ̅𝑧𝑧)𝚻𝚻(𝒚𝒚 − �𝑦𝑦)
(𝒙𝒙 − ̅𝑥𝑥)𝚻𝚻(𝒛𝒛 − ̅𝑧𝑧)
(𝒚𝒚 − �𝑦𝑦)𝚻𝚻(𝒛𝒛 − ̅𝑧𝑧)
(𝒛𝒛 − ̅𝑧𝑧)𝚻𝚻(𝒛𝒛 − ̅𝑧𝑧)
=
S𝒙𝒙𝒙𝒙 S𝒙𝒙𝒙𝒙 S𝒙𝒙𝒛𝒛
S𝒚𝒚𝒚𝒚 S𝒚𝒚𝒚𝒚 S𝒚𝒚𝒚𝒚
S𝒛𝒛𝒙𝒙 S𝒛𝒛𝒚𝒚 S𝒛𝒛𝒛𝒛
演習4
37
 5人の体重と身長のデータ
 体重と身長の分散共分散行列を求めなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一
番上に記載
体重𝑋𝑋 [kg] 身長𝑌𝑌[cm]
50 160
45 155
60 170
70 175
55 165
内容:確率統計の復習
39
 確率の基礎
 条件付き確率とベイズの定理
 累積分布関数と確率密度関数
 統計の基礎
 平均、中央値、分散、共分散
 分散共分散行列
 相関係数と相関行列
相関係数と相関行列
40
 共分散の大きさは、データの値の範囲に依存
 異なるデータ間で相関を比較するのが困難
 相関係数:共分散を標準偏差で割って正規化
 相関行列
𝒓𝒓𝒙𝒙𝒙𝒙 =
S𝒙𝒙𝒚𝒚
S𝒙𝒙𝒙𝒙 S𝒚𝒚𝒚𝒚
=
(𝒙𝒙 − ̅𝑥𝑥)𝚻𝚻(𝒚𝒚 − �𝑦𝑦)
(𝒙𝒙 − ̅𝑥𝑥)𝚻𝚻(𝒙𝒙 − ̅𝑥𝑥) (𝒚𝒚 − �𝑦𝑦)𝚻𝚻(𝒚𝒚 − �𝑦𝑦)
𝑹𝑹 =
𝒓𝒓𝒙𝒙𝒙𝒙 𝒓𝒓𝒙𝒙𝒙𝒙 𝒓𝒓𝒙𝒙𝒛𝒛
𝒓𝒓𝒚𝒚𝒚𝒚 𝒓𝒓𝒚𝒚𝒚𝒚 𝒓𝒓𝒚𝒚𝒚𝒚
𝒓𝒓𝒛𝒛𝒙𝒙 𝒓𝒓𝒛𝒛𝒚𝒚 𝒓𝒓𝒛𝒛𝒛𝒛
𝑺𝑺 =
S𝒙𝒙𝒙𝒙 S𝒙𝒙𝒙𝒙
S𝒚𝒚𝒚𝒚 S𝒚𝒚𝒚𝒚
=
𝟕𝟕𝟒𝟒 𝟔𝟔𝟔𝟔
𝟔𝟔𝟔𝟔 𝟓𝟓𝟓𝟓
【体重xと身長yの分散共分散行列の例】
【体重xと身長yの相関行列の例】
𝑹𝑹 =
𝒓𝒓𝒙𝒙𝒙𝒙 𝒓𝒓𝒙𝒙𝒙𝒙
𝒓𝒓𝒚𝒚𝒚𝒚 𝒓𝒓𝒚𝒚𝒚𝒚
=
𝟏𝟏 𝟎𝟎. 𝟗𝟗𝟗𝟗
𝟎𝟎. 𝟗𝟗𝟗𝟗 𝟏𝟏
相関の目安
41
 相関係数を基準に、相関の強弱の判定ができる
相関係数rの値 相関の強弱
1.0 ~ 0.7 強い正の相関がある
0.7 ~ 0.4 中程度の正の相関がある
0.4 ~ 0.2 弱い正の相関がある
0.2 ~-0.2 ほとんど相関がない
-0.2 ~-0.4 弱い負の相関がある
-0.4 ~-0.7 中程度の負の相関がある
-0.7 ~-1.0 強い負の相関がある
相関係数の解釈
42
 データ数の次元のベクトルの内積
 𝒙𝒙と𝒚𝒚の相関係数を展開
 相関係数はデータ数次元の空間での2つのベクトルのなす角に対応
𝒙𝒙𝒙 = 𝑥𝑥1 − ̅𝑥𝑥, 𝑥𝑥2 − ̅𝑥𝑥, … , 𝑥𝑥 𝑁𝑁 − ̅𝑥𝑥 𝚻𝚻
𝒚𝒚𝒚 = 𝑦𝑦1 − �𝑦𝑦, 𝑦𝑦2 − �𝑦𝑦, … , 𝑦𝑦 𝑁𝑁 − �𝑦𝑦 𝚻𝚻
𝒙𝒙′𝚻𝚻
𝒚𝒚′= 𝒙𝒙𝒙 𝒚𝒚𝒚 cos 𝜃𝜃
𝒙𝒙’
𝒚𝒚𝒚 θ
なす角
𝒓𝒓𝒙𝒙𝒙𝒙 =
(𝒙𝒙 − ̅𝑥𝑥)𝚻𝚻(𝒚𝒚 − �𝑦𝑦)
(𝒙𝒙 − ̅𝑥𝑥)𝚻𝚻(𝒙𝒙 − ̅𝑥𝑥) (𝒚𝒚 − �𝑦𝑦)𝚻𝚻(𝒚𝒚 − �𝑦𝑦)
=
𝒙𝒙𝒙𝚻𝚻 𝒚𝒚𝒚
𝒙𝒙𝒙𝚻𝚻 𝒙𝒙𝒙 𝒚𝒚′𝚻𝚻 𝒚𝒚′
=
𝒙𝒙𝒙 𝒚𝒚𝒚 cos 𝜃𝜃
𝒙𝒙𝒙 𝒚𝒚𝒚
= cos 𝜃𝜃
𝒙𝒙
𝒚𝒚
中程度正の相関
θ = 45° 𝒙𝒙
𝒚𝒚
無相関
θ = 90°
𝒙𝒙𝒚𝒚
強い正の相関
θ = 0° 𝒙𝒙 𝒚𝒚
強い負の相関
θ = 180°
相関係数=0は無関係?
43
 相関係数は、2変数間の直線的な比例の強さを表す
 相関係数=0(無相関)の場合、2変数間に直線的な比例関係が無い
 無相関でも、2変数が関係がないとは言い切れない
 例えば、データが2次関数や円に乗っている場合、直線的な関係では
無相関であるが、2次関数や円の意味では相関がある
𝑋𝑋
𝑌𝑌
𝒓𝒓𝒙𝒙𝒙𝒙 ≈ 0:無相関
𝑋𝑋
𝑌𝑌
𝒓𝒓𝒙𝒙𝒙𝒙 ≈ 0:無相関
課題1
44
 X1とX2の平均値を求めなさい。
 X1とX2の分散と共分散を求める定義式を書き、分散共分散
行列Sを求めなさい。
 分散共分散行列Sの固有値を求める定義式を書き、固有値
を求めなさい。
No. 標本 英語(X1) 数学(X2)
1 A 5 8
2 B 5 5
3 C 8 7
4 D 4 5
課題2
45
 相関行列Rの3つの固有値の中2つが既知であり、それぞれ、
1.57と0.527とする。以下の問に答えなさい。
1. 残りのもう1つの固有値を求めなさい。
2. 相関行列Rの行列式を求めなさい。
𝑹𝑹 =
𝟏𝟏 𝟎𝟎. 𝟑𝟑𝟑𝟑𝟑𝟑 −𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎
𝟎𝟎. 𝟑𝟑𝟑𝟑𝟑𝟑 𝟏𝟏 −𝟎𝟎. 𝟑𝟑𝟑𝟑𝟑𝟑
−𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎 −𝟎𝟎. 𝟑𝟑𝟑𝟑𝟑𝟑 𝟏𝟏
課題3
46
 いずれかの箱からボールを1個取り出したところ、白いボールでした。
このボールが箱3から取り出された確率を求めなさい。
箱1 箱2 箱3
𝑦𝑦𝑖𝑖:箱𝑖𝑖を選択する事象
𝑥𝑥𝑗𝑗:ボールを取り出す事象(赤:j=1、白:j=2)?
ただし、各箱を選択した条件下で白いボールを選択する確率は、実験より以下のよう
にわかっているとする。
?
𝑃𝑃 𝑥𝑥2 𝑦𝑦1 =
5
7
𝑃𝑃 𝑥𝑥2 𝑦𝑦2 =
1
7
𝑃𝑃 𝑥𝑥2 𝑦𝑦3 =
2
7
?
また、各箱を選択する確率は𝑃𝑃 𝑦𝑦1 =
2
3
、𝑃𝑃 𝑦𝑦2 =
1
6
、 𝑃𝑃 𝑦𝑦3 =
1
6
とする
レポートの提出方法
47
 演習レポート:
 タイトル「演習レポート」、日付・学生番号・氏名を用紙の一番上に記載
 課題レポート :
 タイトル「課題レポート」、出題日・学生番号・氏名を用紙の一番上に記載
 2ページ以上になる場合は、ホッチキス留め
 A4サイズの用紙を使用
 一度に複数の課題レポートを提出する場合出題日ごとに別々に綴じる

More Related Content

PDF
データ解析5 単回帰分析
PDF
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
PDF
データ解析6 重回帰分析
PPTX
Oracle property and_hdm_pkg_rigorouslasso
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PDF
強化学習その1
PDF
「統計的学習理論」第1章
PPTX
強化学習アルゴリズムPPOの解説と実験
データ解析5 単回帰分析
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
データ解析6 重回帰分析
Oracle property and_hdm_pkg_rigorouslasso
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
強化学習その1
「統計的学習理論」第1章
強化学習アルゴリズムPPOの解説と実験

What's hot (20)

PDF
PRML学習者から入る深層生成モデル入門
PDF
機械学習と深層学習の数理
PDF
集団スポーツの戦術に関するデータ解析手法
PPTX
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
PDF
機械学習を使った時系列売上予測
PDF
多様な強化学習の概念と課題認識
PDF
Fisher線形判別分析とFisher Weight Maps
PDF
強化学習その3
PPTX
GEE(一般化推定方程式)の理論
PDF
(DL hacks輪読) Deep Kernel Learning
PDF
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
PDF
機械学習概論 講義テキスト
PDF
Off policy evaluation
PDF
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PDF
機械学習と主成分分析
PDF
Skip Connection まとめ(Neural Network)
PDF
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
PDF
[DL輪読会]ICLR2020の分布外検知速報
PDF
方策勾配型強化学習の基礎と応用
PRML学習者から入る深層生成モデル入門
機械学習と深層学習の数理
集団スポーツの戦術に関するデータ解析手法
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
機械学習を使った時系列売上予測
多様な強化学習の概念と課題認識
Fisher線形判別分析とFisher Weight Maps
強化学習その3
GEE(一般化推定方程式)の理論
(DL hacks輪読) Deep Kernel Learning
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
機械学習概論 講義テキスト
Off policy evaluation
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
機械学習と主成分分析
Skip Connection まとめ(Neural Network)
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
[DL輪読会]ICLR2020の分布外検知速報
方策勾配型強化学習の基礎と応用
Ad

Similar to データ解析4 確率の復習 (20)

PPTX
Introduction to Statistical Estimation (統計的推定入門)
PDF
人工知能2018 5 機械学習の基礎
PPTX
データサイエンス概論第一=4-2 確率と確率分布
PPT
050 確率と確率分布
PDF
理科教育学研究のための統計分析入門
PDF
PRML 2.3.2-2.3.4 ガウス分布
PDF
演習II.第1章 ベイズ推論の考え方 Part 1.講義ノート
PDF
統計概論 isseing333
PDF
統計学の基礎の基礎
PDF
データ解析10 因子分析の基礎
PPTX
ラビットチャレンジレポート 応用数学
PPTX
データサイエンス概論第一=1-3 平均と分散
PDF
PRML_titech 2.3.1 - 2.3.7
PDF
Rm20150520 6key
PDF
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
PDF
ベイズ統計入門
PDF
第4章 確率的学習---単純ベイズを使った分類
PDF
PRML 上 1.2.4 ~ 1.2.6
PDF
変分推論法(変分ベイズ法)(PRML第10章)
PDF
第8章 ガウス過程回帰による異常検知
Introduction to Statistical Estimation (統計的推定入門)
人工知能2018 5 機械学習の基礎
データサイエンス概論第一=4-2 確率と確率分布
050 確率と確率分布
理科教育学研究のための統計分析入門
PRML 2.3.2-2.3.4 ガウス分布
演習II.第1章 ベイズ推論の考え方 Part 1.講義ノート
統計概論 isseing333
統計学の基礎の基礎
データ解析10 因子分析の基礎
ラビットチャレンジレポート 応用数学
データサイエンス概論第一=1-3 平均と分散
PRML_titech 2.3.1 - 2.3.7
Rm20150520 6key
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
ベイズ統計入門
第4章 確率的学習---単純ベイズを使った分類
PRML 上 1.2.4 ~ 1.2.6
変分推論法(変分ベイズ法)(PRML第10章)
第8章 ガウス過程回帰による異常検知
Ad

More from Hirotaka Hachiya (16)

PDF
人工知能2018 強化学習の応用
PDF
人工知能2018 6 強化学習の基礎
PDF
AI2018 8 ニューラルネットワークの基礎
PDF
データ解析14 ナイーブベイズ
PDF
データ解析13 線形判別分析
PDF
データ解析12 k平均法
PDF
データ解析11 因子分析の応用
PDF
データ解析8 主成分分析の応用
PDF
データ解析7 主成分分析の基礎
PDF
データ解析3 最適化の復習
PDF
データ解析2 線形代数の復習
PDF
データ解析1 ベクトルの復習
PDF
人工知能12 確率モデル
PDF
人工知能13 deep learning
PDF
人工知能10 サポートベクトルマシン
PDF
人工知能11 カーネルモデル
人工知能2018 強化学習の応用
人工知能2018 6 強化学習の基礎
AI2018 8 ニューラルネットワークの基礎
データ解析14 ナイーブベイズ
データ解析13 線形判別分析
データ解析12 k平均法
データ解析11 因子分析の応用
データ解析8 主成分分析の応用
データ解析7 主成分分析の基礎
データ解析3 最適化の復習
データ解析2 線形代数の復習
データ解析1 ベクトルの復習
人工知能12 確率モデル
人工知能13 deep learning
人工知能10 サポートベクトルマシン
人工知能11 カーネルモデル

Recently uploaded (9)

PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
PDF
液体クラトム抽出物供給側分析:世界の生産能力・販売量・平均価格動向(2025-2031)
PDF
口腔内スキャナー市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
Qlik TECH TALK セミナー:What's New In Qlik ~ 2025年7月リリース最新機能のご紹介
液体クラトム抽出物供給側分析:世界の生産能力・販売量・平均価格動向(2025-2031)
口腔内スキャナー市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測

データ解析4 確率の復習