SlideShare a Scribd company logo
統計学入門
第三回 様々なデータの分布
慶應義塾大学 大学院 野寺研究室 松尾洋一
自己紹介
松尾洋一
 慶應義塾大学大学院 理工学研究科 基礎理工学専攻
 野寺研究室 修士1年

 専門:数学・数値計算
 研究:Block Gram-Schmidt法のblock-sizeの決定手法



 今年の目標:サブ4                            よろしくね!!
     ≅ 34秒/100
    自転車と同じくらい
                                                2


                         “facebook”
さて,みなさん.

今日の内容に入る前に・・・




前回の内容を覚えています
か??
                3
今日やること
前回の復習
 正規分布
 二項分布

 様々な分布
  正規分布と中心極限定理
  ポアソン分布
  指数分布          4
正規分布
     平均と分散で決まる.
                 0.9


                 0.8


                 0.7


                 0.6


                 0.5                   N(0,1)
                                       N(0,0.5)
                 0.4                   N(0,2)
                                       N(-2,1)
                 0.3


                 0.2


                 0.1                              5

                  0
-6     -4   -2         0   2   4   6
正規分布


       正規分布
        の役割

          他分布の
確率モデル
           近似    6
正規分布が表す現象
正規分布に似ている??
                   男子大学生100人の身長データ
                   男子大学生   人の身長データ
 25




 20




 15


                                                                  人数
 10




  5




  0
      158   161   164   167   170   173   176   179   182   185
                                                                       7
正規分布
さまざまな現実現象の分布を表す!!
 測定誤差の分布
 生体物の形態に関する測定値
 管理状態で生産される製品の特性値


平均 と分散   から決定される
 データのばらつきの度合い




データから,平均と分散を計算するんや!!
                       8
正規分布が表す現象
このデータから正規分布を計算
                   男子大学生100人の身長データ
                   男子大学生   人の身長データ
 25




 20




 15


                                                                  人数
 10




  5




  0
      158   161   164   167   170   173   176   179   182   185
                                                                       9
正規分布
20歳男子の身長は平均170cm,分散64で近似できる.

次のことがわかる.
 身長が180cm以上の人の割合は?
 Ans.
 (180-170)/8=1.25
 Q(1.25)=0.1056 より,11%程度


 一般的に高身長(上位2割とする)になるためには,何cm必
 要?
 Ans.
 Q(0.2)=0.842,                          10
 (a-170)/8=0.845, a=176.76 より,177cm程度
正規分布


       正規分布
        の役割

          他分布の
確率モデル
           近似    11
二項分布
       標本数nと確率pによって決まる.
0.16


0.14


0.12


 0.1

                                         B(50,0.5)
0.08
                                         B(50,0.25)
                                         B(50,0.80)
0.06


0.04


0.02
                                                      12
  0
       0   10   20   30   40   50   60
二項分布
二つの項目をn回行った場合の分布
 コイン投げの表裏:p=0.5
 アンケートに対する,賛成p/反対(1-p),という回答
 不良率がpの,非常に大きい数の製品の集まりの中から,n
 個の製品を無作為に取り出したとき,その中に含まれる不良
 品の個数x


pが0,1に極めて近い値でないならば, nが大きいとき正
規分布による近似が可能


                               13
二項分布
    正規分布による近似
                        回のコイン投げの分布
                      50回のコイン投げの分布
0.12



 0.1



0.08



0.06

                                               B(50,0.5)

0.04



0.02



   0                                                       14
        0   10   20      30   40     50   60


-0.02
世の中の現象って,だいた
い正規分布になりそう.
「中心が一番高くて,左右対称」


  他の分布を勉強する
    必要ってあるの??
                  15
正規分布は万能??
19世紀
         正規分布は全ての現実現象をモデル化できる!!
              「正規分布万能主義」




           中心極限定理
           同じ現象に従うデータはどんなものであれ,
           データの数を多くすれば正規分布になる.
   ガウス




20世紀以降
    つまり,ほかの分布は勉強しなくていい!!ヤター!!     16
 「それはうそだ.むしろ正規分布にならない方が多い!!」
その他の分布
正規分布が最も一般的であるが,全てを正規分布で表
せるわけではない.

それぞれの分布が,それぞれ別々の現実現象を表す
確率モデルである.

いろいろな分布を知っていれば,データの組が与えら
れたとき,どのような分布に従うか推測,検証することが
できる.

         他の分布についてもお勉強するお     17
その他の分布を紹介する前に,,,
2つの分布の具体例をみた.

では,より一般に,グラフの形はどう表されるのか??
 平均µ,分散     ,標本数nなどであらわされる.
  文字は何でも良いが,伝統的にこれが使われる.

 正規分布:                    二項分布:

             :値 オイラー数と呼ばれている.


 例:平均0,分散1の正規分布

    1.2のとき,f x   0.1942           18
N(0,1)
               0.45


                0.4


               0.35


                0.3


               0.25
                                   f(x)=0.1941
                                                     N(0,1)
                0.2


               0.15


                0.1


               0.05


                 0
-6   -4   -2          0             2        4   6

                          x=1.2
                                                              19
ポアソン分布
稀現象の生起回数
 起こることが頻繁ではない事象の一定時間内の生起回数
 1時間の交通事故の件数
 1時間の機械の故障回数
 1時間の電話の呼び出し回数
 1枚の生地のキズの個数


どのようなグラフか?
 平均 ,分散


                             20
 に従う分布.
ポアソン分布
          ポアソン分布のグラフ
0.7



0.6



0.5



0.4                                                      Po(1)
                                                         Po(0.5)
                                                         Po(2.0)
0.3
                                                         Po(10)


0.2



0.1
                                                                   21

 0
      0    2   4   6   8   10   12   14   16   18   20
ポアソン分布
馬にけられて死んだプロシャ軍兵士の数
 ポーランドの統計学者が20年間にわたり,ポロ者の10軍団で
 1年間に馬にけられて死んだ兵士の数のデータを調べた.

      年間の
     1年間の    回数         確率                  の
                                     P(0.61)の
     死者数                             確率
         0        109        0.545     0.5434
         1        65         0.325     0.3314
         2        22         0.110     0.1011
         3         3         0.015     0.0206
         4         1         0.005     0.0031
      5以上          0         0.000     0.0004
         計        200        1.000      1.000   22
ポアソン分布
グラフにしてみると・・・
 0.6


 0.5


 0.4


 0.3                                確率
                                    p(0.61)

 0.2


 0.1


  0
       0    1   2   3   4   5   6



           ほぼ一致!!                             23
           ポアソン分布が稀現象のモデルになることが証明された.
でも,それって本当?
  偶然の一致じゃないの?
 数学的に証明でき
   る??

            たまたますごく似ているだけ


ポアソン分布が稀な現象を
       表す理由・・・              24
ポアソン分布
稀現象の生起回数とは ~特徴~
例:一定時間内の事故の件数
 一定時間をn等分することを考える.
 1.nを十分大きくとれば,n等分された各区間で事故が2件
 以上起こる可能性は無視できて,1回起こるか,または1回も
 起こらないかのどちらかと考えられる.(稀少性)
 2.各区間で事故が起こる確率はpである.(一定性)
 3.ある区間で事故が起こるか否かは,他の区間で事故が起
 こるか否かとは無関係である.(独立性)


  これは,二項分布に従うと考えられる.
                                25
ポアソン分布
二項分布の極限(npを一定にしたままnをとても大きく
する)をとると,二項分布をポアソン分布で近似できる.

                             ,
         二項分布
                    ポアソン分布



  つまり,ポアソン分布は二項分布の特殊な場合
  (標本数nが大きいとき,二項分布の計算が非常に面倒になるから)

         “詳しくは,配布資料を参照のこと“          26
二項分布
正規分布で近似できない二項分布の例
          p=0.01 (0に近い)
                     B(50,0.01)
0.7


0.6


0.5


0.4

                                            B(50,0.01)
0.3


0.2


0.1


 0
      0         5     10          15   20
                                                         27
           ポアソン分布で近似できる.
指数分布
一定時間内の事故の件数がポアソン分布に従うとする.



ある事故が起きてから,次の事故が起こるまでの時間は
指数分布になる.

  生起間隔の分布を表す




                            28
指数分布
         ある一定時間に事故が起こる回数がポアソン分布に従
         うならば,その生起間隔は指数分布に従う.
12



10



8

                                                                 Ex(1)
6                                                                Ex(0.2)
                                                                 Ex(2.0)
                                                                 Ex(10)
4



2


                                                                           29
0
     0   0.2   0.4   0.6   0.8   1   1.2   1.4   1.6   1.8   2
指数分布
例:プロシャ軍のある兵士が馬に蹴られて死んだとき,3
年間誰も死なない確率は??
 Ans.




 つまり,0.4567となる.

 “なぜ,このように計算できるのかは,
    配布資料を参照のこと“
                             30
今日のまとめ!!
正規分布は最も重要であるが,万能ではない.

ポアソン分布は,稀に起こる現象の一定時間内の発生
回数を表す.

指数分布は,ポアソン分布に従う現象において,ある現
象が起きてから次の現象が起こるまでの経過時間を表
す.

二項分布・ポアソン分布・正規分布・指数分布が代表的
な分布.これを知っとけば,分布に関してはok!!    31
参考文献

「統計解析入門」 篠崎信雄著 サイエンス社




                        32
配布資料
二項分布とポアソン分布



       二項分布
              ポアソン分布


証明




                       33
配布資料
       nが大きくなれば, は無視できるほど小さくなる
証明




                   オイラー数の定義


                        証明終了




                                 34
配布資料
指数分布の計算
 1年間に馬に蹴られて死ぬ兵士の平均をθとすれば,a年間
 に死ぬ兵士の数の平均はaθ.
 よって,a年間に兵士が一人も死なない確率は,
 平均aθのポアソン分布で0という値の出る確率でり.

 で与えられる.兵士が一人が死んでから,
 次の兵士が死ぬ までの時間をxで表すとすると,
 xがaより大きいということは,a年間に兵士が誰も死なない
 ということである.よって


 となるが,分布関数と確率密度関数の関係から,これはxが
                                35
 指数分布に従うことを示している.

More Related Content

DOCX
lat sumit res
PPTX
Text classification zansa
PDF
第5回Zansa勉強会
PPTX
Artist Images - Part 2
PDF
Productive Studying (Ar) المذاكرة المثمرة
PDF
Zansa第二回11 28 発表資料 植木
PPT
Transmedia 110828124128-phpapp01
PPTX
第8回Zansa 俺の人生ランダムウォーク
lat sumit res
Text classification zansa
第5回Zansa勉強会
Artist Images - Part 2
Productive Studying (Ar) المذاكرة المثمرة
Zansa第二回11 28 発表資料 植木
Transmedia 110828124128-phpapp01
第8回Zansa 俺の人生ランダムウォーク

Viewers also liked (15)

PPSX
The concept of religion
PDF
Alhusn Alwaqi الحصن الواقي
PPTX
【Zansa】物理学はWebデータ分析に使えるか
PPTX
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
PDF
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
PDF
【Zansa】第17回 ブートストラップ法入門
PDF
ベイズ入門
PDF
Ks%20 eng
PDF
Zansa第4回勉強会 重回帰分析
PDF
【Zansa】 人工社会-複雑系とマルチエージェントシミュレーションの紹介-
PDF
المراهقون يتعلمون ما يعايشونه
PPTX
121218 zansa13 for web
PDF
Mouse (ar) الفـأرة
PDF
Adobe Photoshop Shortcuts اختصارات فوتوشوب
PDF
Teaching think skills (Ar) تعليم مهارات التفكير
The concept of religion
Alhusn Alwaqi الحصن الواقي
【Zansa】物理学はWebデータ分析に使えるか
Zansa アト テクノロシ-ー業界の分析という仕事について http://zansa.info/materials-11.html
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第17回 ブートストラップ法入門
ベイズ入門
Ks%20 eng
Zansa第4回勉強会 重回帰分析
【Zansa】 人工社会-複雑系とマルチエージェントシミュレーションの紹介-
المراهقون يتعلمون ما يعايشونه
121218 zansa13 for web
Mouse (ar) الفـأرة
Adobe Photoshop Shortcuts اختصارات فوتوشوب
Teaching think skills (Ar) تعليم مهارات التفكير
Ad

Similar to Zansa0130presentation (20)

PPT
050 確率と確率分布
KEY
第5章 統計的仮説検定 (Rによるやさしい統計学)
PPT
K040 確率分布とchi2分布
PDF
Prml2.1 2.2,2.4-2.5
PDF
PRML2.1 2.2
PDF
2014年度春学期 統計学 第14,15回 分布についての仮説を検証する ― 仮説検定 (2014. 7. 17, 24)
PDF
2015年度春学期 統計学 第14回 分布についての仮説を検証する ― 仮説検定 (2015. 7. 16, 23)
PDF
2015年度秋学期 統計学 第14回 分布についての仮説を検証する ― 仮説検定 (2016. 1. 13)
PDF
2013年度秋学期 統計学 第14回「分布についての仮説を検証する ― 仮説検定」
PDF
第6章 2つの平均値を比較する - TokyoR #28
PDF
2021年度秋学期 統計学 第11回 分布の「型」を考える ー 確率分布モデルと正規分布(2021. 12. 7)
PDF
反応時間データをどう分析し図示するか
PDF
2014年度秋学期 統計学 第14回 分布についての仮説を検証する ― 仮説検定 (2015. 1. 14)
PPTX
Introduction to Statistical Estimation (統計的推定入門)
PPT
060 期待値・中心極限定理
PDF
2022年度春学期 統計学 第11回 分布の「型」を考えるー確率分布モデルと正規分布
PDF
Rm20150520 6key
PDF
PRML復々習レーン#3 前回までのあらすじ
PPTX
データサイエンス概論第一=4-2 確率と確率分布
PDF
研究室内PRML勉強会 8章1節
050 確率と確率分布
第5章 統計的仮説検定 (Rによるやさしい統計学)
K040 確率分布とchi2分布
Prml2.1 2.2,2.4-2.5
PRML2.1 2.2
2014年度春学期 統計学 第14,15回 分布についての仮説を検証する ― 仮説検定 (2014. 7. 17, 24)
2015年度春学期 統計学 第14回 分布についての仮説を検証する ― 仮説検定 (2015. 7. 16, 23)
2015年度秋学期 統計学 第14回 分布についての仮説を検証する ― 仮説検定 (2016. 1. 13)
2013年度秋学期 統計学 第14回「分布についての仮説を検証する ― 仮説検定」
第6章 2つの平均値を比較する - TokyoR #28
2021年度秋学期 統計学 第11回 分布の「型」を考える ー 確率分布モデルと正規分布(2021. 12. 7)
反応時間データをどう分析し図示するか
2014年度秋学期 統計学 第14回 分布についての仮説を検証する ― 仮説検定 (2015. 1. 14)
Introduction to Statistical Estimation (統計的推定入門)
060 期待値・中心極限定理
2022年度春学期 統計学 第11回 分布の「型」を考えるー確率分布モデルと正規分布
Rm20150520 6key
PRML復々習レーン#3 前回までのあらすじ
データサイエンス概論第一=4-2 確率と確率分布
研究室内PRML勉強会 8章1節
Ad

Zansa0130presentation