SlideShare a Scribd company logo
1 変数の集計

 統計学入門
             2008.04
         2009.05.7 修正
   2011.04.27 演習解答例追加
 2012.04.25 演習 2 解答メモ追加
     四分位偏差 説明追加
     (講義後の修正まで)
データの分布
• だいたいどんな値 (代表値)
• 値のバラエティさ  (ばらつき)
• その中でどんな値が多いか (ヒストグラ
  ム)          2 0. 2
         - 0. 0. 0




                       1 50   1 60         1 70   1 80   1 90
         - 0. 0. 0 2




                                     m
               2 0.




• 分布形状                 1 50   1 60
                                     f 2
                                           1 70   1 80   1 90




 – 単峰性、双峰性、多峰性
 – 左に偏った J 型分布、左右対称分布
   右に偏った L 型分布
分布の形状
   単峰性       双峰性      多峰性




左に裾を引いている    対称性    右に裾を引いている
  J 型分布                 L 型分布
共通一次試験 (1980 年 )
民間給与実態統計調査(平成 9
      年)
データの縮約
• n 個のデータ
    x1, x2, ・・・ xn
  を数個の値にまとめる!

• 代表値(位置、 location )
• ばらつき(広がり、 dispersion )

• 5数要約
• グラフ表現
代表値
• データが概ねどんな値か
• (数直線上の)どのあたりの位置にあ
       - 0.0. 0 2




  るか
            2 0.




                    1 50   1 60       1 70   1 80   1 90

                                  m




•   (算術)平均値 arithmetic mean
•   中央値 median
•   最小値 minimum
•   最大値 maximum
「良い」代表値とは
                                絶




                                             2
                 デ   代                       乗
                         誤      対
                     表
• ある定めた基準の元で
                 ー
                         差      誤            誤
                 タ   値                       差
                                差
  「良い」
                 x1 a x1-a          |x1-a|       (x1-a)2
• 代表値とはn個の様々
  な値を、 1 個の値に置   x2 a    x2-a       |x2-a|       (x2-a)2
  き換えること
                 ・・      ・    ・              ・
• 置き換えたときの誤差
                 ・・      ・    ・              ・
• 誤差は無いほどよい      ・・      ・    ・              ・
• できるだけ小さく       xn a    xn-a |xn-a|          (xn-a)2
• 最小化しよう
                 和              Σ |xn-a|     Σ (xn-a)2
平均値 (mean)
• mean          x1 + x2 +  + xn
             x=
                        n
• 代表値として一番良く使われる
• 最小 2 乗法 (Least Square Methods) の意味で最
  良

 誤差の 2 乗
   Q(a)=(x1-a)2+(x2-a)2+ ・・・ +(xn-a)2
 を最小にする a
平均値

16


14


12


10


8


6


4


2


0
     1   2   3   4   5   6   7   8   9   10
中央値 (median)
• 平均値の問題点
  はずれ値 (outlier) の影響を受けやすい

            平均値
• 多数のデータからは離れた値になって
  いる
      中央値
• 集団の代表値としては中央値の方が妥当
      Me = x((n+1)/2)  ないしは  (x(n/2)
  +x(n/2+1))/2
平均値と中央値との関係
• 平均値は外れ値の影響を受けやすい
• 中央値は外れ値に頑健 (robust)

 http://bstat.f7.ems.okayama-u.ac.jp/~yan/dataplot/
平均値の改良
• truncated mean, trimmed mean (切捨て平
  均)
  – 大きい方 α 、小さい方 α のデータを捨てて
    残りの 1-2α のデータで平均値を計算する
  – α としては 0.25 が良く使われる

           平均値


    平均値          α=1/6 の場合
最小値、最大値
• 洪水対策
    過去のデータでの最大降水量に対
  して対策を立てる

• 許容量
    被害が起きた最小の値に対して対
  策を立てる
5 数要約  (fivnum)
                            five-number summary
• 大きさの順序に並び換え
     x(1)<x(2)< ・・・ <x(n)


• x(1)     最小値
• x(n/4)    第1四分位値 (Q1)
• x(2n/4)    第2四分位値 (Q2) =中央値
  (Me)
• x(3n/4)    第3四分位値 (Q3)
• x(n)     最大値
箱髭図 (boxplot)
• 5 数要約のグラフ表現



                         x(n)
                         Q3
                        median
                         Q1
                         x(1)



     (boxplot height)
度数分布表とヒストグラム
 frequency table and histogram
• 階級数 k
  – √n
  – 1 + log n/log 2
  – 10 ~ 20
• 階級の幅 w
  – w=(x(n)-x(1))/k
• 端点 a0
   a0 < x(1)< a0 + w/2
度数分布表の追加情報
階級     階級値 度数     相対度数   累積度数      累積相対度数


a0~a1 m1     f1   f1/n   f1        (f1)/n
a1~a2 m2     f2   f2/n   f1+f2     (f1+f2)/n


ak-1~ak mk   fk   fk/n   f1+‥+fk   (f1+‥+fk)/n
             n    1
演習
• 統計学 168 人の試験の成績は
    最小値  24 点
    最大値  87 点
  であった。度数分布表を作るための階
  級を定めよ。
• 169 人の身長を調査したところ
    最小値  143.2cm
    最大値  175.7cm
  であった。度数分布表を作るための階
  級を定めよ。
演習問題の解答例
n=168 人                                         階級
   x(1)= 最小値 =24                                 22~27
   x(n)= 最大値 =87                                 27~32
  n = 168 = 12.96                                32~37
                  log 168      2.2253            37~42
1 + log 2 n = 1 +         = 1+        = 8.393
                   log 2       0.3010            42~47
階級数k = 8~13                                      47~52
        x( n ) − x(1) 87 − 24                    52~57
                                     63
幅  w =               =        = 4.85~ = 7.85     57~62
               k        13           8
    w = 5 と決める                                   62~67
                                                 67~72
端点 a0 :  a0 ≤ x(1) ≤ a0 + w / 2
                                                 72~77
a0 ≤ 24 ≤ a0 + 5 / 2
                                                 77~82
a0 ≤ 24 ≤ a0 + 2.5
                                                 82~87
24 − 2.5 = 21.5 ≤ a0 ≤ 24                        87~92
a0 = 22  と決める
講  評
「階級を定める」ということは、
すべての小区間を決めること!          22~27   22.5~27.5
                        27~32   27.5~32.5
階級数 k、                          32.5~37.5
                        32~37
階級の幅 w、                         37.5~42.5
                        37~42
端点  a0 を決めるだけでは不十分。             42.5~47.5
                        42~47
                        47~52   47.5~52.5
端点の値がどちらの階級に属するか(以下、未           52.5~57.5
                        52~57
満)という議論を避けるために、端点の値がデ           57.5~62.5
                        57~62
ータに出てこないように端点を定めることもあ
                        62~67   62.5~67.5
る。
                        67~72   67.5~72.5
                        72~77   72.5~77.5
データの有効桁(成績のよう整数値のデータで
あれば、1の位)に対して、その一つ下の桁(   77~82   77.5~82.5
整数値であれば、小数点以下1桁目)に5を付   82~87   82.5~87.5
けた値を端点の値とする。            87~92   87.5~92.5

前の演習問題であれば、右側のように定めれば
良い。
演習
• 統計学 168 人の試験の成績は
    最小値  24 点
    最大値  87 点
  であった。度数分布表を作るための階
  級を定めよ。
• 169 人の身長を調査したところ
    最小値  143.2cm
    最大値  175.7cm
  であった。度数分布表を作るための階
  級を定めよ。
       Log(169,2)+1=8.4 32.5/13=2.5 W=4
       √169=13                        32.5/8=4.06   143.2-4/2=141.2
       R=X(n)-X(1)=175.7-143.2=32.5                 A0=142
ばらつき (dispersion) の尺度
 • 代表値は同じでも、分布が異なる
> mean(height)
151.57142857142856
> mean(height2)
151.3571428571429
                            2 0. 2
                       - 0. 0. 0




> histogram(height)                  1 50   1 60         1 70   1 80   1 90

                                                   f 2


> histogram(height2)




      height2 ~tarumi/lispstat/height2.lsp
バラツキの尺度
• 範囲 (range)
• 四分位範囲 (interquartile range)
• 平均偏差 (mean deviation)

• 分散 (variance)
• 標準偏差 (standard deviation)
範囲 (range)
  四分位範囲 (quartile range)
• 最小値から最大値までの幅
     R = x(n) - x(1)
• 外れ値 (Outlier) の影響を受けやすい
• 両端 25 %のデータを捨てた真中の
  50% のデータでの範囲=四分位範囲 =
  Q3 - Q1
            R


            R
            QR
四分位偏差
• 平成 24 年度からの高校数学Ⅰでは四分位
  範囲の代わりに、四分位偏差が取り上
  げられている。
           Q3 − Q1 四分位範囲
  四分位偏差 =         =
              2      2
• 統計学の分野では四分位範囲の方がよ
  くつかわれる。
平均偏差 (mean deviation)
• 偏差
       d i = xi − x
• 平均偏差
                  n          n
              1          1         
       d = d = ∑ | di | = ∑ |x i − x |
              n i =1     n i =1
分散 (variance)
標準偏差 (standard deviation)
• 分散 偏差2乗の平均
          1 n
       s = ∑ ( xi − x )
        2               2

          n i =1
             n
        1
       = (∑ xi ) − ( x )
               2         2

        n i =1
• 標準偏差   分散の平方根
           1 n
    s= s =
        2
             ∑ ( xi − x )
           n i =1
                          2
不偏分散 (unbiased variance)
• 標本分散としては不偏分散 u2 を使うこ
  とも多い
       1 n
    s = ∑ ( xi − x )
     2               2

       n i =1
                 n
         1
    u =
     2
             ∑ ( xi − x )
        n − 1 i =1
                          2



             2
       ns
      
     =
       n −1
演習
• height
  – 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151,
    157, 157, 144
  – 和 2122          2 乗和 322338
• height2
  – 138, 162, 158, 151, 145, 134, 160, 137, 151, 163, 152,
    163, 158, 147
  – 和 2119          2 乗和 322019
• weight
  – 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36
  – 和 588 2 乗和 25226

More Related Content

PPTX
Masa idah, hadanah, dan rujuk 2
PPTX
Ibadah minggu 09 nov 2014
PDF
GoPaskah! Storytelling Paskah.pdf
DOC
Dzikir alma tsurat
PDF
Kawin Kontrak (Mut'ah) dan Siri dalam Tinjauan Fikih Islam
DOCX
Manajemen asuhan kebidanan ibu nifas pada ny AKBID PARAMATA RAHA
PPT
科学のための共通言語
PPT
K020 appstat201202
Masa idah, hadanah, dan rujuk 2
Ibadah minggu 09 nov 2014
GoPaskah! Storytelling Paskah.pdf
Dzikir alma tsurat
Kawin Kontrak (Mut'ah) dan Siri dalam Tinjauan Fikih Islam
Manajemen asuhan kebidanan ibu nifas pada ny AKBID PARAMATA RAHA
科学のための共通言語
K020 appstat201202

Similar to 020 1変数の集計 (20)

PDF
2016年度秋学期 統計学 第5回 分布をまとめる-平均・分散 (2016. 10. 24)
PPT
K070k80 点推定 区間推定
PDF
20130223_集計・分析の基礎@アンケート研究会
PDF
2015年度秋学期 統計学 第5回 分布をまとめる ― 記述統計量(平均・分散など) (2015. 10. 28)
PDF
2015年度春学期 統計学 第5回 分布をまとめる ― 記述統計量(平均・分散など) (2015. 5. 14)
PPT
K070 点推定
PDF
Rで実験計画法 前編
PDF
2022年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 10. 25)
PDF
Tokyor24 doradora09
PDF
KEY
第5章 統計的仮説検定 (Rによるやさしい統計学)
PDF
統計学の基礎の基礎
PDF
2014年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2014. 10. 22)
PPT
070 統計的推測 母集団と推定
PDF
2022年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 5. 12)
PDF
2021年度秋学期 統計学 第5回 分布をまとめるー平均と分散(2021. 10. 19)
PPTX
第二回統計学勉強会@東大駒場
PDF
R Study Tokyo03
PPT
K040 確率分布とchi2分布
PDF
2019年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2019. 5. 16)
2016年度秋学期 統計学 第5回 分布をまとめる-平均・分散 (2016. 10. 24)
K070k80 点推定 区間推定
20130223_集計・分析の基礎@アンケート研究会
2015年度秋学期 統計学 第5回 分布をまとめる ― 記述統計量(平均・分散など) (2015. 10. 28)
2015年度春学期 統計学 第5回 分布をまとめる ― 記述統計量(平均・分散など) (2015. 5. 14)
K070 点推定
Rで実験計画法 前編
2022年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 10. 25)
Tokyor24 doradora09
第5章 統計的仮説検定 (Rによるやさしい統計学)
統計学の基礎の基礎
2014年度秋学期 統計学 第5回 分布をまとめるー平均・分散 (2014. 10. 22)
070 統計的推測 母集団と推定
2022年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2022. 5. 12)
2021年度秋学期 統計学 第5回 分布をまとめるー平均と分散(2021. 10. 19)
第二回統計学勉強会@東大駒場
R Study Tokyo03
K040 確率分布とchi2分布
2019年度春学期 統計学 第5回 分布をまとめるー平均・分散 (2019. 5. 16)
Ad

More from t2tarumi (15)

PPT
K090 仮説検定
PPT
K060 中心極限定理clt
PPT
K050 t分布f分布
PPT
K030 appstat201203 2variable
PPT
K010 appstat201201
PPT
K080 区間推定
PDF
000 統計学入門 目標
PPT
086 独立性の検定
PPT
076 母比率の推定
PPT
080 統計的推測 検定
PPT
060 期待値・中心極限定理
PPT
050 確率と確率分布
PPT
040 相関
PPT
030 2変数の集計
PPT
010 統計学とは
K090 仮説検定
K060 中心極限定理clt
K050 t分布f分布
K030 appstat201203 2variable
K010 appstat201201
K080 区間推定
000 統計学入門 目標
086 独立性の検定
076 母比率の推定
080 統計的推測 検定
060 期待値・中心極限定理
050 確率と確率分布
040 相関
030 2変数の集計
010 統計学とは
Ad

020 1変数の集計

  • 1. 1 変数の集計 統計学入門 2008.04 2009.05.7 修正 2011.04.27 演習解答例追加 2012.04.25 演習 2 解答メモ追加 四分位偏差 説明追加 (講義後の修正まで)
  • 2. データの分布 • だいたいどんな値 (代表値) • 値のバラエティさ  (ばらつき) • その中でどんな値が多いか (ヒストグラ ム) 2 0. 2 - 0. 0. 0 1 50 1 60 1 70 1 80 1 90 - 0. 0. 0 2 m 2 0. • 分布形状 1 50 1 60 f 2 1 70 1 80 1 90 – 単峰性、双峰性、多峰性 – 左に偏った J 型分布、左右対称分布 右に偏った L 型分布
  • 3. 分布の形状 単峰性 双峰性 多峰性 左に裾を引いている 対称性 右に裾を引いている J 型分布 L 型分布
  • 6. データの縮約 • n 個のデータ x1, x2, ・・・ xn を数個の値にまとめる! • 代表値(位置、 location ) • ばらつき(広がり、 dispersion ) • 5数要約 • グラフ表現
  • 7. 代表値 • データが概ねどんな値か • (数直線上の)どのあたりの位置にあ - 0.0. 0 2 るか 2 0. 1 50 1 60 1 70 1 80 1 90 m • (算術)平均値 arithmetic mean • 中央値 median • 最小値 minimum • 最大値 maximum
  • 8. 「良い」代表値とは 絶 2 デ 代 乗 誤 対 表 • ある定めた基準の元で ー 差 誤 誤 タ 値 差 差 「良い」 x1 a x1-a |x1-a| (x1-a)2 • 代表値とはn個の様々 な値を、 1 個の値に置 x2 a x2-a |x2-a| (x2-a)2 き換えること ・・ ・ ・ ・ • 置き換えたときの誤差 ・・ ・ ・ ・ • 誤差は無いほどよい ・・ ・ ・ ・ • できるだけ小さく xn a xn-a |xn-a| (xn-a)2 • 最小化しよう 和 Σ |xn-a| Σ (xn-a)2
  • 9. 平均値 (mean) • mean x1 + x2 +  + xn x= n • 代表値として一番良く使われる • 最小 2 乗法 (Least Square Methods) の意味で最 良 誤差の 2 乗 Q(a)=(x1-a)2+(x2-a)2+ ・・・ +(xn-a)2 を最小にする a
  • 10. 平均値 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10
  • 11. 中央値 (median) • 平均値の問題点 はずれ値 (outlier) の影響を受けやすい 平均値 • 多数のデータからは離れた値になって いる 中央値 • 集団の代表値としては中央値の方が妥当 Me = x((n+1)/2)  ないしは  (x(n/2) +x(n/2+1))/2
  • 13. 平均値の改良 • truncated mean, trimmed mean (切捨て平 均) – 大きい方 α 、小さい方 α のデータを捨てて 残りの 1-2α のデータで平均値を計算する – α としては 0.25 が良く使われる 平均値 平均値 α=1/6 の場合
  • 14. 最小値、最大値 • 洪水対策   過去のデータでの最大降水量に対 して対策を立てる • 許容量   被害が起きた最小の値に対して対 策を立てる
  • 15. 5 数要約  (fivnum) five-number summary • 大きさの順序に並び換え    x(1)<x(2)< ・・・ <x(n) • x(1)     最小値 • x(n/4)    第1四分位値 (Q1) • x(2n/4)    第2四分位値 (Q2) =中央値 (Me) • x(3n/4)    第3四分位値 (Q3) • x(n)     最大値
  • 16. 箱髭図 (boxplot) • 5 数要約のグラフ表現 x(n) Q3 median Q1 x(1) (boxplot height)
  • 17. 度数分布表とヒストグラム frequency table and histogram • 階級数 k – √n – 1 + log n/log 2 – 10 ~ 20 • 階級の幅 w – w=(x(n)-x(1))/k • 端点 a0 a0 < x(1)< a0 + w/2
  • 18. 度数分布表の追加情報 階級 階級値 度数 相対度数 累積度数 累積相対度数 a0~a1 m1 f1 f1/n f1 (f1)/n a1~a2 m2 f2 f2/n f1+f2 (f1+f2)/n ak-1~ak mk fk fk/n f1+‥+fk (f1+‥+fk)/n n 1
  • 19. 演習 • 統計学 168 人の試験の成績は   最小値  24 点   最大値  87 点 であった。度数分布表を作るための階 級を定めよ。 • 169 人の身長を調査したところ   最小値  143.2cm   最大値  175.7cm であった。度数分布表を作るための階 級を定めよ。
  • 20. 演習問題の解答例 n=168 人 階級    x(1)= 最小値 =24 22~27    x(n)= 最大値 =87 27~32 n = 168 = 12.96 32~37 log 168 2.2253 37~42 1 + log 2 n = 1 + = 1+ = 8.393 log 2 0.3010 42~47 階級数k = 8~13 47~52 x( n ) − x(1) 87 − 24 52~57 63 幅  w = = = 4.85~ = 7.85 57~62 k 13 8     w = 5 と決める 62~67 67~72 端点 a0 :  a0 ≤ x(1) ≤ a0 + w / 2 72~77 a0 ≤ 24 ≤ a0 + 5 / 2 77~82 a0 ≤ 24 ≤ a0 + 2.5 82~87 24 − 2.5 = 21.5 ≤ a0 ≤ 24 87~92 a0 = 22  と決める
  • 21. 講  評 「階級を定める」ということは、 すべての小区間を決めること! 22~27 22.5~27.5 27~32 27.5~32.5 階級数 k、  32.5~37.5 32~37 階級の幅 w、  37.5~42.5 37~42 端点  a0 を決めるだけでは不十分。 42.5~47.5 42~47 47~52 47.5~52.5 端点の値がどちらの階級に属するか(以下、未 52.5~57.5 52~57 満)という議論を避けるために、端点の値がデ 57.5~62.5 57~62 ータに出てこないように端点を定めることもあ 62~67 62.5~67.5 る。 67~72 67.5~72.5 72~77 72.5~77.5 データの有効桁(成績のよう整数値のデータで あれば、1の位)に対して、その一つ下の桁( 77~82 77.5~82.5 整数値であれば、小数点以下1桁目)に5を付 82~87 82.5~87.5 けた値を端点の値とする。 87~92 87.5~92.5 前の演習問題であれば、右側のように定めれば 良い。
  • 22. 演習 • 統計学 168 人の試験の成績は   最小値  24 点   最大値  87 点 であった。度数分布表を作るための階 級を定めよ。 • 169 人の身長を調査したところ   最小値  143.2cm   最大値  175.7cm であった。度数分布表を作るための階 級を定めよ。 Log(169,2)+1=8.4 32.5/13=2.5 W=4 √169=13 32.5/8=4.06 143.2-4/2=141.2 R=X(n)-X(1)=175.7-143.2=32.5 A0=142
  • 23. ばらつき (dispersion) の尺度 • 代表値は同じでも、分布が異なる > mean(height) 151.57142857142856 > mean(height2) 151.3571428571429 2 0. 2 - 0. 0. 0 > histogram(height) 1 50 1 60 1 70 1 80 1 90 f 2 > histogram(height2) height2 ~tarumi/lispstat/height2.lsp
  • 24. バラツキの尺度 • 範囲 (range) • 四分位範囲 (interquartile range) • 平均偏差 (mean deviation) • 分散 (variance) • 標準偏差 (standard deviation)
  • 25. 範囲 (range) 四分位範囲 (quartile range) • 最小値から最大値までの幅    R = x(n) - x(1) • 外れ値 (Outlier) の影響を受けやすい • 両端 25 %のデータを捨てた真中の 50% のデータでの範囲=四分位範囲 = Q3 - Q1 R R QR
  • 26. 四分位偏差 • 平成 24 年度からの高校数学Ⅰでは四分位 範囲の代わりに、四分位偏差が取り上 げられている。 Q3 − Q1 四分位範囲 四分位偏差 = = 2 2 • 統計学の分野では四分位範囲の方がよ くつかわれる。
  • 27. 平均偏差 (mean deviation) • 偏差 d i = xi − x • 平均偏差 n n 1 1  d = d = ∑ | di | = ∑ |x i − x | n i =1 n i =1
  • 28. 分散 (variance) 標準偏差 (standard deviation) • 分散 偏差2乗の平均 1 n s = ∑ ( xi − x ) 2 2 n i =1 n 1 = (∑ xi ) − ( x ) 2 2 n i =1 • 標準偏差   分散の平方根 1 n s= s = 2 ∑ ( xi − x ) n i =1 2
  • 29. 不偏分散 (unbiased variance) • 標本分散としては不偏分散 u2 を使うこ とも多い 1 n s = ∑ ( xi − x ) 2 2 n i =1 n 1 u = 2 ∑ ( xi − x ) n − 1 i =1 2 2 ns    = n −1
  • 30. 演習 • height – 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151, 157, 157, 144 – 和 2122 2 乗和 322338 • height2 – 138, 162, 158, 151, 145, 134, 160, 137, 151, 163, 152, 163, 158, 147 – 和 2119 2 乗和 322019 • weight – 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36 – 和 588 2 乗和 25226