SlideShare a Scribd company logo
1




情報統計学


         2 変量データの分析
                20110520 scale 修正
        20120502  スライド追加(散布図)
2 変量データ                           2




          2 変量データではあるが
          • それぞれの変量を 1 変量データとして
             1. 代表値
             2. 散布度
             3. ヒストグラム,ボックスプロット
          などで分析できる。
データの登録                                    3

データを登録,読み込む方法
• weight という名前で登録し,その後, bodydata という形でま
  とめる。




• bodydata として行列で登録
ファイルからデータを読み込む(重要)                                         4

• data1.txt というデータファイルがあるとする。スペース or タ
  ブ区切り。



• data1.csv という CSV ファイルを読み込むには



                   • data1-1.csv という CSV ファイ
• データを確認してみよう        ルbodydata <-read.csv("data1-1.csv")
                     >
データの一部を取り出す                               5

• まず, 1 変量ずつ分析するため,一部を取り出そう




• height, weight それぞれについて一変量の分析を行う。
   関数 one.var.analysis をつくってあるのでそれを使う。
6
2 変量の分析                                                                                        7

• 並行箱ひげ図
  > boxplot(height, weight, names=c(”height”, ”weight”))

  ちなみに

  > boxplot(as.vector(scale(height)), as.vector(scale(weight)), names=c(“height”, “weight”))

  とすれば ・・・




 単位の異なる変数、
 数値の桁が異なる変数
 の平行箱ひげ図は
 意味が無い!ことが多い
散布図 plot
plot(bodydata)
plot(height,weight)
plot(weight~height)


                         45
                         40
                weight

                         35
                         30




                              140   145        150   155   160

                                          height
回帰直線                      9

• 散布図から右上がり,右下がりの直線的な傾向
回帰直線の導出   10
11




回帰分析の結果を bodylm に保存
12
散布図に回帰直線を追加する。   13
共分散・相関係数                                    14

 • 散布図→直線的な傾向(回帰直線を引く)
 • 直線的傾向の強弱を数値化
      右上がりか右下がりか
      どれだけ直線的傾向があるか




       平均で分割した象限



第 I ,第 III 象限のデータ数」>「第 II ,第 IV 象限のデータ数」の場合には右上が
第 I ,第 III 象限のデータ数」<「第 II ,第 IV 象限のデータ数」の場合には右下が
傾向
15

• 「第 I ,第 III 象限のデータ数」 - 「第 II ,第 IV 象限のデー
  タ数」
   正の場合は右上がり
   負の場合は右下がり

   最大の値は n – 0 = n
   最小の値は 0 – n = – n
  2 つのデータでデータサイズが異なると (nA と nB など),値により比較が
    しにくい。


• 比較しやすいようにデータ数で割る

                   範囲は,-1から1
                ± 1に近いほど傾向が強い


• ケンドール
後のために別表現                 16




           ケンドールの τ 係数
共分散             17




• 共分散

• データの単位に関係する
• どの程度強いか判定しに
  くい。
18

• → 各軸からの距離を標準偏差で割った値にする




              相関係数
R における共分散,相関係数                 19


• R で共分散を計算するには
  cov を使う
 cov(height, weight)
    • var でも計算できる
  n-1 で割っていることを確認すること。 P 37


• R で相関係数を計算
  cor を使う
  cor(height, weight)

  この例では, 0.851212
相関係数の性質            20

• -1 ≦ r xy≦1
• 完全相関 r xy = ±1
    1本の直線上にすべて
  の点
• 無相関  r xy =0
  相関(直線的な傾向)が無
  い

• 計算結果が 0 だとしても関
  係がないわけではない
    直線的な関係以外
-1 ≦ r xy≦1   21
完全相関            22




       つまり直線状
散布図と相関係数                      23

• 散布図を見て,相関係数の値を読み取れるように練習。
• testcor()



• 誤差は ±0.1 の範囲で。
順位相関係数                          24

• データが順位( 1 位, 2 位,・・・)で与えられている場合
  の相関係数→順位相関係数

• スピアマンの順位相関係数
  順位を普通のデータとして相関係数を計算




         A と B の相関係数
25

• 順位の平均,分散
  データは順位なので, 1 から n が一度ずつ出てくる。
26

• 共分散
27

• よって相関係数は




             スピアマンの順位相関係数
ケンドールの順位相関係数                       28

• 順位を全部に対してつけるのは難しい。
  順位をつけられない場合もある
• n 個の対象から取り出した nC2 組の 2 つの組み合わせに対して
  大小関係をつける。

• A,B の 2 名に大小関係をつけてもらう
  一致した組数  K
  不一致の組数  L
  M=K+L


• このとき              ケンドールの順位相関係
                         数
レポート
• 2 変量データ  cars データに対して分析を行え。
• しめきり
    月   日   時
多変量データのグラフ表現                            30

• iris データ
   3 種類のアイリス(アヤメ)について各 50 個の花を, 4 ヶ所ずつ測定
    したデータ
      • がくの長さ
      • がくの幅
      • 花弁の長さ
      • 花弁の幅
• 有名なデータで,統計の分野では,よく利用される。
• iris で確認できる。
並行箱ひげ図                                                             31




     8
     6
     4
     2
     0




         Sepal.Length   Sepal.Width   Petal.Length   Petal.Width
散布図行列                                                                                32

•   pairs(iris[1:4])
•   pairs(iris[1:4],pch=21,bg = c("red", "green3", "blue")[unclass(iris$Species)])
3 次元散布図                                                                 33

library(rgl)
rgl.points(iris[1:50,1], iris[1:50,2], iris[1:50,3], color="red", size=3)
rgl.points(iris[51:100,1], iris[51:100,2], iris[51:100,3], color="green",
   size=3)
rgl.points(iris[101:150,1], iris[101:150,2], iris[101:150,3],
   color="blue", size=3)
rgl.lines(c(0, max(iris[, 1])), c(0, 0), c(0, 0))
rgl.lines(c(0, 0), c(0, max(iris[, 2])), c(0, 0))
rgl.lines(c(0, 0), c(0, 0), c(0, max(iris[, 3])))
text3d(max(iris[, 1]), 0, 0, text = "X")
text3d(0, max(iris[, 2]), 0, text = "Y")
text3d(0, 0, max(iris[, 3]), text = "Z")
パッケージのインストール
• > library(rgl)
   以下にエラー library(rgl) : 'rgl' という名前のパッケージはあ
  りません

• パッケージ「 rgl 」がインストールされていない。
• Rgui ウィンドウのメニュー「パッケージ」より
   CRAN ミラーサイトの設定
     • Japan(Aizu)  を選択(日本のどこでも可)
   パッケージのインストール
     • rgl  を選択
35
平行座標プロット                                       36

library(MASS)
 parcoord(iris[1:4], col = 1 + (0:149)%/%50)
散布図と相関係数                      37

• 散布図を見て,相関係数の値を読み取れるように練習。
• testcor()



• 誤差は ±0.1 の範囲で。

More Related Content

PDF
実践データ分析基礎
PPT
K020 appstat201202
PDF
Hash mapとは
DOCX
基本統計量について
PDF
VBAで数値計算 09 掃き出し法
実践データ分析基礎
K020 appstat201202
Hash mapとは
基本統計量について
VBAで数値計算 09 掃き出し法

What's hot (8)

PDF
VBAで数値計算 07 ベクトル
PPTX
ラビットチャレンジレポート 応用数学
PDF
データ解析5 単回帰分析
PDF
第1回R勉強会@東京
PDF
データ解析7 主成分分析の基礎
PDF
データ解析13 線形判別分析
PDF
アルゴリズム+データ構造勉強会(7)
PDF
データ解析11 因子分析の応用
VBAで数値計算 07 ベクトル
ラビットチャレンジレポート 応用数学
データ解析5 単回帰分析
第1回R勉強会@東京
データ解析7 主成分分析の基礎
データ解析13 線形判別分析
アルゴリズム+データ構造勉強会(7)
データ解析11 因子分析の応用
Ad

Viewers also liked (6)

PPT
040 相関
PPT
科学のための共通言語
PPT
010 統計学とは
PPT
K040 確率分布とchi2分布
PPT
020 1変数の集計
PDF
質的変数の相関・因子分析
040 相関
科学のための共通言語
010 統計学とは
K040 確率分布とchi2分布
020 1変数の集計
質的変数の相関・因子分析
Ad

Similar to K030 appstat201203 2variable (20)

PDF
20130223_集計・分析の基礎@アンケート研究会
PDF
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
PPT
K070k80 点推定 区間推定
PDF
Rで実験計画法 前編
PPTX
データサイエンス概論第一=2-1 データ間の距離と類似度
PDF
Rで実験計画法 後編
PDF
みどりぼん読書会 第4章
PDF
カテゴリカルデータの解析 (Kashiwa.R#3)
PPTX
データサイエンス概論第一=4-2 確率と確率分布
PPT
K070 点推定
PPTX
An introduction to statistical learning 4 logistic regression manu
PDF
Yasunori Futamura
PDF
ウェーブレット木の世界
PPTX
マルコフ連鎖モンテカルロ法と多重代入法
PDF
TokyoWebmining統計学部 第1回
PDF
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
PDF
Yamadai.R チュートリアルセッション
PDF
幾何を使った統計のはなし
PPTX
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
PPTX
Prml 1.3~1.6 ver3
20130223_集計・分析の基礎@アンケート研究会
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
K070k80 点推定 区間推定
Rで実験計画法 前編
データサイエンス概論第一=2-1 データ間の距離と類似度
Rで実験計画法 後編
みどりぼん読書会 第4章
カテゴリカルデータの解析 (Kashiwa.R#3)
データサイエンス概論第一=4-2 確率と確率分布
K070 点推定
An introduction to statistical learning 4 logistic regression manu
Yasunori Futamura
ウェーブレット木の世界
マルコフ連鎖モンテカルロ法と多重代入法
TokyoWebmining統計学部 第1回
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Yamadai.R チュートリアルセッション
幾何を使った統計のはなし
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
Prml 1.3~1.6 ver3

More from t2tarumi (13)

PPT
K090 仮説検定
PPT
K060 中心極限定理clt
PPT
K050 t分布f分布
PPT
K010 appstat201201
PPT
K080 区間推定
PDF
000 統計学入門 目標
PPT
086 独立性の検定
PPT
076 母比率の推定
PPT
080 統計的推測 検定
PPT
070 統計的推測 母集団と推定
PPT
060 期待値・中心極限定理
PPT
050 確率と確率分布
PPT
030 2変数の集計
K090 仮説検定
K060 中心極限定理clt
K050 t分布f分布
K010 appstat201201
K080 区間推定
000 統計学入門 目標
086 独立性の検定
076 母比率の推定
080 統計的推測 検定
070 統計的推測 母集団と推定
060 期待値・中心極限定理
050 確率と確率分布
030 2変数の集計

K030 appstat201203 2variable

  • 1. 1 情報統計学 2 変量データの分析 20110520 scale 修正 20120502  スライド追加(散布図)
  • 2. 2 変量データ 2 2 変量データではあるが • それぞれの変量を 1 変量データとして 1. 代表値 2. 散布度 3. ヒストグラム,ボックスプロット などで分析できる。
  • 3. データの登録 3 データを登録,読み込む方法 • weight という名前で登録し,その後, bodydata という形でま とめる。 • bodydata として行列で登録
  • 4. ファイルからデータを読み込む(重要) 4 • data1.txt というデータファイルがあるとする。スペース or タ ブ区切り。 • data1.csv という CSV ファイルを読み込むには • data1-1.csv という CSV ファイ • データを確認してみよう ルbodydata <-read.csv("data1-1.csv") >
  • 5. データの一部を取り出す 5 • まず, 1 変量ずつ分析するため,一部を取り出そう • height, weight それぞれについて一変量の分析を行う。  関数 one.var.analysis をつくってあるのでそれを使う。
  • 6. 6
  • 7. 2 変量の分析 7 • 並行箱ひげ図 > boxplot(height, weight, names=c(”height”, ”weight”)) ちなみに > boxplot(as.vector(scale(height)), as.vector(scale(weight)), names=c(“height”, “weight”)) とすれば ・・・ 単位の異なる変数、 数値の桁が異なる変数 の平行箱ひげ図は 意味が無い!ことが多い
  • 8. 散布図 plot plot(bodydata) plot(height,weight) plot(weight~height) 45 40 weight 35 30 140 145 150 155 160 height
  • 9. 回帰直線 9 • 散布図から右上がり,右下がりの直線的な傾向
  • 12. 12
  • 14. 共分散・相関係数 14 • 散布図→直線的な傾向(回帰直線を引く) • 直線的傾向の強弱を数値化  右上がりか右下がりか  どれだけ直線的傾向があるか 平均で分割した象限 第 I ,第 III 象限のデータ数」>「第 II ,第 IV 象限のデータ数」の場合には右上が 第 I ,第 III 象限のデータ数」<「第 II ,第 IV 象限のデータ数」の場合には右下が 傾向
  • 15. 15 • 「第 I ,第 III 象限のデータ数」 - 「第 II ,第 IV 象限のデー タ数」  正の場合は右上がり  負の場合は右下がり  最大の値は n – 0 = n  最小の値は 0 – n = – n 2 つのデータでデータサイズが異なると (nA と nB など),値により比較が しにくい。 • 比較しやすいようにデータ数で割る 範囲は,-1から1 ± 1に近いほど傾向が強い • ケンドール
  • 16. 後のために別表現 16 ケンドールの τ 係数
  • 17. 共分散 17 • 共分散 • データの単位に関係する • どの程度強いか判定しに くい。
  • 19. R における共分散,相関係数 19 • R で共分散を計算するには  cov を使う cov(height, weight) • var でも計算できる  n-1 で割っていることを確認すること。 P 37 • R で相関係数を計算  cor を使う  cor(height, weight)  この例では, 0.851212
  • 20. 相関係数の性質 20 • -1 ≦ r xy≦1 • 完全相関 r xy = ±1   1本の直線上にすべて の点 • 無相関  r xy =0 相関(直線的な傾向)が無 い • 計算結果が 0 だとしても関 係がないわけではない  直線的な関係以外
  • 21. -1 ≦ r xy≦1 21
  • 22. 完全相関 22 つまり直線状
  • 23. 散布図と相関係数 23 • 散布図を見て,相関係数の値を読み取れるように練習。 • testcor() • 誤差は ±0.1 の範囲で。
  • 24. 順位相関係数 24 • データが順位( 1 位, 2 位,・・・)で与えられている場合 の相関係数→順位相関係数 • スピアマンの順位相関係数  順位を普通のデータとして相関係数を計算 A と B の相関係数
  • 25. 25 • 順位の平均,分散  データは順位なので, 1 から n が一度ずつ出てくる。
  • 27. 27 • よって相関係数は スピアマンの順位相関係数
  • 28. ケンドールの順位相関係数 28 • 順位を全部に対してつけるのは難しい。  順位をつけられない場合もある • n 個の対象から取り出した nC2 組の 2 つの組み合わせに対して 大小関係をつける。 • A,B の 2 名に大小関係をつけてもらう  一致した組数  K  不一致の組数  L  M=K+L • このとき ケンドールの順位相関係 数
  • 29. レポート • 2 変量データ  cars データに対して分析を行え。 • しめきり    月   日   時
  • 30. 多変量データのグラフ表現 30 • iris データ  3 種類のアイリス(アヤメ)について各 50 個の花を, 4 ヶ所ずつ測定 したデータ • がくの長さ • がくの幅 • 花弁の長さ • 花弁の幅 • 有名なデータで,統計の分野では,よく利用される。 • iris で確認できる。
  • 31. 並行箱ひげ図 31 8 6 4 2 0 Sepal.Length Sepal.Width Petal.Length Petal.Width
  • 32. 散布図行列 32 • pairs(iris[1:4]) • pairs(iris[1:4],pch=21,bg = c("red", "green3", "blue")[unclass(iris$Species)])
  • 33. 3 次元散布図 33 library(rgl) rgl.points(iris[1:50,1], iris[1:50,2], iris[1:50,3], color="red", size=3) rgl.points(iris[51:100,1], iris[51:100,2], iris[51:100,3], color="green", size=3) rgl.points(iris[101:150,1], iris[101:150,2], iris[101:150,3], color="blue", size=3) rgl.lines(c(0, max(iris[, 1])), c(0, 0), c(0, 0)) rgl.lines(c(0, 0), c(0, max(iris[, 2])), c(0, 0)) rgl.lines(c(0, 0), c(0, 0), c(0, max(iris[, 3]))) text3d(max(iris[, 1]), 0, 0, text = "X") text3d(0, max(iris[, 2]), 0, text = "Y") text3d(0, 0, max(iris[, 3]), text = "Z")
  • 34. パッケージのインストール • > library(rgl) 以下にエラー library(rgl) : 'rgl' という名前のパッケージはあ りません • パッケージ「 rgl 」がインストールされていない。 • Rgui ウィンドウのメニュー「パッケージ」より  CRAN ミラーサイトの設定 • Japan(Aizu)  を選択(日本のどこでも可)  パッケージのインストール • rgl  を選択
  • 35. 35
  • 36. 平行座標プロット 36 library(MASS) parcoord(iris[1:4], col = 1 + (0:149)%/%50)
  • 37. 散布図と相関係数 37 • 散布図を見て,相関係数の値を読み取れるように練習。 • testcor() • 誤差は ±0.1 の範囲で。