SlideShare a Scribd company logo
통계, 자료분석 입문

                  김성익
        noerror@softnette.com


             kasa발표자료
               2011/06/25
개요
• 기초적인 통계, 자료분석 개념 정리

• Why
 – 게임 서비스 시 체계적이고 신속한 유저 대응
   을 위한 시스템 구성
 – 통계 및 자료 분석 개념 사용되고 있음
   • VSM, PCA이용한 DXT, MOTION GRAPH등등
 – 그냥 일반 상식으로
1. 통계 기본 개념들
•   어떻게 측정치가 실제 값이 되는가?
•   기술통계, 추측통계
•   샘플링
•   대표 값
•   표준편차
•   주성분 분석
•   신뢰성, 타당성
통계적 추측
• 실제값 != 예측값
• 예측 값을 실제 값으로 만드는 마법
통계적 추측
• 실제값 = 예측값 + 오차
통계
• 기술 통계
 – 모든 정보로 집단 특성 조사
 – 센서스 census 전수조사
 – 모집단의 특성이 다양하게 분포되는 경우
• 추측통계
 – 모집단 가운데서 표본을 추출해서 모집단의
   특성을 추측
 – 샘플링
샘플링
• 설계
 – 모집단 정의
 – 샘플링 프레임 (목록, 기준)
 – 샘플링 방법 선택
   • 확률적 샘플링 (순수 랜덤)
       –   단순 랜덤 샘플링 simple random sampling
       –   층화 샘플링 stratified sampling
       –   군집 샘플링 cluster sampling
       –   체계적 샘플링 systematic sampling
   • 비확률적 샘플링 (의도적으로 분류)
       – 편의 샘플링 convenience sampling
       – 판단 샘플링 judgement sampling
       – 쿼타 샘플링 quota sampling (vs cluster sampling)
 – 표본 수 결정
   • 최대 허용 오차, 신뢰수준
대표값
• 모집단의 특성을 나타내는 값
 – 평균   mean
  • 산술 평균 arithmetic mean


 – 중앙값    median
  • 데이터를 순서대로 나열한 데이터 중 가운데 값
    (짝수면 가운데 두 수의 평균)
 – 최빈값
  • 가장 많은 값
표준편차
• 평균으로는 데이터가 얼마나 흩어져 있는 지는 알
  수 없다
• 표준 편차 (s)
• 분산 (s2)


 – 값이 작으면 데이터는 평균 주변에 모이지만, 크면 평
   균에서 크게 벗어나는 성질
 – (자유도)
• 변동계수   coefficient of variation : CV
 – 평균에 대한 상대적 분산도
 – 표준편차를 평균으로 나눈 값
정규분포
• 히스토그램 histogram
  확률 밀도 함수 probability density function
   – 데이터 수 증가, 폭이 좁아지면




• 정규분포       normal distribution
   – 종모양
   – 중심극한정리 centeral limit theorem
      • 표본의 수가 많다면, 모집단의 실제 분포와 관계없이, 표본평균
        의 표본분포는 정규분포를 따른다
      • Lilliefores 검정 : 데이터가 정규분포를 따르는 지 검사
정규분포
• 정규분포는 다음의 특성을 가지고 있다
표준정규분포
• 즉, 평균과 표준 편차를 알면 데이터의 분
  포도를 예측 할 수 있다
응용 예
   • VSM     variance shadow map




   • Chebyshev 부등식 이용
      – 분산이용, occlusion 정도를 구함

http://www.punkuser.net/vsm/
주성분 분석
• 주성분 분석 principal component analysis
• 고유값 eigenvalue




• 의미 있는 개념의 수만큼 의미 있는 주성
  분이 추출
주성분 분석 응용 예
   • DXT 압축 알고리즘
      – PCA축을 이용하여 블록의 두 지점 결정
      – 각 픽셀은 두 점 사이의 블랜드 값
   • 애니메이션 그래프
      – 복잡한 모션을 특성 몇 개로 대표
      – 모션 탐색 시 사용



http://www.slideshare.net/noerror/dxtcompression
http://www.gdcvault.com/play/1705/Momentum-vs-Character
신뢰성
• 신뢰성   reliability   측정
 – 재검사
 – 반분법
• 내적 일관성 측정
 – 측정값의 분산에서 실제 값의 분산이 차지하는 비율
 – 크론바흐 알파 Cronbach’s alpha



   • 값이 클수록 신뢰성이 높다
     – 신뢰성 있는 크론바하 알파는 얼마 이상 ???
       0.7 ??? Nunnally(1978)
타당성
• 타당성   Validity

 – 기준 타당성
 – 내용 타당성
 – 개념 타당성
2. 자료분석
•   모수 분석 / 비모수 분석
•   상관 관계 분석
•   로지스틱 회귀 분석
•   분산 분석
•   요인 분석
•   군집 분석
자료분석
• 모수 분석    parametric analysis

 – 모수(평균, 분산 등)를 이용하여 추측
 – 자료가 정규 분포를 따른다
   • 중심극한정리
• 비모수 분석      nonparametric analysis

 – 분포와 무관한 방법
 – 도수 frequency, 부호 sign, 순위       rank   등의 통계량
   으로 분석
상관 관계 분석
• 종속 변수(반응변수) Y와 독립변수(설명변수) X사이의 연관성을 파
  악
• 연관도 측정
  – 공분산
    • 선형 관계 방향 유무 (관계 정도는 알 수 없음)
  – 상관 계수
    • 표준화된 공분산
    • 방향과 퍼진 정도
단순 회귀 분석
• 회귀분석        regression analysis
 – 다른 변수의 값이 어떻게 변할 것인지를 예측
• 두 변수 사이에 존재하는 상호의존 관계를 함
  수 관계로 표현
 – 모 회귀 방정식 population regression equation
   E(Yi) = α + β xi
 – 표본자료를 이용 α, β 를 추정
    • 최소제곱법        least square method

• 잔차   residual
 – 예측한 값과 측정한 값의 차이(오차, 개별성)
단순 회귀 분석
• 총변동
 – SST = 회귀제곱합 SSR + 잔차제곱합 SSE
• 결정계수(r2)   coefficient of determination

 – SSR / SST = 1 – SSE / SST
 – 잔차가 작을 수록 결정계수가 커진다
 – 결정계수 0.7 = 70%로 회귀식을 설명할 수 있
   다
• 상관 계수(r)   coefficient of correlation
단순 회귀 분석
• F 검점
   – 회귀 모형을 사용할 것인지 검정
      • F가 1보다 충분히 커야 한다
   – F = MSR / MSE
      • MSR (mean square regression) <- 회귀변동
      • MSE (mean square error) <- 평균 잔차변동
      • 자유도
• t 검정
   – 독립 변수와 종속 변수의 관계의 유의미성
      • T값이 유의 값 보다 크다면 유의미
• 잔차 분석 residual analysis
   – 잔차가 서로 무관해야 함 (상관성 X)
   – 거빈 와트슨 통계량 Durbin-Watson statistic
다중 회귀 분석
• 한 개의 종속 변수와 여러 개의 독립변수의
  관계를 분석
• 회귀 방정식
  Yi = α + β1x1i + β2 x2i + .. + ei
• 다중 공선성 multicollinearity
  – 독립 변수들 사이의 상호의존도가 높으면 회귀계
    수의 부호가 바뀌거나 0에 가까운 값으로 나타남
  – 분산확대인자 Variance inflation factor
    • 클수록 다중 공선성이 심하다
  – 상관 관계가 높은 변수들 중 하나만 남기고 나머
    지 변수들은 모형에서 제거
다중 회귀 분석
• 적합성 검정
 – 전반 검정
 – 부분 검정
  • 다중 공선성 문제를 해결하기 위해 추가적인 검정
    절차 필요
  • 독립변수 각각의 회귀계수에 대해 유의성 검정
로지스틱 회귀 분석
• 자료가 두 그룹으로 나누어진 상황에서, 두 그룹이 구분되는
  특성을 파악하여 다른 어떤 데이터가 어느 그룹에 속하는 지
  예측
• 오즈 (odds)
  – 그룹 1에 속할 확률 / 그룹 2에 속할 확률
     • 그룹 1에 속할 확률 p
     • 오즈 = p / (1-p)
• 로그 오즈
  – 오즈에 로그를 취한 값
  – 로그오즈 = ln( p / (1-p) )
  – 로지스틱 회귀 모형 = α + β1x1i + β2 x2i + ..
• 로지스틱 회귀 방정식
  – p = 1 / (1 + exp[ - (α + β1x1i + β2 x2i + ..) ] )
  – 최대우도법 maximum likelihood method 으로 추정
분산 분석
• ANOVA analysis of variance
  – 두 개 이상으로 구성된 그룹의 평균을 비교하
    는 목적의 분산
  – 평균의 정확성 측정
• 단일 요일 분산 분석 one way ANOVA
• 2요인 분산 분석 two way ANOVA
요인분석
• 측정 변수들의 상호 의존 관계를 나타낼 수 있도록 만드는 새로운
  변수
• 탐색적 요인분석
  확증적 요인분석
• 초기 요인 추출
  – 주성분 분석 principal component analysis
  – 반복된 주성분 분석 iterated principal component
  – 최대우도법 maximum likelihood method
• 요인 다이어그램
  – 요익 적재값을 그래프를 그려서 시각화
• 요인 회전      factor rotation
  – 직교 회전    orthogonal rotation
       • 배리맥스 회전 varimax rotation
  –   사각 회전 oblique rotation
       • 비직교회전 non-orthogonal rotation
군집분석
• 데이터의 군집을 분류
• 프로파일 다이어그램
• 두 점간의 거리
 – 유클리디안 거리
 – 절대차이
• 두 군집간의 거리
 – 중심 연결법, 단일 연결법, 완전 연결법, 평균 연
   결법, …
• 계층적 군집화 – 응집법, 분리법
  비계층적 군집화 – k 평균 군집화
3. 통계적 추측
• 기본
 – 어떤 가설을 참이라고 가정
 – 일어날 가능성이 희박한 표본 평균값에 대한
   수준을 정함
 – 표본 자료를 통해 계산된 표본 평균이 그 수준
   을 벗어나면
 – 참이라고 가정한 그 가설은 기각
통계적 가설
•   귀무가설(H0) nullhypothesis
    – 일반적으로 인정하는 가설
    – 주장하고자 하는 가설의 반대
•   대립가설(H1) alternative hypothesis
    – 일반적으로 주장하고자 하는 가설
    – 귀무 가설의 반대 (대립)
•   결론적으로 귀무 가설을 기각시켜서 대립 가설을 주장하는 로직
•   결론 해석
    – 가설이 참이다 X
    – 가설을 기각할만한 충분한 이유가 없다 (O)
        •   유의 수준


•   1종 오류
    – 귀무가설이 진실임에도 불구하고 귀무가설을
      기각하고 대립가설을 채택하는 경우
•   2종 오류
    – 귀무가설이 진실이 아님에도 불구하고
      귀무가설을 채택하는 경우
통계적 절차
•   유의 수준, 귀무가설, 대립 가설 설정
•   검정 통계량 결정
•   기각역 결정
•   검정 통계량의 계산
•   통계적 의사 결정
질문/답
• 감사합니다

More Related Content

PPTX
Research methodology iii
PDF
Statistical significance
PPTX
R과 기초통계 : 02.기술통계-자료나타내기
PDF
13.상관과 회귀
PDF
05.확률
PPTX
R과 기초통계 : 01.자료다루기
PDF
R 기초 : R Basics
PDF
09.통계적가설검정
Research methodology iii
Statistical significance
R과 기초통계 : 02.기술통계-자료나타내기
13.상관과 회귀
05.확률
R과 기초통계 : 01.자료다루기
R 기초 : R Basics
09.통계적가설검정

Viewers also liked (20)

PDF
14.범주형자료분석
PDF
12.세표본 이상의 평균비교
PDF
11.두표본의 평균비교
PDF
00.통계학입문
PPTX
통계자료 분석을 위한 R
PPTX
사업예산실무 Intro 120530_prezi
PPTX
장아찌사업계획서(0623)
PPTX
창업론2조발표
PDF
고산 약속타운 사업계획서 임경수
PDF
뉴스젤리 메이킹스토리 1
PDF
마이크로소프트 클라우드 Erp 서비스 nav 2013 소개 비영리법인 및 공공산업
PDF
표본들의 분포
PPTX
신세계 마케팅전략 (No.1)(브랜딩제안)_뇌새김
PDF
뉴스젤리 메이킹 스토리 2
PDF
확률변수와 분포함수
PDF
공공데이터로 보는 사회문제_Full
PPTX
1[1].2.10알고리즘 분석
PPTX
기초 확률 관련
PPTX
단순선형회귀분석예제
PDF
왜 정보시스템 프로젝트는 실패하는가? (Why Information System Projects Fail?)
14.범주형자료분석
12.세표본 이상의 평균비교
11.두표본의 평균비교
00.통계학입문
통계자료 분석을 위한 R
사업예산실무 Intro 120530_prezi
장아찌사업계획서(0623)
창업론2조발표
고산 약속타운 사업계획서 임경수
뉴스젤리 메이킹스토리 1
마이크로소프트 클라우드 Erp 서비스 nav 2013 소개 비영리법인 및 공공산업
표본들의 분포
신세계 마케팅전략 (No.1)(브랜딩제안)_뇌새김
뉴스젤리 메이킹 스토리 2
확률변수와 분포함수
공공데이터로 보는 사회문제_Full
1[1].2.10알고리즘 분석
기초 확률 관련
단순선형회귀분석예제
왜 정보시스템 프로젝트는 실패하는가? (Why Information System Projects Fail?)
Ad

Similar to 11_통계 자료분석 입문 (20)

PPTX
Statistics Study for Computer Scientists
PDF
From maching learning to deep learning episode2
PDF
08.추정
PPTX
Mahout
PDF
03.기술통계 자료의 중심과 퍼진정도
PDF
Week5 data vis(2)
PPTX
연구학교 데이터분석
PPT
Spc개요
PPTX
제자리통계 0913
PDF
Crash Course on Graphical models
PDF
Head first statistics_summary_ch03
PDF
From maching learning to deep learning
PPTX
웹보메트릭스와 계량정보학06 1
PPTX
웹보메트릭스06 1
PPT
표집
PDF
02.자료다루기
PDF
딥러닝의 기본
PPTX
LLG Data Journalism Module3 Review
PDF
2.supervised learning
PPSX
데이터 분석 프로세스
Statistics Study for Computer Scientists
From maching learning to deep learning episode2
08.추정
Mahout
03.기술통계 자료의 중심과 퍼진정도
Week5 data vis(2)
연구학교 데이터분석
Spc개요
제자리통계 0913
Crash Course on Graphical models
Head first statistics_summary_ch03
From maching learning to deep learning
웹보메트릭스와 계량정보학06 1
웹보메트릭스06 1
표집
02.자료다루기
딥러닝의 기본
LLG Data Journalism Module3 Review
2.supervised learning
데이터 분석 프로세스
Ad

More from noerror (20)

PPTX
15_TextureAtlas
PPTX
11_웹서비스활용
PDF
NDC08_실시간비주얼그래프편집
PDF
NDC12_Lockless게임서버설계와구현
PPTX
KCGS11_실시간 피사계 심도 렌더링 개선 기법
PPTX
11_빠른 개발 가능한 레벨 편집 시스템
PPTX
11_SH를 이용한 실시간 투명 근사법
PDF
ICON08_게임 애니메이션 최적화 기법
PDF
08_Marching Cube Terrains
PDF
08_게임 물리 프로그래밍 가이드
PDF
08_플래시 맛보기
PDF
08_애니메이션고등학교 게임과 특강
PDF
08_Wxwidgets 소개
PDF
07_PhysX 강체물리 입문
PDF
07_스케일폼 소개
PDF
07_Visual Shader Editor
PDF
06_HDR 소개
PDF
06_게임엔진 활용팁
PDF
06_게임엔진구성
PDF
06_자동차물리입문(1)
15_TextureAtlas
11_웹서비스활용
NDC08_실시간비주얼그래프편집
NDC12_Lockless게임서버설계와구현
KCGS11_실시간 피사계 심도 렌더링 개선 기법
11_빠른 개발 가능한 레벨 편집 시스템
11_SH를 이용한 실시간 투명 근사법
ICON08_게임 애니메이션 최적화 기법
08_Marching Cube Terrains
08_게임 물리 프로그래밍 가이드
08_플래시 맛보기
08_애니메이션고등학교 게임과 특강
08_Wxwidgets 소개
07_PhysX 강체물리 입문
07_스케일폼 소개
07_Visual Shader Editor
06_HDR 소개
06_게임엔진 활용팁
06_게임엔진구성
06_자동차물리입문(1)

11_통계 자료분석 입문

  • 1. 통계, 자료분석 입문 김성익 noerror@softnette.com kasa발표자료 2011/06/25
  • 2. 개요 • 기초적인 통계, 자료분석 개념 정리 • Why – 게임 서비스 시 체계적이고 신속한 유저 대응 을 위한 시스템 구성 – 통계 및 자료 분석 개념 사용되고 있음 • VSM, PCA이용한 DXT, MOTION GRAPH등등 – 그냥 일반 상식으로
  • 3. 1. 통계 기본 개념들 • 어떻게 측정치가 실제 값이 되는가? • 기술통계, 추측통계 • 샘플링 • 대표 값 • 표준편차 • 주성분 분석 • 신뢰성, 타당성
  • 4. 통계적 추측 • 실제값 != 예측값 • 예측 값을 실제 값으로 만드는 마법
  • 5. 통계적 추측 • 실제값 = 예측값 + 오차
  • 6. 통계 • 기술 통계 – 모든 정보로 집단 특성 조사 – 센서스 census 전수조사 – 모집단의 특성이 다양하게 분포되는 경우 • 추측통계 – 모집단 가운데서 표본을 추출해서 모집단의 특성을 추측 – 샘플링
  • 7. 샘플링 • 설계 – 모집단 정의 – 샘플링 프레임 (목록, 기준) – 샘플링 방법 선택 • 확률적 샘플링 (순수 랜덤) – 단순 랜덤 샘플링 simple random sampling – 층화 샘플링 stratified sampling – 군집 샘플링 cluster sampling – 체계적 샘플링 systematic sampling • 비확률적 샘플링 (의도적으로 분류) – 편의 샘플링 convenience sampling – 판단 샘플링 judgement sampling – 쿼타 샘플링 quota sampling (vs cluster sampling) – 표본 수 결정 • 최대 허용 오차, 신뢰수준
  • 8. 대표값 • 모집단의 특성을 나타내는 값 – 평균 mean • 산술 평균 arithmetic mean – 중앙값 median • 데이터를 순서대로 나열한 데이터 중 가운데 값 (짝수면 가운데 두 수의 평균) – 최빈값 • 가장 많은 값
  • 9. 표준편차 • 평균으로는 데이터가 얼마나 흩어져 있는 지는 알 수 없다 • 표준 편차 (s) • 분산 (s2) – 값이 작으면 데이터는 평균 주변에 모이지만, 크면 평 균에서 크게 벗어나는 성질 – (자유도) • 변동계수 coefficient of variation : CV – 평균에 대한 상대적 분산도 – 표준편차를 평균으로 나눈 값
  • 10. 정규분포 • 히스토그램 histogram 확률 밀도 함수 probability density function – 데이터 수 증가, 폭이 좁아지면 • 정규분포 normal distribution – 종모양 – 중심극한정리 centeral limit theorem • 표본의 수가 많다면, 모집단의 실제 분포와 관계없이, 표본평균 의 표본분포는 정규분포를 따른다 • Lilliefores 검정 : 데이터가 정규분포를 따르는 지 검사
  • 11. 정규분포 • 정규분포는 다음의 특성을 가지고 있다
  • 12. 표준정규분포 • 즉, 평균과 표준 편차를 알면 데이터의 분 포도를 예측 할 수 있다
  • 13. 응용 예 • VSM variance shadow map • Chebyshev 부등식 이용 – 분산이용, occlusion 정도를 구함 http://www.punkuser.net/vsm/
  • 14. 주성분 분석 • 주성분 분석 principal component analysis • 고유값 eigenvalue • 의미 있는 개념의 수만큼 의미 있는 주성 분이 추출
  • 15. 주성분 분석 응용 예 • DXT 압축 알고리즘 – PCA축을 이용하여 블록의 두 지점 결정 – 각 픽셀은 두 점 사이의 블랜드 값 • 애니메이션 그래프 – 복잡한 모션을 특성 몇 개로 대표 – 모션 탐색 시 사용 http://www.slideshare.net/noerror/dxtcompression http://www.gdcvault.com/play/1705/Momentum-vs-Character
  • 16. 신뢰성 • 신뢰성 reliability 측정 – 재검사 – 반분법 • 내적 일관성 측정 – 측정값의 분산에서 실제 값의 분산이 차지하는 비율 – 크론바흐 알파 Cronbach’s alpha • 값이 클수록 신뢰성이 높다 – 신뢰성 있는 크론바하 알파는 얼마 이상 ??? 0.7 ??? Nunnally(1978)
  • 17. 타당성 • 타당성 Validity – 기준 타당성 – 내용 타당성 – 개념 타당성
  • 18. 2. 자료분석 • 모수 분석 / 비모수 분석 • 상관 관계 분석 • 로지스틱 회귀 분석 • 분산 분석 • 요인 분석 • 군집 분석
  • 19. 자료분석 • 모수 분석 parametric analysis – 모수(평균, 분산 등)를 이용하여 추측 – 자료가 정규 분포를 따른다 • 중심극한정리 • 비모수 분석 nonparametric analysis – 분포와 무관한 방법 – 도수 frequency, 부호 sign, 순위 rank 등의 통계량 으로 분석
  • 20. 상관 관계 분석 • 종속 변수(반응변수) Y와 독립변수(설명변수) X사이의 연관성을 파 악 • 연관도 측정 – 공분산 • 선형 관계 방향 유무 (관계 정도는 알 수 없음) – 상관 계수 • 표준화된 공분산 • 방향과 퍼진 정도
  • 21. 단순 회귀 분석 • 회귀분석 regression analysis – 다른 변수의 값이 어떻게 변할 것인지를 예측 • 두 변수 사이에 존재하는 상호의존 관계를 함 수 관계로 표현 – 모 회귀 방정식 population regression equation E(Yi) = α + β xi – 표본자료를 이용 α, β 를 추정 • 최소제곱법 least square method • 잔차 residual – 예측한 값과 측정한 값의 차이(오차, 개별성)
  • 22. 단순 회귀 분석 • 총변동 – SST = 회귀제곱합 SSR + 잔차제곱합 SSE • 결정계수(r2) coefficient of determination – SSR / SST = 1 – SSE / SST – 잔차가 작을 수록 결정계수가 커진다 – 결정계수 0.7 = 70%로 회귀식을 설명할 수 있 다 • 상관 계수(r) coefficient of correlation
  • 23. 단순 회귀 분석 • F 검점 – 회귀 모형을 사용할 것인지 검정 • F가 1보다 충분히 커야 한다 – F = MSR / MSE • MSR (mean square regression) <- 회귀변동 • MSE (mean square error) <- 평균 잔차변동 • 자유도 • t 검정 – 독립 변수와 종속 변수의 관계의 유의미성 • T값이 유의 값 보다 크다면 유의미 • 잔차 분석 residual analysis – 잔차가 서로 무관해야 함 (상관성 X) – 거빈 와트슨 통계량 Durbin-Watson statistic
  • 24. 다중 회귀 분석 • 한 개의 종속 변수와 여러 개의 독립변수의 관계를 분석 • 회귀 방정식 Yi = α + β1x1i + β2 x2i + .. + ei • 다중 공선성 multicollinearity – 독립 변수들 사이의 상호의존도가 높으면 회귀계 수의 부호가 바뀌거나 0에 가까운 값으로 나타남 – 분산확대인자 Variance inflation factor • 클수록 다중 공선성이 심하다 – 상관 관계가 높은 변수들 중 하나만 남기고 나머 지 변수들은 모형에서 제거
  • 25. 다중 회귀 분석 • 적합성 검정 – 전반 검정 – 부분 검정 • 다중 공선성 문제를 해결하기 위해 추가적인 검정 절차 필요 • 독립변수 각각의 회귀계수에 대해 유의성 검정
  • 26. 로지스틱 회귀 분석 • 자료가 두 그룹으로 나누어진 상황에서, 두 그룹이 구분되는 특성을 파악하여 다른 어떤 데이터가 어느 그룹에 속하는 지 예측 • 오즈 (odds) – 그룹 1에 속할 확률 / 그룹 2에 속할 확률 • 그룹 1에 속할 확률 p • 오즈 = p / (1-p) • 로그 오즈 – 오즈에 로그를 취한 값 – 로그오즈 = ln( p / (1-p) ) – 로지스틱 회귀 모형 = α + β1x1i + β2 x2i + .. • 로지스틱 회귀 방정식 – p = 1 / (1 + exp[ - (α + β1x1i + β2 x2i + ..) ] ) – 최대우도법 maximum likelihood method 으로 추정
  • 27. 분산 분석 • ANOVA analysis of variance – 두 개 이상으로 구성된 그룹의 평균을 비교하 는 목적의 분산 – 평균의 정확성 측정 • 단일 요일 분산 분석 one way ANOVA • 2요인 분산 분석 two way ANOVA
  • 28. 요인분석 • 측정 변수들의 상호 의존 관계를 나타낼 수 있도록 만드는 새로운 변수 • 탐색적 요인분석 확증적 요인분석 • 초기 요인 추출 – 주성분 분석 principal component analysis – 반복된 주성분 분석 iterated principal component – 최대우도법 maximum likelihood method • 요인 다이어그램 – 요익 적재값을 그래프를 그려서 시각화 • 요인 회전 factor rotation – 직교 회전 orthogonal rotation • 배리맥스 회전 varimax rotation – 사각 회전 oblique rotation • 비직교회전 non-orthogonal rotation
  • 29. 군집분석 • 데이터의 군집을 분류 • 프로파일 다이어그램 • 두 점간의 거리 – 유클리디안 거리 – 절대차이 • 두 군집간의 거리 – 중심 연결법, 단일 연결법, 완전 연결법, 평균 연 결법, … • 계층적 군집화 – 응집법, 분리법 비계층적 군집화 – k 평균 군집화
  • 30. 3. 통계적 추측 • 기본 – 어떤 가설을 참이라고 가정 – 일어날 가능성이 희박한 표본 평균값에 대한 수준을 정함 – 표본 자료를 통해 계산된 표본 평균이 그 수준 을 벗어나면 – 참이라고 가정한 그 가설은 기각
  • 31. 통계적 가설 • 귀무가설(H0) nullhypothesis – 일반적으로 인정하는 가설 – 주장하고자 하는 가설의 반대 • 대립가설(H1) alternative hypothesis – 일반적으로 주장하고자 하는 가설 – 귀무 가설의 반대 (대립) • 결론적으로 귀무 가설을 기각시켜서 대립 가설을 주장하는 로직 • 결론 해석 – 가설이 참이다 X – 가설을 기각할만한 충분한 이유가 없다 (O) • 유의 수준 • 1종 오류 – 귀무가설이 진실임에도 불구하고 귀무가설을 기각하고 대립가설을 채택하는 경우 • 2종 오류 – 귀무가설이 진실이 아님에도 불구하고 귀무가설을 채택하는 경우
  • 32. 통계적 절차 • 유의 수준, 귀무가설, 대립 가설 설정 • 검정 통계량 결정 • 기각역 결정 • 검정 통계량의 계산 • 통계적 의사 결정