11_통계 자료분석 입문

통계, 자료분석 입문

김성익
noerror@softnette.com

kasa발표자료
2011/06/25

개요
• 기초적인 통계, 자료분석 개념 정리

• Why
– 게임 서비스 시 체계적이고 신속한 유저 대응
을 위한 시스템 구성
– 통계 및 자료 분석 개념 사용되고 있음
• VSM, PCA이용한 DXT, MOTION GRAPH등등
– 그냥 일반 상식으로

1. 통계 기본 개념들
• 어떻게 측정치가 실제 값이 되는가?
• 기술통계, 추측통계
• 샘플링
• 대표 값
• 표준편차
• 주성분 분석
• 신뢰성, 타당성

통계적 추측
• 실제값 != 예측값
• 예측 값을 실제 값으로 만드는 마법

통계적 추측
• 실제값 = 예측값 + 오차

통계
• 기술 통계
– 모든 정보로 집단 특성 조사
– 센서스 census 전수조사
– 모집단의 특성이 다양하게 분포되는 경우
• 추측통계
– 모집단 가운데서 표본을 추출해서 모집단의
특성을 추측
– 샘플링

샘플링
• 설계
– 모집단 정의
– 샘플링 프레임 (목록, 기준)
– 샘플링 방법 선택
• 확률적 샘플링 (순수 랜덤)
– 단순 랜덤 샘플링 simple random sampling
– 층화 샘플링 stratified sampling
– 군집 샘플링 cluster sampling
– 체계적 샘플링 systematic sampling
• 비확률적 샘플링 (의도적으로 분류)
– 편의 샘플링 convenience sampling
– 판단 샘플링 judgement sampling
– 쿼타 샘플링 quota sampling (vs cluster sampling)
– 표본 수 결정
• 최대 허용 오차, 신뢰수준

대표값
• 모집단의 특성을 나타내는 값
– 평균 mean
• 산술 평균 arithmetic mean

– 중앙값 median
• 데이터를 순서대로 나열한 데이터 중 가운데 값
(짝수면 가운데 두 수의 평균)
– 최빈값
• 가장 많은 값

표준편차
• 평균으로는 데이터가 얼마나 흩어져 있는 지는 알
수 없다
• 표준 편차 (s)
• 분산 (s2)

– 값이 작으면 데이터는 평균 주변에 모이지만, 크면 평
균에서 크게 벗어나는 성질
– (자유도)
• 변동계수 coefficient of variation : CV
– 평균에 대한 상대적 분산도
– 표준편차를 평균으로 나눈 값

정규분포
• 히스토그램 histogram
확률 밀도 함수 probability density function
– 데이터 수 증가, 폭이 좁아지면

• 정규분포 normal distribution
– 종모양
– 중심극한정리 centeral limit theorem
• 표본의 수가 많다면, 모집단의 실제 분포와 관계없이, 표본평균
의 표본분포는 정규분포를 따른다
• Lilliefores 검정 : 데이터가 정규분포를 따르는 지 검사

정규분포
• 정규분포는 다음의 특성을 가지고 있다

표준정규분포
• 즉, 평균과 표준 편차를 알면 데이터의 분
포도를 예측 할 수 있다

응용 예
• VSM variance shadow map

• Chebyshev 부등식 이용
– 분산이용, occlusion 정도를 구함

http://www.punkuser.net/vsm/

주성분 분석
• 주성분 분석 principal component analysis
• 고유값 eigenvalue

• 의미 있는 개념의 수만큼 의미 있는 주성
분이 추출

주성분 분석 응용 예
• DXT 압축 알고리즘
– PCA축을 이용하여 블록의 두 지점 결정
– 각 픽셀은 두 점 사이의 블랜드 값
• 애니메이션 그래프
– 복잡한 모션을 특성 몇 개로 대표
– 모션 탐색 시 사용

http://www.slideshare.net/noerror/dxtcompression
http://www.gdcvault.com/play/1705/Momentum-vs-Character

신뢰성
• 신뢰성 reliability 측정
– 재검사
– 반분법
• 내적 일관성 측정
– 측정값의 분산에서 실제 값의 분산이 차지하는 비율
– 크론바흐 알파 Cronbach’s alpha

• 값이 클수록 신뢰성이 높다
– 신뢰성 있는 크론바하 알파는 얼마 이상 ???
0.7 ??? Nunnally(1978)

타당성
• 타당성 Validity

– 기준 타당성
– 내용 타당성
– 개념 타당성

2. 자료분석
• 모수 분석 / 비모수 분석
• 상관 관계 분석
• 로지스틱 회귀 분석
• 분산 분석
• 요인 분석
• 군집 분석

자료분석
• 모수 분석 parametric analysis

– 모수(평균, 분산 등)를 이용하여 추측
– 자료가 정규 분포를 따른다
• 중심극한정리
• 비모수 분석 nonparametric analysis

– 분포와 무관한 방법
– 도수 frequency, 부호 sign, 순위 rank 등의 통계량
으로 분석

상관 관계 분석
• 종속 변수(반응변수) Y와 독립변수(설명변수) X사이의 연관성을 파
악
• 연관도 측정
– 공분산
• 선형 관계 방향 유무 (관계 정도는 알 수 없음)
– 상관 계수
• 표준화된 공분산
• 방향과 퍼진 정도

단순 회귀 분석
• 회귀분석 regression analysis
– 다른 변수의 값이 어떻게 변할 것인지를 예측
• 두 변수 사이에 존재하는 상호의존 관계를 함
수 관계로 표현
– 모 회귀 방정식 population regression equation
E(Yi) = α + β xi
– 표본자료를 이용 α, β 를 추정
• 최소제곱법 least square method

• 잔차 residual
– 예측한 값과 측정한 값의 차이(오차, 개별성)

• 총변동
– SST = 회귀제곱합 SSR + 잔차제곱합 SSE
• 결정계수(r2) coefficient of determination

– SSR / SST = 1 – SSE / SST
– 잔차가 작을 수록 결정계수가 커진다
– 결정계수 0.7 = 70%로 회귀식을 설명할 수 있
다
• 상관 계수(r) coefficient of correlation

• F 검점
– 회귀 모형을 사용할 것인지 검정
• F가 1보다 충분히 커야 한다
– F = MSR / MSE
• MSR (mean square regression) <- 회귀변동
• MSE (mean square error) <- 평균 잔차변동
• 자유도
• t 검정
– 독립 변수와 종속 변수의 관계의 유의미성
• T값이 유의 값 보다 크다면 유의미
• 잔차 분석 residual analysis
– 잔차가 서로 무관해야 함 (상관성 X)
– 거빈 와트슨 통계량 Durbin-Watson statistic

다중 회귀 분석
• 한 개의 종속 변수와 여러 개의 독립변수의
관계를 분석
• 회귀 방정식
Yi = α + β1x1i + β2 x2i + .. + ei
• 다중 공선성 multicollinearity
– 독립 변수들 사이의 상호의존도가 높으면 회귀계
수의 부호가 바뀌거나 0에 가까운 값으로 나타남
– 분산확대인자 Variance inflation factor
• 클수록 다중 공선성이 심하다
– 상관 관계가 높은 변수들 중 하나만 남기고 나머
지 변수들은 모형에서 제거

다중 회귀 분석
• 적합성 검정
– 전반 검정
– 부분 검정
• 다중 공선성 문제를 해결하기 위해 추가적인 검정
절차 필요
• 독립변수 각각의 회귀계수에 대해 유의성 검정

로지스틱 회귀 분석
• 자료가 두 그룹으로 나누어진 상황에서, 두 그룹이 구분되는
특성을 파악하여 다른 어떤 데이터가 어느 그룹에 속하는 지
예측
• 오즈 (odds)
– 그룹 1에 속할 확률 / 그룹 2에 속할 확률
• 그룹 1에 속할 확률 p
• 오즈 = p / (1-p)
• 로그 오즈
– 오즈에 로그를 취한 값
– 로그오즈 = ln( p / (1-p) )
– 로지스틱 회귀 모형 = α + β1x1i + β2 x2i + ..
• 로지스틱 회귀 방정식
– p = 1 / (1 + exp[ - (α + β1x1i + β2 x2i + ..) ] )
– 최대우도법 maximum likelihood method 으로 추정

분산 분석
• ANOVA analysis of variance
– 두 개 이상으로 구성된 그룹의 평균을 비교하
는 목적의 분산
– 평균의 정확성 측정
• 단일 요일 분산 분석 one way ANOVA
• 2요인 분산 분석 two way ANOVA

요인분석
• 측정 변수들의 상호 의존 관계를 나타낼 수 있도록 만드는 새로운
변수
• 탐색적 요인분석
확증적 요인분석
• 초기 요인 추출
– 주성분 분석 principal component analysis
– 반복된 주성분 분석 iterated principal component
– 최대우도법 maximum likelihood method
• 요인 다이어그램
– 요익 적재값을 그래프를 그려서 시각화
• 요인 회전 factor rotation
– 직교 회전 orthogonal rotation
• 배리맥스 회전 varimax rotation
– 사각 회전 oblique rotation
• 비직교회전 non-orthogonal rotation

군집분석
• 데이터의 군집을 분류
• 프로파일 다이어그램
• 두 점간의 거리
– 유클리디안 거리
– 절대차이
• 두 군집간의 거리
– 중심 연결법, 단일 연결법, 완전 연결법, 평균 연
결법, …
• 계층적 군집화 – 응집법, 분리법
비계층적 군집화 – k 평균 군집화

3. 통계적 추측
• 기본
– 어떤 가설을 참이라고 가정
– 일어날 가능성이 희박한 표본 평균값에 대한
수준을 정함
– 표본 자료를 통해 계산된 표본 평균이 그 수준
을 벗어나면
– 참이라고 가정한 그 가설은 기각

통계적 가설
• 귀무가설(H0) nullhypothesis
– 일반적으로 인정하는 가설
– 주장하고자 하는 가설의 반대
• 대립가설(H1) alternative hypothesis
– 일반적으로 주장하고자 하는 가설
– 귀무 가설의 반대 (대립)
• 결론적으로 귀무 가설을 기각시켜서 대립 가설을 주장하는 로직
• 결론 해석
– 가설이 참이다 X
– 가설을 기각할만한 충분한 이유가 없다 (O)
• 유의 수준

• 1종 오류
– 귀무가설이 진실임에도 불구하고 귀무가설을
기각하고 대립가설을 채택하는 경우
• 2종 오류
– 귀무가설이 진실이 아님에도 불구하고
귀무가설을 채택하는 경우

통계적 절차
• 유의 수준, 귀무가설, 대립 가설 설정
• 검정 통계량 결정
• 기각역 결정
• 검정 통계량의 계산
• 통계적 의사 결정

질문/답
• 감사합니다

11_통계 자료분석 입문

More Related Content

Viewers also liked (20)

Similar to 11_통계 자료분석 입문 (20)

More from noerror (20)

11_통계 자료분석 입문