5. 시계열 데이터의 구성 요소
추세(Trend)
장기간에 걸친 증가 / 감소 / 유지의 패턴
시간 t에 대한 추세함수 f(t)와 정상 확률 x(t)로 표현
추세함수 f(t)는 데이터의 증/감 방향을, 정상 확률 x(t)는 시간에 따른 변화폭 정
도로 보면 될듯
주기(Cycle)
시간 흐름에 따른 변동 패턴
추세는 장기적인 변화, 주기는 일정 주기로 순환
계절성(Seasonality)
단기적으로 특정 요인에 의해 나타나는 패턴
불규칙 변동(Random Variation)
시간 변화와 무관한 변동 성분
6. 시계열 데이터의 구분
정상 시계열(Stationary time-series) : 데이터의 통계적 특성(평균, 분산, ...)이 시간에
따라 변하는 경우
비정상 시계열 (Non-stationary time-series) : 데이터의 통계적 특성이 시간에 따라
변화하는 경우
7. Stationary 데이터의 분석
시계열 데이터 분석의 목적 : 시간과 무관하게 정확한 예측을 나타내는 것
Stationary한 시계열 데이터는 시간 추이와 무관하게 평균, 분산, 공분산이 일정하다
Non-stationary한 경우(오른쪽) : 위에서부터 평균 / 분산 / 공분산이 일정하지 않은
경우
10. Stationary한 데이터로의 변형 기법
- 계절성을 갖는 경우 : $y'_t=y_t-y_{t-m}$ m : season 주기
Transformation : 분산 폭이 커지는 데이터 - Log변환
11. 시계열 데이터의 추세 분석
AR(AutoRegression) - 자기회귀모형
feature가 하나인 경우 : 1차 자기회귀 모형(AR(1))
평균 , 분산 인 정규분포 모델로 해석
MA(Moving Average) - 이동평균모형
white noise의 선형 결합으로 현 시점의 데이터 표현
정상성에 대한 가정이 불필요하다
X =
t c + [ϕ X ] +
∑i=1 i t−i ϵ
X =
t aX +
t−1 c + ue(t)
aX +
t−1 c u
X =
t a −
t θ a
∑i=1 i t−i
12. 시계열 데이터의 추세 분석
ARIMA - 자기회귀 누적 이동평균 모형
ARIMA(p,d,q) 형태로 표현
p : AR 차수 / d : 정상화 시 차분 횟수 / q : MA 차수
d=0인 경우 : ARMA(p, q) - 정상성을 만족하는 경우
p=0인 경우 : IMA(d, q) - d회 차분 후 MA 모델로 변경
q=0인 경우 : ARI(p, d) - d회 차분 후 AR 모델로 변경
ACF/PACF : 자기상관함수 / 부분자기상관함수
시계열 모델 판단에 사용
참조 : https://stat-and-news-by-daragon9.tistory.com/45