SlideShare a Scribd company logo
AI Open Lab 8기 - KaDa Lab
Kaggle 컴피티션을 통해 시계열 데이터 분석해보기
기초 이론 - 시계열 분석
시계열 데이터 : 시간의 흐름에 따라 관측된 데이터
시계열 자료의 종류 : 연속, 이산
시간의 경과에 따라 데이터가 변화하므로,
데이터 간 시차(time lag)가 중요한 역할
데이터 간 상관관계는 시차가 작을수록 그 영향이 커진다.
시계열 분석의 목적
시계열 시스템을 이해하고 제어한다 ( ex. 기후에 따른 전력 수요 예측 )
시계열 데이터의 패턴을 이용해 시점을 예측한다 ( ex. 과거 매출액을 통한 미래 매
출액 예측 )
시계열 데이터의 구성 요소
시계열 데이터의 구성 요소
추세(Trend)
장기간에 걸친 증가 / 감소 / 유지의 패턴
시간 t에 대한 추세함수 f(t)와 정상 확률 x(t)로 표현
추세함수 f(t)는 데이터의 증/감 방향을, 정상 확률 x(t)는 시간에 따른 변화폭 정
도로 보면 될듯
주기(Cycle)
시간 흐름에 따른 변동 패턴
추세는 장기적인 변화, 주기는 일정 주기로 순환
계절성(Seasonality)
단기적으로 특정 요인에 의해 나타나는 패턴
불규칙 변동(Random Variation)
시간 변화와 무관한 변동 성분
시계열 데이터의 구분
정상 시계열(Stationary time-series) : 데이터의 통계적 특성(평균, 분산, ...)이 시간에
따라 변하는 경우
비정상 시계열 (Non-stationary time-series) : 데이터의 통계적 특성이 시간에 따라
변화하는 경우
Stationary 데이터의 분석
시계열 데이터 분석의 목적 : 시간과 무관하게 정확한 예측을 나타내는 것
Stationary한 시계열 데이터는 시간 추이와 무관하게 평균, 분산, 공분산이 일정하다
Non-stationary한 경우(오른쪽) : 위에서부터 평균 / 분산 / 공분산이 일정하지 않은
경우
Analyzing Time Series Data
Stationary한 데이터로의 변형 기법
Differencing : 추세, 계절성을 갖는 데이터의 경우
y =
t
′
y −
t yt−1
Stationary한 데이터로의 변형 기법
- 계절성을 갖는 경우 : $y'_t=y_t-y_{t-m}$ m : season 주기
Transformation : 분산 폭이 커지는 데이터 - Log변환
시계열 데이터의 추세 분석
AR(AutoRegression) - 자기회귀모형
feature가 하나인 경우 : 1차 자기회귀 모형(AR(1))
평균 , 분산 인 정규분포 모델로 해석
MA(Moving Average) - 이동평균모형
white noise의 선형 결합으로 현 시점의 데이터 표현
정상성에 대한 가정이 불필요하다
X =
t c + [ϕ X ] +
∑i=1 i t−i ϵ
X =
t aX +
t−1 c + ue(t)
aX +
t−1 c u
X =
t a −
t θ a
∑i=1 i t−i
시계열 데이터의 추세 분석
ARIMA - 자기회귀 누적 이동평균 모형
ARIMA(p,d,q) 형태로 표현
p : AR 차수 / d : 정상화 시 차분 횟수 / q : MA 차수
d=0인 경우 : ARMA(p, q) - 정상성을 만족하는 경우
p=0인 경우 : IMA(d, q) - d회 차분 후 MA 모델로 변경
q=0인 경우 : ARI(p, d) - d회 차분 후 AR 모델로 변경
ACF/PACF : 자기상관함수 / 부분자기상관함수
시계열 모델 판단에 사용
참조 : https://stat-and-news-by-daragon9.tistory.com/45

More Related Content

PDF
[Week6] Getting started with R
PDF
시계열분석의 이해
PDF
시계열 분석의 이해와 활용
PDF
파이썬 데이터 분석 3종세트
PDF
Time series classification
PPTX
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
PDF
데이터분석과통계2 - 최재걸님
PDF
R_datamining
[Week6] Getting started with R
시계열분석의 이해
시계열 분석의 이해와 활용
파이썬 데이터 분석 3종세트
Time series classification
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
데이터분석과통계2 - 최재걸님
R_datamining

Similar to Analyzing Time Series Data (20)

PDF
2011 미니탭(Minitab) 교재(랜드코리아)
PPSX
데이터 분석 프로세스
PDF
Rdatamining
PDF
DSAC M2 #1
PDF
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
PDF
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
PDF
Facebook prophet
PDF
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
PDF
R을 이용한 데이터 분석
PDF
11_통계 자료분석 입문
PDF
데이터처리와 통계 기본 머신러닝
PDF
디미컨_2 Visualize this
PDF
주가_변화시점탐지(Change point Detection)
PDF
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)
PDF
분석6기 4조
PDF
R 스터디 첫번째
PDF
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
PDF
효율적 데이터 과학을 위한 7가지 팁
PPTX
Statistics Study for Computer Scientists
PPTX
R 프로그램의 이해와 활용 v1.1
2011 미니탭(Minitab) 교재(랜드코리아)
데이터 분석 프로세스
Rdatamining
DSAC M2 #1
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
Facebook prophet
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
R을 이용한 데이터 분석
11_통계 자료분석 입문
데이터처리와 통계 기본 머신러닝
디미컨_2 Visualize this
주가_변화시점탐지(Change point Detection)
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)
분석6기 4조
R 스터디 첫번째
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
효율적 데이터 과학을 위한 7가지 팁
Statistics Study for Computer Scientists
R 프로그램의 이해와 활용 v1.1
Ad

More from Je Hun Seo (13)

PDF
Semiconductor Fundamentals 4.2.
PDF
Semiconductor Fundamentals 4.1
PDF
Semiconductor Fundamentals 1.1
PDF
Semiconductor Fundamentals 3.4.
PDF
Semiconductor Fundamentals 3.3
PDF
Semiconductor Fundamentals 3.2
PDF
Semiconductor Fundamentals 3.1
PDF
Semiconductor Fundamentals 2.3
PDF
Semiconductor Fundamentals 2.2
PDF
Semiconductor Fundamentals 2.1.
PDF
Semiconductor Fundamentals 1.3
PDF
Semiconductor Fundamentals 1.2
PDF
DSAC M2 #2
Semiconductor Fundamentals 4.2.
Semiconductor Fundamentals 4.1
Semiconductor Fundamentals 1.1
Semiconductor Fundamentals 3.4.
Semiconductor Fundamentals 3.3
Semiconductor Fundamentals 3.2
Semiconductor Fundamentals 3.1
Semiconductor Fundamentals 2.3
Semiconductor Fundamentals 2.2
Semiconductor Fundamentals 2.1.
Semiconductor Fundamentals 1.3
Semiconductor Fundamentals 1.2
DSAC M2 #2
Ad

Analyzing Time Series Data

  • 1. AI Open Lab 8기 - KaDa Lab Kaggle 컴피티션을 통해 시계열 데이터 분석해보기
  • 2. 기초 이론 - 시계열 분석 시계열 데이터 : 시간의 흐름에 따라 관측된 데이터 시계열 자료의 종류 : 연속, 이산 시간의 경과에 따라 데이터가 변화하므로, 데이터 간 시차(time lag)가 중요한 역할 데이터 간 상관관계는 시차가 작을수록 그 영향이 커진다.
  • 3. 시계열 분석의 목적 시계열 시스템을 이해하고 제어한다 ( ex. 기후에 따른 전력 수요 예측 ) 시계열 데이터의 패턴을 이용해 시점을 예측한다 ( ex. 과거 매출액을 통한 미래 매 출액 예측 )
  • 5. 시계열 데이터의 구성 요소 추세(Trend) 장기간에 걸친 증가 / 감소 / 유지의 패턴 시간 t에 대한 추세함수 f(t)와 정상 확률 x(t)로 표현 추세함수 f(t)는 데이터의 증/감 방향을, 정상 확률 x(t)는 시간에 따른 변화폭 정 도로 보면 될듯 주기(Cycle) 시간 흐름에 따른 변동 패턴 추세는 장기적인 변화, 주기는 일정 주기로 순환 계절성(Seasonality) 단기적으로 특정 요인에 의해 나타나는 패턴 불규칙 변동(Random Variation) 시간 변화와 무관한 변동 성분
  • 6. 시계열 데이터의 구분 정상 시계열(Stationary time-series) : 데이터의 통계적 특성(평균, 분산, ...)이 시간에 따라 변하는 경우 비정상 시계열 (Non-stationary time-series) : 데이터의 통계적 특성이 시간에 따라 변화하는 경우
  • 7. Stationary 데이터의 분석 시계열 데이터 분석의 목적 : 시간과 무관하게 정확한 예측을 나타내는 것 Stationary한 시계열 데이터는 시간 추이와 무관하게 평균, 분산, 공분산이 일정하다 Non-stationary한 경우(오른쪽) : 위에서부터 평균 / 분산 / 공분산이 일정하지 않은 경우
  • 9. Stationary한 데이터로의 변형 기법 Differencing : 추세, 계절성을 갖는 데이터의 경우 y = t ′ y − t yt−1
  • 10. Stationary한 데이터로의 변형 기법 - 계절성을 갖는 경우 : $y'_t=y_t-y_{t-m}$ m : season 주기 Transformation : 분산 폭이 커지는 데이터 - Log변환
  • 11. 시계열 데이터의 추세 분석 AR(AutoRegression) - 자기회귀모형 feature가 하나인 경우 : 1차 자기회귀 모형(AR(1)) 평균 , 분산 인 정규분포 모델로 해석 MA(Moving Average) - 이동평균모형 white noise의 선형 결합으로 현 시점의 데이터 표현 정상성에 대한 가정이 불필요하다 X = t c + [ϕ X ] + ∑i=1 i t−i ϵ X = t aX + t−1 c + ue(t) aX + t−1 c u X = t a − t θ a ∑i=1 i t−i
  • 12. 시계열 데이터의 추세 분석 ARIMA - 자기회귀 누적 이동평균 모형 ARIMA(p,d,q) 형태로 표현 p : AR 차수 / d : 정상화 시 차분 횟수 / q : MA 차수 d=0인 경우 : ARMA(p, q) - 정상성을 만족하는 경우 p=0인 경우 : IMA(d, q) - d회 차분 후 MA 모델로 변경 q=0인 경우 : ARI(p, d) - d회 차분 후 AR 모델로 변경 ACF/PACF : 자기상관함수 / 부분자기상관함수 시계열 모델 판단에 사용 참조 : https://stat-and-news-by-daragon9.tistory.com/45