이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.
ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요.
데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.
4. 시계열 분석
* 시계열 자료
- 시간의 흐름에 따라 일정한 간격으로 이들을 관찰하여 기록한 자료를 말한다. 즉, 시계열 자료란 시간과 더불어 관측된 자료로 이는 종단면 자료에 해당한다.
- 시계열 데이터 분석 절차
① 시간 그래프 그리기
② 추세와 계절성 제거
③ 잔차 예측
④ 잔차에 대한 모델 적합
⑤ 예측된 잔차에 추세와 계절성을 더하고 미래를 예측
* 정상성
- 평균이 일정하다 : 모든 시점에 대해 일정한 평균을 가진다. 평균이 일정하지 않은 시계열은 차분을 통해 정상화할 수 있다.
- 분산이 일정하다 : 분산도 시점에 의존하지 않고 일정해야 한다. 분산이 일정하지 않을 경우 변환을 통해 정상화할 수 있다.
- 공분산도 단지 시차에만 의존한다.
※ 차분이란 현시점 자료에서 전 시점자료를 빼는 것이다. 바로 전 시점의 자료를 빼는 일반차분과 계절성을 갖는 자료를 정상화하기위한 여러 시점 전의 자료를 빼는 계절차분이 있다.
- 정상 시계열의 특징 : 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 갖는다. 정상 시계열은 항상 그 평균값으로 회귀하려는 경향이 있다.
* 시계열자료 분석방법
- 이동평균법 : 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산하고, 이들의 추세를 파악하여 다음 기간을 예측하는 방법
- 지수평활법 : 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하는 방법
* 시계열모형
- 자기회귀 모형(AR모형) : p 시점 전의 자료가 현재 자료에 영향을 주는 모형
- 이동평균 모형(MA모형) : 유한한 개수의 백색잡음의 결합으로 언제나 정상성을 만족한다.
- 자기회귀누적이동평균 모형(ARIMA모형) : 비정상시계열 모형이나 차분이나 변환을 통해 AR모형이나 MA모형, 이 둘을 합친 ARMA모형으로 정상화 할 수 있다.
- 분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
5. 다차원척도법
* 다차원척도법
- 객체간 근접성을 시각화하는 통계기법
- 데이터 속에 잠재해 있는 패턴이나 구조를 찾는 것이 목적이다.
* 다차원척도법 종류
- 계량적 MDS(Metric MDS) : 데이터가 구간척도나 비율척도인 경우 활용
- 비계량적 MDS(Nonmetric MDS) : 데이터가 순서척도인 경우 활용
6. 주성분 분석
* 주성분분석
- 여러 변수들의 변량을 '주성분' 이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
- 목적 : 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소하여 데이터를 이해하기 쉽고 관리하기 쉽게 함.
* 주성분의 선택
- 주성분분석의 결과에서 누적기여율이 85%이상이면 주성분의 수로 결정할 수 있다.
- scree plot을 활용하여 고유값이 수평을 유지하기 전 단계로 주성분의 수를 선택한다
※ 평균 고유값 방법 : 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 선택
참고
필자 취득 후기 및 공부 방법
비전공자 독학 후기 및 팁 (feat.20일합격)
안녕하세요 해리입니다.최근에 제가 ADsP를 취득했습니다!!짝짝짝👏👏👏ADsP(데이터분석준전문...
blog.naver.com
데이터에듀 홈페이지 및 기출복원
기출문제복원 – 데이터에듀(dataedu)
www.dataedu.kr
데이터 전문가 포럼 카페
데이터 전문가 포럼 : 네이버 카페
DAP, DAsP, SQLP, SQLD, ADP, ADsP, 빅데이터 분석 기사 자격증 취득 등 데이터 전문가 커뮤니티입니다.
cafe.naver.com
네이버 지식백과
시계열분석
[ 1. 개념 및 정의] 시계열(時系列)이란 한 사건 또는 여러 사건에 대하여 시간의 흐름에 따라 일정한 간격으로 이들을 관찰하여 기록한 자료를 말한다. 즉, 시계열 자료란 시간과 더불어 관측된
terms.naver.com
'Data Science > ADsP' 카테고리의 다른 글
<ADsP> 3.5 정형 데이터 마이닝 (2) (0) | 2020.11.11 |
---|---|
<ADsP> 3.5 정형 데이터 마이닝 (1) (0) | 2020.11.08 |
<ADsP> 3.4 통계 분석 (1) (0) | 2020.11.01 |
<ADsP> 3.3 데이터 마트 (0) | 2020.10.25 |
<ADsP> 3.2 R 프로그래밍 기초 (0) | 2020.10.18 |