본문 바로가기

Data Science/ADsP

<ADsP> 3.4 통계 분석 (2)

 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.

 ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요

 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.

 

 

4. 시계열 분석

 

* 시계열 자료

 - 시간의 흐름에 따라 일정한 간격으로 이들을 관찰하여 기록한 자료를 말한다. 즉, 시계열 자료란 시간과 더불어 관측된 자료로 이는 종단면 자료에 해당한다.

 - 시계열 데이터 분석 절차

  ① 시간 그래프 그리기 

  ② 추세와 계절성 제거 

  ③ 잔차 예측 

  ④ 잔차에 대한 모델 적합

  ⑤ 예측된 잔차에 추세와 계절성을 더하고 미래를 예측 

 

* 정상성

 - 평균이 일정하다 : 모든 시점에 대해 일정한 평균을 가진다. 평균이 일정하지 않은 시계열은 차분을 통해 정상화할 수 있다.

 - 분산이 일정하다 : 분산도 시점에 의존하지 않고 일정해야 한다. 분산이 일정하지 않을 경우 변환을 통해 정상화할 수 있다.

 - 공분산도 단지 시차에만 의존한다.

   ※ 차분이란 현시점 자료에서 전 시점자료를 빼는 것이다. 바로 전 시점의 자료를 빼는 일반차분과 계절성을 갖는 자료를 정상화하기위한 여러 시점 전의 자료를 빼는 계절차분이 있다.

 

 - 정상 시계열의 특징 : 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 갖는다. 정상 시계열은 항상 그 평균값으로 회귀하려는 경향이 있다.

 

* 시계열자료 분석방법

 - 이동평균법 : 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산하고, 이들의 추세를 파악하여 다음 기간을 예측하는 방법

 - 지수평활법 : 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하는 방법

 

* 시계열모형

 - 자기회귀 모형(AR모형) : p 시점 전의 자료가 현재 자료에 영향을 주는 모형

 - 이동평균 모형(MA모형) : 유한한 개수의 백색잡음의 결합으로 언제나 정상성을 만족한다.

 - 자기회귀누적이동평균 모형(ARIMA모형) : 비정상시계열 모형이나 차분이나 변환을 통해 AR모형이나 MA모형, 이 둘을 합친 ARMA모형으로 정상화 할 수 있다.

 - 분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

 

 

5. 다차원척도법

* 다차원척도법

 - 객체간 근접성을 시각화하는 통계기법

 - 데이터 속에 잠재해 있는 패턴이나 구조를 찾는 것이 목적이다.

 

* 다차원척도법 종류

 - 계량적 MDS(Metric MDS) : 데이터가 구간척도나 비율척도인 경우 활용

 - 비계량적 MDS(Nonmetric MDS) : 데이터가 순서척도인 경우 활용

 

6. 주성분 분석

* 주성분분석

 - 여러 변수들의 변량을 '주성분' 이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법

 - 목적 : 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소하여 데이터를 이해하기 쉽고 관리하기 쉽게 함.

 

* 주성분의 선택

 - 주성분분석의 결과에서 누적기여율이 85%이상이면 주성분의 수로 결정할 수 있다.

 - scree plot을 활용하여 고유값이 수평을 유지하기 전 단계로 주성분의 수를 선택한다

 

Scree Plot

 

 ※ 평균 고유값 방법 : 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 선택

 

 

 

 


 

 

 

참고

필자 취득 후기 및 공부 방법

 

비전공자 독학 후기 및 팁 (feat.20일합격)

안녕하세요 해리입니다.최근에 제가 ADsP를 취득했습니다!!짝짝짝👏👏👏ADsP(데이터분석준전문...

blog.naver.com

데이터에듀 홈페이지 및 기출복원

 

기출문제복원 – 데이터에듀(dataedu)

 

www.dataedu.kr

데이터 전문가 포럼 카페

 

데이터 전문가 포럼 : 네이버 카페

DAP, DAsP, SQLP, SQLD, ADP, ADsP, 빅데이터 분석 기사 자격증 취득 등 데이터 전문가 커뮤니티입니다.

cafe.naver.com

네이버 지식백과

 

시계열분석

[ 1. 개념 및 정의] 시계열(時系列)이란 한 사건 또는 여러 사건에 대하여 시간의 흐름에 따라 일정한 간격으로 이들을 관찰하여 기록한 자료를 말한다. 즉, 시계열 자료란 시간과 더불어 관측된

terms.naver.com

 

'Data Science > ADsP' 카테고리의 다른 글

<ADsP> 3.5 정형 데이터 마이닝 (2)  (0) 2020.11.11
<ADsP> 3.5 정형 데이터 마이닝 (1)  (0) 2020.11.08
<ADsP> 3.4 통계 분석 (1)  (0) 2020.11.01
<ADsP> 3.3 데이터 마트  (0) 2020.10.25
<ADsP> 3.2 R 프로그래밍 기초  (0) 2020.10.18