이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.
ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요.
데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.
1. 통계분석의 이해
* 통계
- 집단현상에 대한 구체적인 양적기술을 반영하는 숫자이다. 특히 사회집단 또는 자연집단의 상황을 숫자로 나타낸 것이다.
- 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 추출되지 못해서 생기는 오차
- 표본편리 : 모수를 작거나 크게 추정하게 되는 오차 (확률화로 최소화하거나 제거가 가능하다.)
- 비표본오차 : 표본 오차를 제외한 모든 오차로써 조사대상이 늘수록 증가하게 된다. (ex. 부주의, 실수, 알 수 없는 원인 등)
* 표본 추출 방법
- 단순랜덤 추출법 : 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률이 동일하다.
- 계통추출법 : 샘플을 나열하여 구간을 K개씩 나누고 각 구간의 매 k번째 항목을 추출하는 방법이다.
- 집락추출법 : 군집을 구분하고 군집별로 단순랜덤 추출법을 수행하는 방법이다.
- 층화추출법 : 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다.
* 측정방법
- 질적척도 : 범주형자료로써 숫자들의 크기 차이가 계산되지 않는다.
a. 명목척도 : 어느 집단에 속하는지 분류할 때 사용 (ex. 성별, 고향)
b. 순서척도 : 서열관계를 관측할때 사용하는 척도 (ex. 학년, 만족도)
- 양적척도 : 수치형자료로써 숫자들의 크기 차이를 계산할 수 있는 척도이다.
a. 구간척도 : 등간척도라고도 하며, 간격이 의미가 있는 자료이다. (온도, 지수)
b. 비율척도 : 절대적 기준인 0이 존재하고 사칙연산이 가능한 가장 많은 정보를 가지는 척도이다. (ex. 무게, 나이, 시간, 거리)
* 이산형 확률변수
- 0이 아닌 확률값을 갖는 확률 변수를 셀 수 있는 경우이며 확률질량함수이다.
- 예) 주사위를 던져서 짝수가 나오는 경우.
- 종류 : 베르누이 확률분포, 이항분포, 기하분포, 다항분포, 포아송분포
* 연속형 확률변수
- 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수로써 확률밀도함수이다.
- 종류 : 균일분포, 정규분포, 지수분포, t-분포, 카이제곱분포, F-분포
- 지수분포 : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포
- t분포 : 표준정규분포와 간티 평균이 0을 중심으로 좌우동일. 두 집단의 평균이 동일한지 알고자 할 때 활용 (자유도 = n-1)
- 카이제곱분포 : 모분산에 대한 가설 검정에 사용되는 분포이다.
- F-분포 : 분산 검정에서 분포를 활용한 검증에 사용되며 두 집단간 분산의 동일성 검정에 사용된다.
* 추정과 가설설정
- 점추정 : 모수가 특정한 값일 것이라고 추정하는 것
- 구간추정 : 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언하는 것. 구간안에 반드시 모수가 있지는 않으므로 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)가 주어져야 한다.
- 귀무가설(H0) : 비교하는 값과 차이가 없다, 동일하다를 기본개념으로 하는 가설이며 기각이 목표이다.
- 대립가설(H1) : 뚜렷한 증거가 있을 때 주장하는 가설
- 유의수준(a) : 귀무가설이 옳은데도 이를 기각하는 확률의 크기
- 제 1종 오류 : 귀무가설H0가 옳은데도 귀무가설을 기각하게 되는 오류
- 제 2종 오류 : 귀무가설H0가 옳지 않은데도 귀무가설을 채택하게 되는 오류
* 비모수 검정
- 모수적 방법 : 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 분포를 유도해 검정을 실시
관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시
- 비모수적 방법 : 추출된 모집단의 분포에 대한 아무 제약없이 검정을 실시. 특정분포를 따른다고 가정할 수 없는 경우에 이용
관측값들의 순위나 관측값 차이의 부호 등을 이용해 검정
2. 기초 통계분석
* 기술통계
- 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리하는 것이다.
* 상관분석
- 두 변수 간의 관계의 정도를 알아보기 위한 분석 방법이다.
- 상관계수 r이 -1에 가까울수록 음의 상관이, +1에 가까울수록 양의 상관이 존재한다. 선형성과는 무관하지만 1이나 -1에 매우 가까우면 어느정도 선형관계가 있음을 유추할 수 있다. r이 0이면 상관관계가 존재하지 않는다.
* 상관분석의 유형
- 피어슨 : 등간척도 이상으로 측정된 두 변수들의 상관관계 측정하며, 연속형 변수에 주로 사용한다.
- 스피어만 : 서열척도인 두 변수들의 상관관계를 측정하며, 순서형변수, 비모수적 방법, 순위등을 기준으로 측정한다.
3. 회귀분석
* 회귀분석의 가정
- 선형성 : 입력변수와 출력변수의 관계가 선형이다.
- 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다.
- 독립성 : 입력변수와 오차는 관련이 없다. (Durbin-Waston 통계량 사용)
- 비상관성 : 오차들끼리 상관이 없다.
- 정상성(정규성) : 오차의 분포가 정규분포를 따른다. (Q-Q plot, Kolmogolov-smirnov검정, Shaprio-Wilk 검정 등을 활용하여 확인)
* 단순선형회귀분석
- 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법
- 회귀계수의 유의성 : 해당 계수의 t 통계량의 p 값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의하다고 볼 수 있다.
- 모형의 설명력 : 결정계수(R^2)을 확인하며, 결정계수는 0~1의 값을 가진다. 높은 값을 가질수록 설명력이 높다.
- 회귀계수의 추정(최소제곱법) : 측정값을 기초로 제곱합을 만들어 그것을 최소로 하는 값을 구하는 방법으로 잔차제곱이 가장 작은 선을 구하는 것을 의미한다.
- 결정계수는 전체제곱합에서 회귀제곱합의 비율(SSR/SST) 이다. (SST=SSR+SSE)
- 다변량 회귀분석에서는 독립변수의 수가 많아지면서 유의성과 관계없이 결정계수가 높아진다는 단점이 있으므로 수정된 결정계수를 사용한다.(adjusted R^2)
* 교차분석
- 2개 이상의 범주형 변수를 결합하여 자료의 빈도를 분석
- 독립성 검정 가능
- 기대빈도 5미만 셀이 20% 이상이면 카이제곱분포에 근사하지 못하므로 표본크기를 늘리거나 변수수준을 합쳐서 셀의 수를 줄여야한다.
* 최적회귀방정식
- 설명변수 선택 : 필요한 변수만 상황에 따라 타협을 통해 선택
- 모형선택 : 모든 가능한 조합의 회귀분석을 생성하여 가장 적합한 회귀모형을 선택
- 전진선택법 : 절편만 있는 상수모형으로부터 시작하여 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
- 후진제거법 : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거
- 단계선택법 : 전진선택법에 의해 변수를 추가하면서 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 추가와 제거를 반복
* lasso 회귀모형
- 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 패널티를 부여
- 자동적으로 변수가 선택됨.
- Lamda 값으로 panalty의 정도를 조정함
- L1 panalty를 사용함
참고
필자 취득 후기 및 공부 방법
데이터에듀 홈페이지 및 기출복원
데이터 전문가 포럼 카페
두산백과
'Data Science > ADsP' 카테고리의 다른 글
<ADsP> 3.5 정형 데이터 마이닝 (1) (0) | 2020.11.08 |
---|---|
<ADsP> 3.4 통계 분석 (2) (0) | 2020.11.04 |
<ADsP> 3.3 데이터 마트 (0) | 2020.10.25 |
<ADsP> 3.2 R 프로그래밍 기초 (0) | 2020.10.18 |
<ADsP> 3.1 데이터 분석 개요 (0) | 2020.10.11 |