본문 바로가기

Data Science/ADsP

<ADsP> 3.4 통계 분석 (1)

 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.

 ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요.

 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.

 

 

1. 통계분석의 이해

* 통계

 - 집단현상에 대한 구체적인 양적기술을 반영하는 숫자이다. 특히 사회집단 또는 자연집단의 상황을 숫자로 나타낸 것이다.

 - 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 추출되지 못해서 생기는 오차

 - 표본편리 : 모수를 작거나 크게 추정하게 되는 오차 (확률화로 최소화하거나 제거가 가능하다.)

 - 비표본오차 : 표본 오차를 제외한 모든 오차로써 조사대상이 늘수록 증가하게 된다.  (ex. 부주의, 실수, 알 수 없는 원인 등) 

 

* 표본 추출 방법

 - 단순랜덤 추출법 : 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률이 동일하다.

 - 계통추출법 : 샘플을 나열하여 구간을 K개씩 나누고 각 구간의 매 k번째 항목을 추출하는 방법이다.

 - 집락추출법 : 군집을 구분하고 군집별로 단순랜덤 추출법을 수행하는 방법이다.

 - 층화추출법 : 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다.

 

* 측정방법

 - 질적척도 : 범주형자료로써 숫자들의 크기 차이가 계산되지 않는다.

   a. 명목척도 : 어느 집단에 속하는지 분류할 때 사용 (ex. 성별, 고향)

   b. 순서척도 : 서열관계를 관측할때 사용하는 척도 (ex. 학년, 만족도)

 - 양적척도 : 수치형자료로써 숫자들의 크기 차이를 계산할 수 있는 척도이다.

   a. 구간척도 : 등간척도라고도 하며, 간격이 의미가 있는 자료이다. (온도, 지수)

   b. 비율척도 : 절대적 기준인 0이 존재하고 사칙연산이 가능한 가장 많은 정보를 가지는 척도이다. (ex. 무게, 나이, 시간, 거리)

 

* 이산형 확률변수

 - 0이 아닌 확률값을 갖는 확률 변수를 셀 수 있는 경우이며 확률질량함수이다.

 

 

 - 예) 주사위를 던져서 짝수가 나오는 경우.

 - 종류 : 베르누이 확률분포, 이항분포, 기하분포, 다항분포, 포아송분포

 

* 연속형 확률변수

 - 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수로써 확률밀도함수이다.

 - 종류 : 균일분포, 정규분포, 지수분포, t-분포, 카이제곱분포, F-분포

 - 지수분포 : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포

 - t분포 : 표준정규분포와 간티 평균이 0을 중심으로 좌우동일. 두 집단의 평균이 동일한지 알고자 할 때 활용 (자유도 = n-1)

 - 카이제곱분포 : 모분산에 대한 가설 검정에 사용되는 분포이다.

 - F-분포 : 분산 검정에서 분포를 활용한 검증에 사용되며 두 집단간 분산의 동일성 검정에 사용된다.

 

* 추정과 가설설정

 - 점추정 : 모수가 특정한 값일 것이라고 추정하는 것

 - 구간추정 : 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언하는 것. 구간안에 반드시 모수가 있지는 않으므로 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)가 주어져야 한다.

 

 - 귀무가설(H0) : 비교하는 값과 차이가 없다, 동일하다를 기본개념으로 하는 가설이며 기각이 목표이다.

 - 대립가설(H1) : 뚜렷한 증거가 있을 때 주장하는 가설

 - 유의수준(a) : 귀무가설이 옳은데도 이를 기각하는 확률의 크기

 - 제 1종 오류 : 귀무가설H0가 옳은데도 귀무가설을 기각하게 되는 오류

 - 제 2종 오류 : 귀무가설H0가 옳지 않은데도 귀무가설을 채택하게 되는 오류

 

* 비모수 검정

 - 모수적 방법 : 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 분포를 유도해 검정을 실시

  관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시

 - 비모수적 방법 : 추출된 모집단의 분포에 대한 아무 제약없이 검정을 실시. 특정분포를 따른다고 가정할 수 없는 경우에 이용

  관측값들의 순위나 관측값 차이의 부호 등을 이용해 검정

 

2. 기초 통계분석

* 기술통계

 - 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리하는 것이다.

 

* 상관분석

 - 두 변수 간의 관계의 정도를 알아보기 위한 분석 방법이다.

 - 상관계수 r이 -1에 가까울수록 음의 상관이, +1에 가까울수록 양의 상관이 존재한다. 선형성과는 무관하지만 1이나 -1에 매우 가까우면 어느정도 선형관계가 있음을 유추할 수 있다. r이 0이면 상관관계가 존재하지 않는다.

 

* 상관분석의 유형

 - 피어슨 : 등간척도 이상으로 측정된 두 변수들의 상관관계 측정하며, 연속형 변수에 주로 사용한다.

 - 스피어만 : 서열척도인 두 변수들의 상관관계를 측정하며, 순서형변수, 비모수적 방법, 순위등을 기준으로 측정한다.

 

3. 회귀분석

* 회귀분석의 가정

 - 선형성 : 입력변수와 출력변수의 관계가 선형이다.

 - 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다.

 - 독립성 : 입력변수와 오차는 관련이 없다. (Durbin-Waston 통계량 사용)

 - 비상관성 : 오차들끼리 상관이 없다.

 - 정상성(정규성) : 오차의 분포가 정규분포를 따른다. (Q-Q plot, Kolmogolov-smirnov검정, Shaprio-Wilk 검정 등을 활용하여 확인)

 

* 단순선형회귀분석

 - 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법

 

 

 - 회귀계수의 유의성 : 해당 계수의 t 통계량의 p 값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의하다고 볼 수 있다. 

 - 모형의 설명력 : 결정계수(R^2)을 확인하며, 결정계수는 0~1의 값을 가진다. 높은 값을 가질수록 설명력이 높다.

 - 회귀계수의 추정(최소제곱법) : 측정값을 기초로 제곱합을 만들어 그것을 최소로 하는 값을 구하는 방법으로 잔차제곱이 가장 작은 선을 구하는 것을 의미한다.

 

 

 - 결정계수는 전체제곱합에서 회귀제곱합의 비율(SSR/SST) 이다. (SST=SSR+SSE)

 - 다변량 회귀분석에서는 독립변수의 수가 많아지면서 유의성과 관계없이 결정계수가 높아진다는 단점이 있으므로 수정된 결정계수를 사용한다.(adjusted R^2)

 

* 교차분석

 - 2개 이상의 범주형 변수를 결합하여 자료의 빈도를 분석

 - 독립성 검정 가능

 - 기대빈도 5미만 셀이 20% 이상이면 카이제곱분포에 근사하지 못하므로 표본크기를 늘리거나 변수수준을 합쳐서 셀의 수를 줄여야한다.

 

* 최적회귀방정식

 - 설명변수 선택 : 필요한 변수만 상황에 따라 타협을 통해 선택

 - 모형선택 : 모든 가능한 조합의 회귀분석을 생성하여 가장 적합한 회귀모형을 선택

 - 전진선택법 : 절편만 있는 상수모형으로부터 시작하여 중요하다고 생각되는 설명변수부터 차례로 모형에 추가

 - 후진제거법 : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거

 - 단계선택법 : 전진선택법에 의해 변수를 추가하면서 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 추가와 제거를 반복

 

* lasso 회귀모형

 - 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 패널티를 부여

 - 자동적으로 변수가 선택됨.

 - Lamda 값으로 panalty의 정도를 조정함

 - L1 panalty를 사용함

 

 

 

 

 


 

 

 

참고

필자 취득 후기 및 공부 방법

 

비전공자 독학 후기 및 팁 (feat.20일합격)

안녕하세요 해리입니다.최근에 제가 ADsP를 취득했습니다!!짝짝짝👏👏👏ADsP(데이터분석준전문...

blog.naver.com

데이터에듀 홈페이지 및 기출복원

 

기출문제복원 – 데이터에듀(dataedu)

 

www.dataedu.kr

데이터 전문가 포럼 카페

 

데이터 전문가 포럼 : 네이버 카페

DAP, DAsP, SQLP, SQLD, ADP, ADsP, 빅데이터 분석 기사 자격증 취득 등 데이터 전문가 커뮤니티입니다.

cafe.naver.com

두산백과

 

통계

집단현상에 대한 구체적인 양적 기술을 반영하는 숫자. 특히 사회집단 또는 자연집단의 상황을 숫자로 나타낸 것이다. 예를 들어 서울 인구의 생계비, 한국 쌀 생산량의 추이, 추출검사한 제품

terms.naver.com

 

'Data Science > ADsP' 카테고리의 다른 글

<ADsP> 3.5 정형 데이터 마이닝 (1)  (0) 2020.11.08
<ADsP> 3.4 통계 분석 (2)  (0) 2020.11.04
<ADsP> 3.3 데이터 마트  (0) 2020.10.25
<ADsP> 3.2 R 프로그래밍 기초  (0) 2020.10.18
<ADsP> 3.1 데이터 분석 개요  (0) 2020.10.11