본문 바로가기

Data Science/ADsP

<ADsP> 3.3 데이터 마트

 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.

 ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요

 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.

 

 

1. 데이터 변경 및 요약

* 데이터 마트 개발

 - 데이터 마트 : 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 볼 수 있음.

 - 요약변수 : 수집된 정보를 분석에 맞게 종합한 변수

 - 파생변수 : 분석자가 특정 조건을 만족하거나 특정함수에 의해 값을 만들어 의미를 부여한 변수

 

* reshape의 활용

 - 변수를 조합하여 시간, 상품 등의 차원에 결합하여 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터마트를 구성

 - melt 함수 : 쉬운 casting을 위해 적당한 형태로 만들어 주는 함수

 

melt(weather, id=c(“Month”, “Day”), na.rm=T)

# Month Day variable value
# 1 10 1 Temperature 22
# 2 10 2 Temperature 18
# 3 10 3 Temperature 20
# 4 10 4 Temperature 19

 

 - cast 함수 : 데이터를 원하는 형태로 계산 또는 변형

  ※ cast(데이터명, 행~열) , cast(데이터명, 행~열~구분), cast(데이터명, 행~열~구분, 값형식) 등으로 사용가능

 

* sqldf를 이용한 데이터 분석

 - sqldfR에서 sql명령어를 사용가능하게 해주는 패키지.

  ▶ sql에서 사용할 때 : SELECT * FROM [data frame]

  ▶ R에서 사용할 때 : sqldf(“SELECT * FROM [data frame]”)

 

* plyr을 이용한 데이터 분석

 - plyrapply함수에 기반하여 처리하는 패키지

 - 데이터를 분리하고 결합하는 등의 데이터 처리기능을 제공

 

* data.table을 이용한 데이터 분석

 - data.table 패키지는 R에서 가장 많이 사용하는 데이터 핸들링 패키지

 - 큰 데이터를 탐색, 연산, 병합하는데 유용

 

2. 데이터 가공

* Data Exploration

 - head(데이터셋) : 시작 6개의 데이터만 조회

 - tail(데이터셋) : 6개의 데이터만 조회

 - summary(데이터셋) | 수치형 변수 : 최대값, 최소값, 평균, 사분위수

                           | 명목형 변수 : 명목값, 데이터 개수

 

3. 기초 분석 및 데이터 관리

* 데이터 EDA(탐색적 자료 분석)

- 데이터 분석에 앞서 전체적으로 데이터 파악

 

* 결측값 인식

 - 결측값은 의미가 있는 경우도 있다. (ex. 회원가입은 하였으나 특정구매는 안함)

 - default값은 결측치가 아니다.

 - 결측값 처리는 전체 작업속도에 영향을 많이 끼친다.

 

* 결측값 처리

 - 단순 대치법

  1) completes analysis : 결측값이 존재하는 레코드를 완전히 삭제한다.

  2) 평균대치법 : 데이터들의 평균으로 대치한다.

  3) 단순확률 대치법 : 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완

 - 다중 대치법 : 단순대치법을 여러번 하여 여러개의 가상적 자료를 만들어낸다.

 

* R에서의 결측값 처리

 - compleate.cases() : 결측값이 있으면 FALSE, 없으면 TRUE로 반환

 - is.na() : 결측값이 있으면 TRUE, 없으면 FALSE로 반환

 

* 이상값 인식과 처리

 - 이상값 : 의도하지 않게 잘못 입력했거나 의도하지 않은 것이지만 분석에 포함해야 하는 경우들이 있음.

  ※ 최대값, 최소값과는 별개의 의미를 갖고 있다.

 - 이상값 인식 : ESD를 이용하여 평균으로부터 3표준편차 떨어진 값을 의미한다.

    (이상값 정의 : Q1-1.5(Q3-Q1)<데이터<Q3+1.5(Q3-Q1)을 벗어나는 데이터)

 

 

 

 

 

 


 

 

참고

필자 취득 후기 및 공부 방법

 

비전공자 독학 후기 및 팁 (feat.20일합격)

안녕하세요 해리입니다.최근에 제가 ADsP를 취득했습니다!!짝짝짝👏👏👏ADsP(데이터분석준전문...

blog.naver.com

데이터에듀 홈페이지 및 기출복원

 

기출문제복원 – 데이터에듀(dataedu)

 

www.dataedu.kr

데이터 전문가 포럼 카페

 

데이터 전문가 포럼 : 네이버 카페

DAP, DAsP, SQLP, SQLD, ADP, ADsP, 빅데이터 분석 기사 자격증 취득 등 데이터 전문가 커뮤니티입니다.

cafe.naver.com

 

'Data Science > ADsP' 카테고리의 다른 글

<ADsP> 3.4 통계 분석 (2)  (0) 2020.11.04
<ADsP> 3.4 통계 분석 (1)  (0) 2020.11.01
<ADsP> 3.2 R 프로그래밍 기초  (0) 2020.10.18
<ADsP> 3.1 데이터 분석 개요  (0) 2020.10.11
<ADsP> 2.2 분석 마스터 플랜  (0) 2020.10.05