이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.
ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요.
데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.
1. 데이터 변경 및 요약
* 데이터 마트 개발
- 데이터 마트 : 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 볼 수 있음.
- 요약변수 : 수집된 정보를 분석에 맞게 종합한 변수
- 파생변수 : 분석자가 특정 조건을 만족하거나 특정함수에 의해 값을 만들어 의미를 부여한 변수
* reshape의 활용
- 변수를 조합하여 시간, 상품 등의 차원에 결합하여 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터마트를 구성
- melt 함수 : 쉬운 casting을 위해 적당한 형태로 만들어 주는 함수
melt(weather, id=c(“Month”, “Day”), na.rm=T)
# Month Day variable value
# 1 10 1 Temperature 22
# 2 10 2 Temperature 18
# 3 10 3 Temperature 20
# 4 10 4 Temperature 19
- cast 함수 : 데이터를 원하는 형태로 계산 또는 변형
※ cast(데이터명, 행~열) , cast(데이터명, 행~열~구분), cast(데이터명, 행~열~구분, 값형식) 등으로 사용가능
* sqldf를 이용한 데이터 분석
- sqldf는 R에서 sql명령어를 사용가능하게 해주는 패키지.
▶ sql에서 사용할 때 : SELECT * FROM [data frame]
▶ R에서 사용할 때 : sqldf(“SELECT * FROM [data frame]”)
* plyr을 이용한 데이터 분석
- plyr을 apply함수에 기반하여 처리하는 패키지
- 데이터를 분리하고 결합하는 등의 데이터 처리기능을 제공
* data.table을 이용한 데이터 분석
- data.table 패키지는 R에서 가장 많이 사용하는 데이터 핸들링 패키지
- 큰 데이터를 탐색, 연산, 병합하는데 유용
2. 데이터 가공
* Data Exploration
- head(데이터셋) : 시작 6개의 데이터만 조회
- tail(데이터셋) : 끝 6개의 데이터만 조회
- summary(데이터셋) | 수치형 변수 : 최대값, 최소값, 평균, 사분위수
| 명목형 변수 : 명목값, 데이터 개수
3. 기초 분석 및 데이터 관리
* 데이터 EDA(탐색적 자료 분석)
- 데이터 분석에 앞서 전체적으로 데이터 파악
* 결측값 인식
- 결측값은 의미가 있는 경우도 있다. (ex. 회원가입은 하였으나 특정구매는 안함)
- default값은 결측치가 아니다.
- 결측값 처리는 전체 작업속도에 영향을 많이 끼친다.
* 결측값 처리
- 단순 대치법
1) completes analysis : 결측값이 존재하는 레코드를 완전히 삭제한다.
2) 평균대치법 : 데이터들의 평균으로 대치한다.
3) 단순확률 대치법 : 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완
- 다중 대치법 : 단순대치법을 여러번 하여 여러개의 가상적 자료를 만들어낸다.
* R에서의 결측값 처리
- compleate.cases() : 결측값이 있으면 FALSE, 없으면 TRUE로 반환
- is.na() : 결측값이 있으면 TRUE, 없으면 FALSE로 반환
* 이상값 인식과 처리
- 이상값 : 의도하지 않게 잘못 입력했거나 의도하지 않은 것이지만 분석에 포함해야 하는 경우들이 있음.
※ 최대값, 최소값과는 별개의 의미를 갖고 있다.
- 이상값 인식 : ESD를 이용하여 평균으로부터 3표준편차 떨어진 값을 의미한다.
(이상값 정의 : Q1-1.5(Q3-Q1)<데이터<Q3+1.5(Q3-Q1)을 벗어나는 데이터)
참고
필자 취득 후기 및 공부 방법
데이터에듀 홈페이지 및 기출복원
데이터 전문가 포럼 카페
'Data Science > ADsP' 카테고리의 다른 글
<ADsP> 3.4 통계 분석 (2) (0) | 2020.11.04 |
---|---|
<ADsP> 3.4 통계 분석 (1) (0) | 2020.11.01 |
<ADsP> 3.2 R 프로그래밍 기초 (0) | 2020.10.18 |
<ADsP> 3.1 데이터 분석 개요 (0) | 2020.10.11 |
<ADsP> 2.2 분석 마스터 플랜 (0) | 2020.10.05 |