이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.
ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요.
데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.
1. R 소개
* 데이터 분석 도구의 비교
* R의 특징
- 오픈소스 프로그램
- 월등한 그래픽
- 모든 운영체제에서 사용 가능
- 객체지향언어이자 함수형언어
2. R 기초
* 패키지 : R 함수와 데이터 및 컴파일된 코드의 모임
- reshape 패키지 : melt와 cast로 데이터 재구성
- data.table 패키지 : 큰 데이터를 탐색, 연산, 병합
- plyr 패키지 : apply함수를 기반으로 데이터 분리, 처리, 결합
- sqldf 패키지 : R에서 SQL명령어를 사용하게 함 (sqldf(“sql구문”))
* R기초
- 함수 정의
f <- function(x,a)
return(x+a)
f(1:3, 5)
# 6 7 8
- 수열
x <- seq(1, 5, 1)
x <- 1:5
x <- seq(10,50,10)/10
: 위는 모두 x 에 1 2 3 4 5를 할당시킨 구문이다.
- 벡터 생성 : c()
- 문자열 추출
x<-c(“Harry”, “IU”, “Suzy”)
substr(x, 1, 2)
# “Ha”, “IU”, “Su”
: 위는 x벡터에서 첫 번째부터 두 번째까지 추출한 코드이다.
- 논리 연산자
== : 같다
!= : 같지 않다
< : 작다
<= : 작거나 같다
> : 크다
>= : 크거나 같다
※ 참고로 NA와 비교한 결과값은 모두 NA가 된다.
- 특수 연산자
%/% : 나눗셈 몫
%% : 나눗셈 나머지
%*% : 행렬의 곱
- 벡터의 기초통계
mean(변수) : 평균
sum(변수) : 합계
median(변수) : 중앙값
sd(변수) : 표준편차
var(변수) : 분산
sqrt(변수) : 루트 값
length(변수) : 변수 길이 값
※ 논리식에서 True는 1의 값을, False는 0의 값을 갖는다.
※ 파일경로에서 역슬래시(\)를 두 번써야 역슬래시를 하나로 인식한다.
3. 데이터 구조
* 벡터
- 한 벡터의 모든 원소는 같은 자료형 또는 같은 모드를 가짐.
- 위치로 인덱스 가능 (x[5]는 x벡터의 5번째 원소를 의미)
* 리스트
- 리스트는 여러 자료형의 원소들이 포함될 수 있음.
- 위치로 인덱스 가능 (y[5]는 y리스트의 5번째 원소를 의미)
* 데이터프레임
- 데이터프레임은 표 형태의 데이터구조이며, 각 열은 서로 다른 데이터 형식을 가질 수 있음.
- 열에는 이름이 있어야함.
* 벡터, 리스트, 행렬
- 행렬은 R에서 차원을 가진 벡터이다.
- 행렬은 원소 하나를 문자로 변경하면 행렬 전체가 문자형이 된다.
- 재활용 규칙 : 길이가 서로 다른 두 벡터에 대해 연산할 때, R은 짧은 벡터의 처음으로 돌아가서 연산이 끝날때까지 원소들을 재활용 하게 된다.
4. 데이터 프레임
* 데이터 프레임
- 데이터셋 행결합 : rbind(dfrm1, dfrm2)
- 데이터셋 열결합 : cbind(dfrm1, dfrm2)
- 데이터 병합 : merge(df1, df2, by=“df1과 df2의 공통 열 이름”)
- 행,열 선택 : subset(dfm, subset=(조건))
* 그 외에 함수
- 패키지 설치 : install.packages(“패키지 명”)
- 패키지 불러오기 : library(“패키지 명”)
- 결측치 제외 x 평균 : mean(x, na.rm=T)
5. 데이터 변형
* 주요 코드
- 행에 함수 적용 : m<-apply(mat, 1, func)
- 열에 함수 적용 : m<-apply(mat, 2, func)
* 문자열
- 문자열 길이 : nchar(“단어”)
- 하위문자열 추출 : substr(“Harry”, 1, 3) : 문자열의 첫째에서 3번째까지 추출
- 날짜 변환 : as.Date()
참고
필자 취득 후기 및 공부 방법
데이터에듀 홈페이지 및 기출복원
데이터 전문가 포럼 카페
'Data Science > ADsP' 카테고리의 다른 글
<ADsP> 3.4 통계 분석 (1) (0) | 2020.11.01 |
---|---|
<ADsP> 3.3 데이터 마트 (0) | 2020.10.25 |
<ADsP> 3.1 데이터 분석 개요 (0) | 2020.10.11 |
<ADsP> 2.2 분석 마스터 플랜 (0) | 2020.10.05 |
<ADsP> 2.1 데이터 분석 기획의 이해 (0) | 2020.10.04 |