본문 바로가기

Data Science/ADsP

<ADsP> 3.2 R 프로그래밍 기초

 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.

 ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요

 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.

 

 

1. R 소개

* 데이터 분석 도구의 비교

 

데이터 분석 도구 비교

 

* R의 특징

 - 오픈소스 프로그램

 - 월등한 그래픽

 - 모든 운영체제에서 사용 가능

 - 객체지향언어이자 함수형언어

 

2. R 기초

* 패키지 : R 함수와 데이터 및 컴파일된 코드의 모임

 - reshape 패키지 : meltcast로 데이터 재구성

 - data.table 패키지 : 큰 데이터를 탐색, 연산, 병합

 - plyr 패키지 : apply함수를 기반으로 데이터 분리, 처리, 결합

 - sqldf 패키지 : R에서 SQL명령어를 사용하게 함 (sqldf(“sql구문”))

 

* R기초

 - 함수 정의

 

f <- function(x,a)
return(x+a)
f(1:3, 5)

# 6 7 8

 

 - 수열

 

x <- seq(1, 5, 1)
x <- 1:5
x <- seq(10,50,10)/10

 

   : 위는 모두 x 1 2 3 4 5를 할당시킨 구문이다.

 - 벡터 생성 : c()

 - 문자열 추출

 

x<-c(“Harry”, “IU”, “Suzy”)
substr(x, 1, 2)

# “Ha”, “IU”, “Su”

 

   : 위는 x벡터에서 첫 번째부터 두 번째까지 추출한 코드이다.

 

 - 논리 연산자

    == : 같다

    != : 같지 않다

    < : 작다

    <= : 작거나 같다

    > : 크다

    >= : 크거나 같다

※ 참고로 NA와 비교한 결과값은 모두 NA가 된다.

 

 - 특수 연산자

    %/% : 나눗셈 몫

    %% : 나눗셈 나머지

    %*% : 행렬의 곱

 

 - 벡터의 기초통계

    mean(변수) : 평균

    sum(변수) : 합계

    median(변수) : 중앙값

    sd(변수) : 표준편차

    var(변수) : 분산

    sqrt(변수) : 루트 값

    length(변수) : 변수 길이 값

 ※ 논리식에서 True는 1의 값을, False는 0의 값을 갖는다.

 ※ 파일경로에서 역슬래시(\)를 두 번써야 역슬래시를 하나로 인식한다.

 

3. 데이터 구조

* 벡터

 - 한 벡터의 모든 원소는 같은 자료형 또는 같은 모드를 가짐.

 - 위치로 인덱스 가능 (x[5]x벡터의 5번째 원소를 의미)

 

* 리스트

 - 리스트는 여러 자료형의 원소들이 포함될 수 있음.

 - 위치로 인덱스 가능 (y[5]y리스트의 5번째 원소를 의미)

 

* 데이터프레임

 - 데이터프레임은 표 형태의 데이터구조이며, 각 열은 서로 다른 데이터 형식을 가질 수 있음.

 - 열에는 이름이 있어야함.

 

* 벡터, 리스트, 행렬

 - 행렬은 R에서 차원을 가진 벡터이다.

 - 행렬은 원소 하나를 문자로 변경하면 행렬 전체가 문자형이 된다.

 - 재활용 규칙 : 길이가 서로 다른 두 벡터에 대해 연산할 때, R은 짧은 벡터의 처음으로 돌아가서 연산이 끝날때까지 원소들을 재활용 하게 된다.

 

4. 데이터 프레임

* 데이터 프레임

 - 데이터셋 행결합 : rbind(dfrm1, dfrm2)

rbind 보충 이미지

 - 데이터셋 열결합 : cbind(dfrm1, dfrm2)

 - 데이터 병합 : merge(df1, df2, by=“df1df2의 공통 열 이름”)

 - ,열 선택 : subset(dfm, subset=(조건))

 

* 그 외에 함수

 - 패키지 설치 : install.packages(“패키지 명”)

 - 패키지 불러오기 : library(“패키지 명”)

 - 결측치 제외 x 평균 : mean(x, na.rm=T)

 

5. 데이터 변형

* 주요 코드

 - 행에 함수 적용 : m<-apply(mat, 1, func)

 - 열에 함수 적용 : m<-apply(mat, 2, func)

 

* 문자열

 - 문자열 길이 : nchar(“단어”)

 - 하위문자열 추출 : substr(“Harry”, 1, 3) : 문자열의 첫째에서 3번째까지 추출

 - 날짜 변환 : as.Date()

 

 

 

 

 

 

 


 

참고

필자 취득 후기 및 공부 방법

 

비전공자 독학 후기 및 팁 (feat.20일합격)

안녕하세요 해리입니다.최근에 제가 ADsP를 취득했습니다!!짝짝짝👏👏👏ADsP(데이터분석준전문...

blog.naver.com

데이터에듀 홈페이지 및 기출복원

 

기출문제복원 – 데이터에듀(dataedu)

 

www.dataedu.kr

데이터 전문가 포럼 카페

 

데이터 전문가 포럼 : 네이버 카페

DAP, DAsP, SQLP, SQLD, ADP, ADsP, 빅데이터 분석 기사 자격증 취득 등 데이터 전문가 커뮤니티입니다.

cafe.naver.com

 

 

'Data Science > ADsP' 카테고리의 다른 글

<ADsP> 3.4 통계 분석 (1)  (0) 2020.11.01
<ADsP> 3.3 데이터 마트  (0) 2020.10.25
<ADsP> 3.1 데이터 분석 개요  (0) 2020.10.11
<ADsP> 2.2 분석 마스터 플랜  (0) 2020.10.05
<ADsP> 2.1 데이터 분석 기획의 이해  (0) 2020.10.04