본문 바로가기

Data Science/ADsP

<ADsP> 1.4 기타 빅데이터 상식

 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.

 ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요

 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.

 

 

1. DBMSSQL

* DBMS

 - DBMS : 데이터베이스 관리 시스템이란 데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어다.

* SQL

 - SQL : 데이터베이스에 접근가능한 데이터 베이스의 하부언어로 데이터의 정의와 조작기능을 갖추고 있다.

 - 집계함수 : AVG(평균반환), COUNT(개수반환), SUM(총합반환), STDDEV(분산반환), MIN(최소값반환), MAX(최대값반환) COUNT함수만 수치형뿐 아니라 문자형까지 집계가능하다.

 - SQL 문장 해석

SELECT NAME, GENDER, CLASS
FROM STUDENTS
WHERE GRADE BETWEEN 4 AND 6

: 이름과 성별 그리고 반 데이터를 학생테이블에서 추출한다. 그리고 4학년부터 6학년까지의 데이터만 추출한다.

 

2. 데이터 관련 기술

* 비식별 기술

 - 데이터 마스킹 : 정보를 알기 쉬운 데이터를 익명으로 생성 (ex. 윤해리, 한양대 재학 > **, **대 재학)

 - 가명 처리 : 다른 값으로 변경 (ex. 윤해리, 한양대 재학 > 홍길동, 활빈대 재학)

 - 총계 처리 : 총합이나 평균과 같은 수치를 보임으로써 개별 데이터를 알 수 없게 함. (ex. 윤해리 175cm, 이지은 160cm, 김다현 165cm, 홍길동 180cm > 경제학과 학생 키 평균 170cm)

 - 데이터값 삭제 : 필요없는 값이나 보안 상 중요한 값을 삭제 (ex. 윤해리 주민등록번호:991111-1010101 > 99년생 남성)

 - 데이터 범주화 : 범주의 값으로 표현 (ex. 윤해리 22> 윤씨, 20~30)

 

* 무결성과 레이크

 - 데이터 무결성 : 여러 가지 제한을 통해 데이터의 정확성을 보증하는 것

 - 데이터 레이크 : 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템. 대용량의 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소

* 머신러닝과 딥러닝

 - 머신러닝 : 인공지능의 연구 분야 중하나로, 컴퓨터에서 인간의 학습 능력과 같은 기능을 실현 (오픈소스-아나콘다)

 - 딥 러닝 : 컴퓨터가 사람럼 스스로 학습하게 하기 위해서 인공 신경망 등의 기술을 활용 (분석기법-LSTM, Autoencoder, RNN) (오픈소스-Caffe, Tensorflow, Theano)

 

 

 


 

참고

필자 취득 후기 및 공부 방법

 

비전공자 독학 후기 및 팁 (feat.20일합격)

안녕하세요 해리입니다.최근에 제가 ADsP를 취득했습니다!!짝짝짝👏👏👏ADsP(데이터분석준전문...

blog.naver.com

 

데이터에듀 홈페이지 및 기출복원 

 

기출문제복원 – 데이터에듀(dataedu)

 

www.dataedu.kr

데이터 전문가 포럼 카페

 

데이터 전문가 포럼 : 네이버 카페

DAP, DAsP, SQLP, SQLD, ADP, ADsP, 빅데이터 분석 기사 자격증 취득 등 데이터 전문가 커뮤니티입니다.

cafe.naver.com

컴퓨터 개론

 

데이터베이스 관리 시스템

데이터베이스를 직접 응용 프로그램들이 조작하는 것이 아니라 데이터베이스를 조작하는 별도의 소프트웨어가 있는데 이를 데이터베이스 관리 시스템(DBMS : DataBase Management System)이라 한다. 즉 �

terms.naver.com