본문 바로가기

Data Science/ADsP

<ADsP> 3.5 정형 데이터 마이닝 (1)

 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.

 ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요.

 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.

 

 

1. 데이터마이닝의 개요

* 데이터마이닝

 - 데이터마이닝 : 대용량 데이터에서 의미있는 패텅을 파악하거나 예측하여 의사결정에 활용하는 방법

 

* 분석방법

 - 지도학습 : 의사결정나무, 인공신경망, 회귀분석, 로지스틱 회귀분석 등

 - 비지도학습 : 연관성규칙발견, 군집분석, SOM 등

 

* 데이터마이닝 추진단계

 - 1. 목적 설정 : 무엇을 왜 하는지 목적 설정

 - 2. 데이터 준비 : 충분한 양의 데이터를 확보

 - 3. 가공 : 소프트웨어에 적용할 수 있는 형식으로 가공

 - 4. 기법 적용 : 기법을 적용하여 정보를 추출

 - 5. 검증 : 추출된 정보를 검증

 

※ 기술 : 사람, 상품에 관한 이해를 증가시키기 위한 것

 

* 양과 설명이 불충분한 경우

 - 홀드아웃방법 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용. 학습용과 시험용으로 분리

 - 교차확인방법 : 주어진 데이터를 k개의 하부집단으로 구분. k-1개의 학습용 집단과 나머지 검증용 집단으로 학습.

 

* 성과분석

 - 오분류에 대한 추정치 : 정분류율, 오분류율, 특이도, 민감도, 정확도, 재현율, F1 Score

  - 이익도표 : 분류모형의 성능을 평가하기 위한 척도. 임의로 나눈 각 등급별로 반응검출률(해당등급 실제 해당자/ 전체 해당자), 반응률, 리프드 등의 정보를 산출하여 나타냄.

 

2. 분류분석

* 분류분석

 - 데이터가 어떤 그룹에 속하는지 예측하기 위한 기법

 - 분류분석 vs 예측분석 : 둘 모두 특정 속성의 값을 미리 맞히는 점은 공통이지만 분류는 범주형 속성의 값을 맞히는 것이고 예측은 연속형 속성의 값을 맞히는 것.

 

* 로지스틱 회귀분석

 - 반응변수가 범주형인 경우에 적용되는 회귀분석모형

 - exp(b1)의 의미는 나머지 변수(x1, x2, ··· , xk)가 주어질 때, x1이 한 단위 증가할 때마다 성공의 오즈가 몇 배 증가하는지를 나타내는 값이다.

 - 다중로지스틱 회귀모형은 설명변수가 한개의 경우 b1의 부호에 따라 S자 모양 또는 영 S자 모양을 가진다.

 

* 의사결정나무 

 - 의사결정나무는 분류함수를 의사결정 규칙으로 이뤄진 나뭇가지 모양으로 그려나가는 방법이다.

 - 비정상 잡음 데이터에 대해서도 민감함 없이 분류 가능하며 모형 분류 정확도가 높다.

 - 설명변수나 목표변수에 수치형변수, 범주형변수 모두 사용 가능하다.

 - 새로운 자료에 대해 과대적합이 발생할 가능성이 높으며 경계선 부근에서 오차가 크다.

 - 설명변수 간 중요도를 판단하기 쉽지않다.

 

* 불순도의 측도

 - 목표변수가 범주형 변수인 의사결정나무의 분류규칙을 선택하기 위해 카이제곱 통계량, 지니지수, 엔트로피 지수를 활용한다.

 - 카이제곱 통계량 : 각 셀에 대한 ((실제도수-기대도수)^2/기대도수)의 합

 - 지니지수 : 노드의 불순도를 나타냄.

 - 엔트로피 지수 : 열역학에서 쓰는 개념으로 무질서 정도에 대한 측도

 

※ 향상도 곡선 : 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프

※ 나이브베이지안 분류 : 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지 분류하는 알고리즘

 

3. 앙상블 분석

* 앙상블

 - 주어진 자료로 여러 개의 예측모형들을 만들고 그 모형들을 조합하여 최종 예측 모형을 만드는 방법

 

* 앙상블 기법의 종류

 - 배깅 : 주어진 자료에서 여러 개의 bootstrap자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법

 - 부스팅 : 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법. lgbm부스팅 방법은 Leaf-wise node 방법 사용

 - 랜덤 포레스트 : 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기 제작

 

※ bootstrap생성시 전체 샘플의 약 36.8%는 한번도 선택되지 않을 수 있다.

 

 

 

 

 


 

 

 

 

참고

 

 

필자 취득 후기 및 공부 방법

 

비전공자 독학 후기 및 팁 (feat.20일합격)

안녕하세요 해리입니다.최근에 제가 ADsP를 취득했습니다!!짝짝짝👏👏👏ADsP(데이터분석준전문...

blog.naver.com

데이터에듀 홈페이지 및 기출복원

 

기출문제복원 – 데이터에듀(dataedu)

 

www.dataedu.kr

데이터 전문가 포럼 카페

 

데이터 전문가 포럼 : 네이버 카페

DAP, DAsP, SQLP, SQLD, ADP, ADsP, 빅데이터 분석 기사 자격증 취득 등 데이터 전문가 커뮤니티입니다.

cafe.naver.com

 

'Data Science > ADsP' 카테고리의 다른 글

<ADsP> 3.5 정형 데이터 마이닝 (2)  (0) 2020.11.11
<ADsP> 3.4 통계 분석 (2)  (0) 2020.11.04
<ADsP> 3.4 통계 분석 (1)  (0) 2020.11.01
<ADsP> 3.3 데이터 마트  (0) 2020.10.25
<ADsP> 3.2 R 프로그래밍 기초  (0) 2020.10.18