이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.
ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요.
데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.
1. 데이터마이닝의 개요
* 데이터마이닝
- 데이터마이닝 : 대용량 데이터에서 의미있는 패텅을 파악하거나 예측하여 의사결정에 활용하는 방법
* 분석방법
- 지도학습 : 의사결정나무, 인공신경망, 회귀분석, 로지스틱 회귀분석 등
- 비지도학습 : 연관성규칙발견, 군집분석, SOM 등
* 데이터마이닝 추진단계
- 1. 목적 설정 : 무엇을 왜 하는지 목적 설정
- 2. 데이터 준비 : 충분한 양의 데이터를 확보
- 3. 가공 : 소프트웨어에 적용할 수 있는 형식으로 가공
- 4. 기법 적용 : 기법을 적용하여 정보를 추출
- 5. 검증 : 추출된 정보를 검증
※ 기술 : 사람, 상품에 관한 이해를 증가시키기 위한 것
* 양과 설명이 불충분한 경우
- 홀드아웃방법 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용. 학습용과 시험용으로 분리
- 교차확인방법 : 주어진 데이터를 k개의 하부집단으로 구분. k-1개의 학습용 집단과 나머지 검증용 집단으로 학습.
* 성과분석
- 오분류에 대한 추정치 : 정분류율, 오분류율, 특이도, 민감도, 정확도, 재현율, F1 Score
- 이익도표 : 분류모형의 성능을 평가하기 위한 척도. 임의로 나눈 각 등급별로 반응검출률(해당등급 실제 해당자/ 전체 해당자), 반응률, 리프드 등의 정보를 산출하여 나타냄.
2. 분류분석
* 분류분석
- 데이터가 어떤 그룹에 속하는지 예측하기 위한 기법
- 분류분석 vs 예측분석 : 둘 모두 특정 속성의 값을 미리 맞히는 점은 공통이지만 분류는 범주형 속성의 값을 맞히는 것이고 예측은 연속형 속성의 값을 맞히는 것.
* 로지스틱 회귀분석
- 반응변수가 범주형인 경우에 적용되는 회귀분석모형
- exp(b1)의 의미는 나머지 변수(x1, x2, ··· , xk)가 주어질 때, x1이 한 단위 증가할 때마다 성공의 오즈가 몇 배 증가하는지를 나타내는 값이다.
- 다중로지스틱 회귀모형은 설명변수가 한개의 경우 b1의 부호에 따라 S자 모양 또는 영 S자 모양을 가진다.
* 의사결정나무
- 의사결정나무는 분류함수를 의사결정 규칙으로 이뤄진 나뭇가지 모양으로 그려나가는 방법이다.
- 비정상 잡음 데이터에 대해서도 민감함 없이 분류 가능하며 모형 분류 정확도가 높다.
- 설명변수나 목표변수에 수치형변수, 범주형변수 모두 사용 가능하다.
- 새로운 자료에 대해 과대적합이 발생할 가능성이 높으며 경계선 부근에서 오차가 크다.
- 설명변수 간 중요도를 판단하기 쉽지않다.
* 불순도의 측도
- 목표변수가 범주형 변수인 의사결정나무의 분류규칙을 선택하기 위해 카이제곱 통계량, 지니지수, 엔트로피 지수를 활용한다.
- 카이제곱 통계량 : 각 셀에 대한 ((실제도수-기대도수)^2/기대도수)의 합
- 지니지수 : 노드의 불순도를 나타냄.
- 엔트로피 지수 : 열역학에서 쓰는 개념으로 무질서 정도에 대한 측도
※ 향상도 곡선 : 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프
※ 나이브베이지안 분류 : 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지 분류하는 알고리즘
3. 앙상블 분석
* 앙상블
- 주어진 자료로 여러 개의 예측모형들을 만들고 그 모형들을 조합하여 최종 예측 모형을 만드는 방법
* 앙상블 기법의 종류
- 배깅 : 주어진 자료에서 여러 개의 bootstrap자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법
- 부스팅 : 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법. lgbm부스팅 방법은 Leaf-wise node 방법 사용
- 랜덤 포레스트 : 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기 제작
※ bootstrap생성시 전체 샘플의 약 36.8%는 한번도 선택되지 않을 수 있다.
참고
필자 취득 후기 및 공부 방법
데이터에듀 홈페이지 및 기출복원
데이터 전문가 포럼 카페
'Data Science > ADsP' 카테고리의 다른 글
<ADsP> 3.5 정형 데이터 마이닝 (2) (0) | 2020.11.11 |
---|---|
<ADsP> 3.4 통계 분석 (2) (0) | 2020.11.04 |
<ADsP> 3.4 통계 분석 (1) (0) | 2020.11.01 |
<ADsP> 3.3 데이터 마트 (0) | 2020.10.25 |
<ADsP> 3.2 R 프로그래밍 기초 (0) | 2020.10.18 |