본문 바로가기

Data Science/ADsP

<ADsP> 3.5 정형 데이터 마이닝 (2)

 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다.

 ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요

 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다.

 

 

4. 인공신경망 분석

* 인공신경망 

 - 인간 뇌를 기반으로 한 추론 모델로 가중치를 반복적으로 조정하며 학습

 - 신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치를 갱신하며 신경망의 구조를 선택하고, 활용할 학습 알고리즘을 결정한 후 신경망을 훈련시킴

 

* 뉴런의 활성화 함수

 - 활성화 함수 : 활성화함수는 입력값이 특정 뉴런에서 처리되어 결과값을 생성할때 적용되는 함수

 

 - 시그모이드 함수 : 로지스틱 회귀분석과 유사하며, 0~1의 확률 값을 가진다.

 - softmax함수 : 각 범주에 속할 사후확률을 제공

 - Reru함수 : 입력값이 0이하는 0, 0이상은 x값을 가지는 함수 ( __/ 모양)

 

* 은닉충과 은닉노드

 - 신경망 적용 시, 가장 중요한 부분이 모형의 선택인데 이것은 은닉층의 수와 은닉노드의 수를 결정하는 것과 직결된다.

 - 은닉충과 은닉노드가 많을수록 과대적합문제가 발생하고, 적을수록 과소적합 문제가 발생한다.

 - 가장 좋은 방법은 은닉충은 하나로 두고 은닉노드의 수를 적절히 큰 값으로 놓고 가중치를 감소시키며 적용하는 것이다.

 

5. 군집분석

* 군집분석

 - 각 대상의 유사성을 측정하여 유사성이 높은 집단을 분류하고, 다른 군집과의 상이성을 규명하는 분석법

 - 어느 군집으로 묶을 수 있을지 판단은 다양한 거리 측정 방식으로 한다.

 

* 연속형 변수의 거리

 - 유클라디안 거리 : 데이터간의 유사성 측정.

 - 표준화 거리 : 표준화로 척도와 분산의 차이로 인한 왜곡을 피할 수 있음

 - 마할라노비스 거리 : 변수들의 산포를 고려하여 표준화한 거리. 표준화와 상관성을 모두 고려했음

 - 맨하탄 거리 : 맨하탄 도시에서 건물과 건물을 가기 위한 최단 거리를 구하기 위해 고안되었음.

 - 캔버라 거리 

 - 민코우스키거리 : 맨하탄 거리와 유클라디안 거리를 한번에 표현한 공식

* 범주형 변수의 거리

 - 자카드 거리

 - 자카드 계수

 - 코사인 거리

 - 코사인 유사도 : 두 개체의 백터 내적의 코사인 값을 이용해 측정된 백터간의 유사한 정도

 

* 계층적 군집분석

 - n개의 군집으로 시작해 점차 군집의 개수를 줄여 나가는 방법이며 도표는 덴드로그램을 주로 사용한다.

 - 최단연결법 : n*n 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성하며 계산량이 가장적은 방법

 - 최장연결법 : 최장거리를 거리로 계산하여 거리행렬을 수정하는 방법

 - 평균연결법 : 거리를 계산할 때 평균을 거리로 계산하여 거리행렬을 수정하는 방법

 - 와드연결법 : 군집내 편차들의 제곱합을 고려한 방법

 - 군비화 : 거리행렬을 통해 가장 가까운 거리의 객체들간의 관계를 규명하고 덴드로그램 작성

 

* 비계층적 군집분석

 - n개의 개체를 g개의 군집으로 나눌 수 있는 모든 방법을 점검 후 최적화한 군집 형성

 - K-평균 군집분석 : 주어진 데이터를 k개의 클러스터로 묶고 각 클러스터 거리 차이의 분산을 최소화

 - K-평균 군집분석 특징 : K개의 초기 중심값은 임의로 선택하며 가급적 멀리 떨어지는 것이 좋다. 초기 중심값의 선정에 따라 결과가 달라지므로 주의해야 한다. 잡음이나 이상값의 영향을 많이 받고 볼록한 형태가 아닌 군집에는 성능이 떨어진다.

 - K-median 군집함수 : 이상값을 극복하기 위해 출현하였다. PAM모델이 존재한다.

 

* SOM

 - SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 보여준다.

 - 입력벡터를 받는 입력층과 2차원 격자로 구성된 경쟁층이 존재한다. 

 - 승자 독식 구조로 경쟁층에는 승자 뉴런만이 나타나며, 승자와 유사한 연결 강도를 갖는 입력 패턴이 동일한 경쟁 뉴런으로 배열된다.

 - 입력 변수의 위치 관계를 그대로 보존하므로 실제 데이터가 유사하면 지도상에 가깝게 표현되어 이해가 쉽다.

 - 역전파 알고리즘을 이용하는 인공신경망과 달리 단 하나의 전방패스를 사용하므로 속도가 빠르다.

 

※ 실루엣 : 군집분석의 품질을 평가하는 지표이다. 군집분석이 완벽한 분리이면 1이며 군집 간 거리가 멀어질수록 값이 커진다.

 

6. 연관분석

* 연관규칙분석

 - 연관성 분석은 흔히 장바구니분석 or 서열분석이라 불린다.

 

* 연관규칙의 측도

 - 지지도 : 전체 거래 중 항목 A B를 동시에 포함하는 거래의 비율이다. 교집합의 확률과 같다.

 - 신뢰도 : A를 포함한 거래 중 A B가 같이 포함될 확률이다.  A가 일어날 때 교집합이 일어나는 조건부 확률이다.

 - 향상도(Lift) : A가 구매 되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가 비이다. 즉 A와 품목 B의 구매가 서로 관련이 없는 경우 향상도는 1이며, 1이상이면 연관성이 있다고 볼 수 있다. 신뢰도에서 B의 구매확률을 나누어 주면 된다.

 

※ inspect() : 연관 규칙을 보기 위한 R함수

 

 

 


 

 

 

참고

필자 취득 후기 및 공부 방법

 

비전공자 독학 후기 및 팁 (feat.20일합격)

안녕하세요 해리입니다.최근에 제가 ADsP를 취득했습니다!!짝짝짝👏👏👏ADsP(데이터분석준전문...

blog.naver.com

데이터에듀 홈페이지 및 기출복원

 

기출문제복원 – 데이터에듀(dataedu)

 

www.dataedu.kr

데이터 전문가 포럼 카페

 

데이터 전문가 포럼 : 네이버 카페

DAP, DAsP, SQLP, SQLD, ADP, ADsP, 빅데이터 분석 기사 자격증 취득 등 데이터 전문가 커뮤니티입니다.

cafe.naver.com

http://www.gisdeveloper.co.kr/?p=7550

 

활성화 함수(Activation Function) – GIS Developer

활성화함수는 입력값이 특정 뉴런에서 처리되어 결과값을 생성할때 적용되는 함수입니다. 활성화 함수로 이 글에서는 3가지를 언급하는데 첫째는 계단함수, 둘째는 시그모이드 함수, 셋째는 ReL

www.gisdeveloper.co.kr

 

'Data Science > ADsP' 카테고리의 다른 글

<ADsP> 3.5 정형 데이터 마이닝 (1)  (0) 2020.11.08
<ADsP> 3.4 통계 분석 (2)  (0) 2020.11.04
<ADsP> 3.4 통계 분석 (1)  (0) 2020.11.01
<ADsP> 3.3 데이터 마트  (0) 2020.10.25
<ADsP> 3.2 R 프로그래밍 기초  (0) 2020.10.18