본문 바로가기

Data Science/ADsP

(13)
<ADsP> 3.5 정형 데이터 마이닝 (2) 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 4. 인공신경망 분석 * 인공신경망 - 인간 뇌를 기반으로 한 추론 모델로 가중치를 반복적으로 조정하며 학습 - 신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치를 갱신하며 신경망의 구조를 선택하고, 활용할 학습 알고리즘을 결정한 후 신경망을 훈련시킴 * 뉴런의 활성화 함수 - 활성화 함수 : 활성화함수는 입력값이 특정 뉴런에서 처리되어 결과값을 생성할때 적용되는 함수 - 시그모이드 함수 : 로지스틱 회귀분석과 유사하며, 0~1의 확률 값을 가진다. - softmax함수..
<ADsP> 3.5 정형 데이터 마이닝 (1) 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 데이터마이닝의 개요 * 데이터마이닝 - 데이터마이닝 : 대용량 데이터에서 의미있는 패텅을 파악하거나 예측하여 의사결정에 활용하는 방법 * 분석방법 - 지도학습 : 의사결정나무, 인공신경망, 회귀분석, 로지스틱 회귀분석 등 - 비지도학습 : 연관성규칙발견, 군집분석, SOM 등 * 데이터마이닝 추진단계 - 1. 목적 설정 : 무엇을 왜 하는지 목적 설정 - 2. 데이터 준비 : 충분한 양의 데이터를 확보 - 3. 가공 : 소프트웨어에 적용할 수 있는 형식으로 가공 - 4...
<ADsP> 3.4 통계 분석 (2) 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 4. 시계열 분석 * 시계열 자료 - 시간의 흐름에 따라 일정한 간격으로 이들을 관찰하여 기록한 자료를 말한다. 즉, 시계열 자료란 시간과 더불어 관측된 자료로 이는 종단면 자료에 해당한다. - 시계열 데이터 분석 절차 ① 시간 그래프 그리기 ② 추세와 계절성 제거 ③ 잔차 예측 ④ 잔차에 대한 모델 적합 ⑤ 예측된 잔차에 추세와 계절성을 더하고 미래를 예측 * 정상성 - 평균이 일정하다 : 모든 시점에 대해 일정한 평균을 가진다. 평균이 일정하지 않은 시계열은 차분을 통해 ..
<ADsP> 3.4 통계 분석 (1) 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 통계분석의 이해 * 통계 - 집단현상에 대한 구체적인 양적기술을 반영하는 숫자이다. 특히 사회집단 또는 자연집단의 상황을 숫자로 나타낸 것이다. - 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 추출되지 못해서 생기는 오차 - 표본편리 : 모수를 작거나 크게 추정하게 되는 오차 (확률화로 최소화하거나 제거가 가능하다.) - 비표본오차 : 표본 오차를 제외한 모든 오차로써 조사대상이 늘수록 증가하게 된다. (ex. 부주의, 실수, 알 수 없는 원인 등) * 표본 추출..
<ADsP> 3.3 데이터 마트 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 데이터 변경 및 요약 * 데이터 마트 개발 - 데이터 마트 : 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 볼 수 있음. - 요약변수 : 수집된 정보를 분석에 맞게 종합한 변수 - 파생변수 : 분석자가 특정 조건을 만족하거나 특정함수에 의해 값을 만들어 의미를 부여한 변수 * reshape의 활용 - 변수를 조합하여 시간, 상품 등의 차원에 결합하여 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터..
<ADsP> 3.2 R 프로그래밍 기초 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. R 소개 * 데이터 분석 도구의 비교 * R의 특징 - 오픈소스 프로그램 - 월등한 그래픽 - 모든 운영체제에서 사용 가능 - 객체지향언어이자 함수형언어 2. R 기초 * 패키지 : R 함수와 데이터 및 컴파일된 코드의 모임 - reshape 패키지 : melt와 cast로 데이터 재구성 - data.table 패키지 : 큰 데이터를 탐색, 연산, 병합 - plyr 패키지 : apply함수를 기반으로 데이터 분리, 처리, 결합 - sqldf 패키지 : R에서 SQL명령어..
<ADsP> 3.1 데이터 분석 개요 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 데이터 분석 기법의 이해 * 시각화 - 복잡한 분석보다 더 효율적이며 빅데이터 분석에서 시각화는 필수이다. - SNA 분석(사회연결망 분석)을 할 때 자주 활용된다. * 공간분석(GIS) - 공간적 차원과 관련된 속성들을 시각화하는 분석 - 지도 위에 관련 속성들을 표시하여 인사이트를 도출 * 탐색적 자료 분석(EDA) - 다양한 차원과 값을 조합하여 특이점을 발견하고 분석하는 과정 - 시각화로 이상점을 식별함 - 데이터 품질과 정보량이 알고리즘의 학습을 좌우함 - ED..
<ADsP> 2.2 분석 마스터 플랜 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 마스터 플랜 수립 프레임 워크 * 마스터 플랜 수립 개요 - 우선순위 고려요소 : 전략적 중요도, 비즈니스 성과/ROI, 실행 용이성 - 적용범위/방식 고려요소 : 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준 - 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 정보전략계획인 ISP를 수행한다. * ROI 관점에서 빅데이터의 핵심 특징 * 우선순위 평가 기준 - 시급성 : 전략적 중요도와 목표가치에 부합하는가. - 난이도 : 기업의 분석..
<ADsP> 2.1 데이터 분석 기획의 이해 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 분석기획 방향성 도출 * 분석 대상과 방법 - 분석은 분석의 대상(What)과 분석의 방법(How)에 따라서 4가지로 나누어짐. * 목표 시점 별 분석 기획 방안 - 목표시점 별로 당면한 과제를 빠르게 해결하는 ‘과제 중심적 접근 방식’과 지속적인 분석 내재화를 위한 ‘장기적 마스터 플랜 방식’ 으로 나눌 수 있다. - 과제 중심적 접근 방식 : 속도와 성취가 중요하며 문제를 해결하는 것이 주된 목적 - 장기적 마스터 플랜 방식 : 정확하고 긴 관점에서 문제를 정의하는 ..
<ADsP> 1.4 기타 빅데이터 상식 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. DBMS와 SQL * DBMS - DBMS : 데이터베이스 관리 시스템이란 데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어다. * SQL - SQL : 데이터베이스에 접근가능한 데이터 베이스의 하부언어로 데이터의 정의와 조작기능을 갖추고 있다. - 집계함수 : AVG(평균반환), COUNT(개수반환), SUM(총합반환), STDDEV(분산반환), MIN(최소값반환), MAX(최대값반환) 중 COUNT함수만 수치형..