본문 바로가기

빅데이터

(10)
<ADsP> 3.5 정형 데이터 마이닝 (2) 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 4. 인공신경망 분석 * 인공신경망 - 인간 뇌를 기반으로 한 추론 모델로 가중치를 반복적으로 조정하며 학습 - 신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치를 갱신하며 신경망의 구조를 선택하고, 활용할 학습 알고리즘을 결정한 후 신경망을 훈련시킴 * 뉴런의 활성화 함수 - 활성화 함수 : 활성화함수는 입력값이 특정 뉴런에서 처리되어 결과값을 생성할때 적용되는 함수 - 시그모이드 함수 : 로지스틱 회귀분석과 유사하며, 0~1의 확률 값을 가진다. - softmax함수..
<ADsP> 3.5 정형 데이터 마이닝 (1) 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 데이터마이닝의 개요 * 데이터마이닝 - 데이터마이닝 : 대용량 데이터에서 의미있는 패텅을 파악하거나 예측하여 의사결정에 활용하는 방법 * 분석방법 - 지도학습 : 의사결정나무, 인공신경망, 회귀분석, 로지스틱 회귀분석 등 - 비지도학습 : 연관성규칙발견, 군집분석, SOM 등 * 데이터마이닝 추진단계 - 1. 목적 설정 : 무엇을 왜 하는지 목적 설정 - 2. 데이터 준비 : 충분한 양의 데이터를 확보 - 3. 가공 : 소프트웨어에 적용할 수 있는 형식으로 가공 - 4...
<ADsP> 3.4 통계 분석 (2) 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 4. 시계열 분석 * 시계열 자료 - 시간의 흐름에 따라 일정한 간격으로 이들을 관찰하여 기록한 자료를 말한다. 즉, 시계열 자료란 시간과 더불어 관측된 자료로 이는 종단면 자료에 해당한다. - 시계열 데이터 분석 절차 ① 시간 그래프 그리기 ② 추세와 계절성 제거 ③ 잔차 예측 ④ 잔차에 대한 모델 적합 ⑤ 예측된 잔차에 추세와 계절성을 더하고 미래를 예측 * 정상성 - 평균이 일정하다 : 모든 시점에 대해 일정한 평균을 가진다. 평균이 일정하지 않은 시계열은 차분을 통해 ..
<ADsP> 3.4 통계 분석 (1) 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 통계분석의 이해 * 통계 - 집단현상에 대한 구체적인 양적기술을 반영하는 숫자이다. 특히 사회집단 또는 자연집단의 상황을 숫자로 나타낸 것이다. - 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 추출되지 못해서 생기는 오차 - 표본편리 : 모수를 작거나 크게 추정하게 되는 오차 (확률화로 최소화하거나 제거가 가능하다.) - 비표본오차 : 표본 오차를 제외한 모든 오차로써 조사대상이 늘수록 증가하게 된다. (ex. 부주의, 실수, 알 수 없는 원인 등) * 표본 추출..
<ADsP> 3.3 데이터 마트 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 데이터 변경 및 요약 * 데이터 마트 개발 - 데이터 마트 : 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 볼 수 있음. - 요약변수 : 수집된 정보를 분석에 맞게 종합한 변수 - 파생변수 : 분석자가 특정 조건을 만족하거나 특정함수에 의해 값을 만들어 의미를 부여한 변수 * reshape의 활용 - 변수를 조합하여 시간, 상품 등의 차원에 결합하여 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터..
<ADsP> 3.2 R 프로그래밍 기초 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. R 소개 * 데이터 분석 도구의 비교 * R의 특징 - 오픈소스 프로그램 - 월등한 그래픽 - 모든 운영체제에서 사용 가능 - 객체지향언어이자 함수형언어 2. R 기초 * 패키지 : R 함수와 데이터 및 컴파일된 코드의 모임 - reshape 패키지 : melt와 cast로 데이터 재구성 - data.table 패키지 : 큰 데이터를 탐색, 연산, 병합 - plyr 패키지 : apply함수를 기반으로 데이터 분리, 처리, 결합 - sqldf 패키지 : R에서 SQL명령어..
<ADsP> 2.1 데이터 분석 기획의 이해 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 분석기획 방향성 도출 * 분석 대상과 방법 - 분석은 분석의 대상(What)과 분석의 방법(How)에 따라서 4가지로 나누어짐. * 목표 시점 별 분석 기획 방안 - 목표시점 별로 당면한 과제를 빠르게 해결하는 ‘과제 중심적 접근 방식’과 지속적인 분석 내재화를 위한 ‘장기적 마스터 플랜 방식’ 으로 나눌 수 있다. - 과제 중심적 접근 방식 : 속도와 성취가 중요하며 문제를 해결하는 것이 주된 목적 - 장기적 마스터 플랜 방식 : 정확하고 긴 관점에서 문제를 정의하는 ..
<ADsP> 1.4 기타 빅데이터 상식 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. DBMS와 SQL * DBMS - DBMS : 데이터베이스 관리 시스템이란 데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어다. * SQL - SQL : 데이터베이스에 접근가능한 데이터 베이스의 하부언어로 데이터의 정의와 조작기능을 갖추고 있다. - 집계함수 : AVG(평균반환), COUNT(개수반환), SUM(총합반환), STDDEV(분산반환), MIN(최소값반환), MAX(최대값반환) 중 COUNT함수만 수치형..
<ADsP> 1.2 데이터의 가치와 미래 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 빅데이터의 이해 * 빅데이터 활용의 3요소 : 데이터, 기술, 인력 * 빅데이터 정의의 범주 및 효과 - 데이터 변화 : 규모(Volume), 형태(Variety), 속도(Velocity) - 기술 변화 : 데이터 처리, 저장, 분석 기술 및 아키텍쳐, 클라우드 컴퓨팅 활용 - 인재, 조직 변화 : 데이터사이언티스트, 데이터 중심 조직 * 빅데이터의 기능과 비유 - 산업혁명의 석탄, 철 : 제조업을 포함하여 서비스 분야의 생산성까지 끌어올림. - 21세기의 원유 : 산업..
<ADsP> 1.1 데이터의 이해 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 데이터와 정보 * 데이터의 유형 - 정성적 데이터 : 언어와 문자등의 형태로 된 데이터를 의미한다. 주로 비정형 데이터이며, 주관적 내용이다. 따라서 통계분석이 어려워 많은 비용이 소모된다. (ex. A사 매출이 증가하였습니다.) - 정량적 데이터 : 수치적인 데이터부터 도형과 기호까지 포함한다. 주로 정형 데이터이며, 객관적 내용이 주를 이룬다. 따라서 통계분석이 용이하다. (ex.주가) * 지식경영 - 암묵지 : 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드..