본문 바로가기

데이터이해

(9)
<ADsP> 3.4 통계 분석 (2) 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 4. 시계열 분석 * 시계열 자료 - 시간의 흐름에 따라 일정한 간격으로 이들을 관찰하여 기록한 자료를 말한다. 즉, 시계열 자료란 시간과 더불어 관측된 자료로 이는 종단면 자료에 해당한다. - 시계열 데이터 분석 절차 ① 시간 그래프 그리기 ② 추세와 계절성 제거 ③ 잔차 예측 ④ 잔차에 대한 모델 적합 ⑤ 예측된 잔차에 추세와 계절성을 더하고 미래를 예측 * 정상성 - 평균이 일정하다 : 모든 시점에 대해 일정한 평균을 가진다. 평균이 일정하지 않은 시계열은 차분을 통해 ..
<ADsP> 3.4 통계 분석 (1) 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 통계분석의 이해 * 통계 - 집단현상에 대한 구체적인 양적기술을 반영하는 숫자이다. 특히 사회집단 또는 자연집단의 상황을 숫자로 나타낸 것이다. - 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 추출되지 못해서 생기는 오차 - 표본편리 : 모수를 작거나 크게 추정하게 되는 오차 (확률화로 최소화하거나 제거가 가능하다.) - 비표본오차 : 표본 오차를 제외한 모든 오차로써 조사대상이 늘수록 증가하게 된다. (ex. 부주의, 실수, 알 수 없는 원인 등) * 표본 추출..
<ADsP> 3.2 R 프로그래밍 기초 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. R 소개 * 데이터 분석 도구의 비교 * R의 특징 - 오픈소스 프로그램 - 월등한 그래픽 - 모든 운영체제에서 사용 가능 - 객체지향언어이자 함수형언어 2. R 기초 * 패키지 : R 함수와 데이터 및 컴파일된 코드의 모임 - reshape 패키지 : melt와 cast로 데이터 재구성 - data.table 패키지 : 큰 데이터를 탐색, 연산, 병합 - plyr 패키지 : apply함수를 기반으로 데이터 분리, 처리, 결합 - sqldf 패키지 : R에서 SQL명령어..
<ADsP> 2.2 분석 마스터 플랜 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 마스터 플랜 수립 프레임 워크 * 마스터 플랜 수립 개요 - 우선순위 고려요소 : 전략적 중요도, 비즈니스 성과/ROI, 실행 용이성 - 적용범위/방식 고려요소 : 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준 - 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 정보전략계획인 ISP를 수행한다. * ROI 관점에서 빅데이터의 핵심 특징 * 우선순위 평가 기준 - 시급성 : 전략적 중요도와 목표가치에 부합하는가. - 난이도 : 기업의 분석..
<ADsP> 2.1 데이터 분석 기획의 이해 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 분석기획 방향성 도출 * 분석 대상과 방법 - 분석은 분석의 대상(What)과 분석의 방법(How)에 따라서 4가지로 나누어짐. * 목표 시점 별 분석 기획 방안 - 목표시점 별로 당면한 과제를 빠르게 해결하는 ‘과제 중심적 접근 방식’과 지속적인 분석 내재화를 위한 ‘장기적 마스터 플랜 방식’ 으로 나눌 수 있다. - 과제 중심적 접근 방식 : 속도와 성취가 중요하며 문제를 해결하는 것이 주된 목적 - 장기적 마스터 플랜 방식 : 정확하고 긴 관점에서 문제를 정의하는 ..
<ADsP> 1.4 기타 빅데이터 상식 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. DBMS와 SQL * DBMS - DBMS : 데이터베이스 관리 시스템이란 데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어다. * SQL - SQL : 데이터베이스에 접근가능한 데이터 베이스의 하부언어로 데이터의 정의와 조작기능을 갖추고 있다. - 집계함수 : AVG(평균반환), COUNT(개수반환), SUM(총합반환), STDDEV(분산반환), MIN(최소값반환), MAX(최대값반환) 중 COUNT함수만 수치형..
<ADsP> 1.3 데이터 사이언스와 전략 인사이트 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 빅데이터 분석과 전략 인사이트 * 산업별 분석 애플리케이션 - 금융 : 신용점수 산정, 사기 탐지, 고객 수익성 분석 - 제조업 : 재고 보충, 신상품 개발 - 병원 : 고객 로열티, 수익 관리 - 에너지 : 트레이딩, 수요공급예측 - 정부 : 사기 탐지, 범죄 방지 2. 전략 인사이트 도출을 위한 필요 역량 * 데이터 사이언스의 의미와 역할 - 의미 : 데이터 사이언스란 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화 등 해당 분야의 전문지식을 종합한 학문이다. -..
<ADsP> 1.2 데이터의 가치와 미래 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 빅데이터의 이해 * 빅데이터 활용의 3요소 : 데이터, 기술, 인력 * 빅데이터 정의의 범주 및 효과 - 데이터 변화 : 규모(Volume), 형태(Variety), 속도(Velocity) - 기술 변화 : 데이터 처리, 저장, 분석 기술 및 아키텍쳐, 클라우드 컴퓨팅 활용 - 인재, 조직 변화 : 데이터사이언티스트, 데이터 중심 조직 * 빅데이터의 기능과 비유 - 산업혁명의 석탄, 철 : 제조업을 포함하여 서비스 분야의 생산성까지 끌어올림. - 21세기의 원유 : 산업..
<ADsP> 1.1 데이터의 이해 이 글은 데이터분석준전문가(ADsP)를 취득 후 정리하며 쓰는 글입니다. ADsP 의 공부방법 및 후기글은 하단의 일상블로그 링크를 참고해주세요. 데이터에듀사의 교재를 참고하였으며, 작성된 모든 내용과 그림은 직접 재구성하였습니다. 1. 데이터와 정보 * 데이터의 유형 - 정성적 데이터 : 언어와 문자등의 형태로 된 데이터를 의미한다. 주로 비정형 데이터이며, 주관적 내용이다. 따라서 통계분석이 어려워 많은 비용이 소모된다. (ex. A사 매출이 증가하였습니다.) - 정량적 데이터 : 수치적인 데이터부터 도형과 기호까지 포함한다. 주로 정형 데이터이며, 객관적 내용이 주를 이룬다. 따라서 통계분석이 용이하다. (ex.주가) * 지식경영 - 암묵지 : 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드..