본문 바로가기

AI ML/ML

<ML기초> 통계와 머신러닝 분류

1. 통계

* 테이블

 - 앞선 장에서 봤듯이 어떤 결과를 위해서는 데이터가 필수이다. 데이터 산업은 데이터 과학과 데이터 공학으로 나눌 수 있다. 데이터 과학은 데이터를 생성하고 분석하는 일을 말하며, 데이터 공학은 데이터를 다루는 도구를 개발하고 관리하는 일을 말한다.

 

 - 데이터 산업에서는 테이블(또는 표)을 이해하는 것이 매우 중요하다. 표는 행과 열로 이루어져 있으며, 데이터를 넣을 수 있는 도구이다. 아무리 복잡한 데이터라도 표에 정리하면 컴퓨터를 통해 쉽고 빠르게 분석할 수 있다. 따라서 표는 데이터 분석의 시작점이라고 할 수 있다.

 

 - 표에서 가로를 행(row), 세로를 열(column)이라고 부른다. 만양 아이스크림 판매량 데이터를 표에 담게된다면 아래처럼 2가지 경우가 생길 것이다.

 - 데이터 산업에서는 왼쪽처럼 표를 만들기로 약속하였다. 표는 이제 데이터의 모음이며, 이러한 표를 데이터세트(dataset)라고 부르기도 한다. 

 

 - 행은 개체(instance)또는 관측치(observed value)라고도 부르며, 레코드(record)나 사례라는 의미의 케이스(case)라는 단어를 사용하기도 한다. 열의 경우에는 특성(feature), 속성(attribute), 변수(variable), 필드(field)라고도 부른다.

 

* 독립변수와 종속변수

 - 변수란 variable(변할 수 있는)이라는 의미를 갖는다. 위에서 봤던 아이스크림 판매량 표를 다시보자.

 - 표에서 변수는 열을 의미할 것이다. 온도의 값이 달라지기도하고 판매량의 값도 달라지고 있다. 단순히 변수로만 볼 것이 아니라 통찰력을 갖고 생각해보자. 온도에 따라 아이스크림 판매량이 변하는 것이 느껴질 것이다.

 

 - 독립변수는 '원인'이 되는 변수를 의미한다. 표에서 온도가 바로 독립변수이다. 원인은 결과와 상관없이 일어나는 사건이다. 그래서 독립이라는 단어가 사용된다. 그럼 판매량은 무엇일까. 판매량은 결과에 해당하는 변수일 것이다. 이를 원인에 종속되어 있다하여 종속변수라 한다.

 

 - 이제 우리는 위의 두 특성이 어떤 관련이 있다는 것을 알게되었다. 이러한 관계를 '상관관계'라 한다. 그런데 이 관계가 원인과 결과를 나타내고 있다. 이 때에는 '인과관계'라는 표현을 쓴다. 여기서 알 수 있듯이 인과관계는 상관관계에 포함되는 개념이다.

 

2. 분류

* 머신러닝 분류

- 머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 분류될 수 있다.

 - 지도학습(Supervised Learning)에서 '지도'는 가르친다는 의미이다. 우리가 문제집을 풀며 문제해결 능력을 기르듯이, 데이터로 컴퓨터에게 문제와 정답을 학습시켜 모델을 만드는 방식이다. 이 방법은 대부분의 머신러닝 문제를 해결하는데 사용된다.

 

 - 비지도학습(Unsupervised Learning)은 지도학습에 포함되지 않는 방법이다. 정답을 알려주지 않고도 대상에 대한 관찰을 통해 새로운 의미나 관계를 밝히도록 한다. 이 방법은 대용량 데이터에서 구조를 찾는데 유용하다.

 

 - 강화학습(Reinforcement Learning)은 학습을 통해 능력을 향상시킨다는 점은 지도학습과 비슷하지만, 문제집이 없다는 것이 차이점이다. 강화학습은 어떻게 하는 것이 더 좋은 결과를 낼 수 있는지 스스로 느낄 수 있도록 수련을 하는 것과 비슷하다. 규칙에 따라 잘 행동하는지 보고 결과에 따라 상과 벌을 준다. 더 큰 상을 받기위해 노력하게 하는 것이 강화학습이다.

 

* 머신러닝과 인공지능

 - 참고로 위에서 봤었던 그림에서 머신러닝이 인공지능 내부에 있는 것을 알 수 있다. 머신러닝이 아닌 AI는 무엇을 말하는 것일까. 이는 전통적인 이전의 방식을 의미한다. 전통적인 인공지능은 컴퓨터가 스스로 학습하는 것이 아닌, 규칙을 일일이 나열하는 방식으로 만들어졌다. 예를 들어, 사과를 가르쳐주기 위해서 아래와 같이 알려줄 것이다.

 

 1. 빨간 것은 사과야

 2. 동그란 것은 사과야

 3. 속이 노랗다면 사과야

 

 - 하지만 최근의 방식인 머신러닝은 데이터(위의 예시에서는 사과 사진 여러 장)를 통해 스스로 규칙을 학습하도록 하는 것이다. 이러한 방식은 규칙을 일일이 나열하는 방식보다 훨씬 효과적이다.

 - 이러한 분류에서 머신러닝은 또 통계기반과 딥러닝 기반으로 나뉠 수 있다. 

 

 - 통계기반의 머신러닝은 통계학에서 유래된 알고리즘을 활용한다. 하지만 컴퓨터의 무수한 발전을 통해 우리는 사람의 신경망과 비슷한 인공신경망을 만들 수 있게 되었다. 딥러닝 기반의 머신러닝은 이러한 인공신경망을 기반으로 한 방식이다. 행렬로 만들기 어려운 이미지, 음성, 텍스트 분야에 활용되기 좋다.

 


참고

 

 해당 포스팅은 생활코딩 머신러닝 이론편을 읽고 개인적으로 필요한 내용을 추가 및 정리한 글입니다.

 

 

생활코딩 머신러닝 이론편 - YES24

누구나 이해할 수 있는 모두의 인공지능 입문서!인공지능은 현대인이라면 교양과 상식으로 누구나 알아야 합니다. 초등 교육 과정을 비롯해 아이들의 정규 교육 과정에도 포함될 예정이라고 합

www.yes24.com

 

 

 

[AI란 무엇인가] 인공지능 머신러닝 딥러닝 차이점 총정리 혼자 공부하는 책

[AI란 무엇인가] 인공지능 머신러닝 딥러닝 차이점 총정리 두 줄 요약: ‘인공지능 > 머신러닝 > 딥러닝 순서로 범위가 크다’ 라고 이해하시면 편합니다.인공지능은 머신러닝과 딥러닝을 포괄하

hongong.hanbit.co.kr

 

 

'AI ML > ML' 카테고리의 다른 글

<ML기초> 지도학습 | 비지도학습 | 강화학습  (1) 2023.05.19
<ML기초> 머신러닝이란  (0) 2023.05.15