#선형_회귀와_이진_분류로_설명하는_기계학습_개념
기계학습이란? -
기계(Machine)가 스스로 해답을 찾을 수 있게 하는 것을 기계학습이라고 한다
과거에는 패턴인식, 데이터 마이닝 등 이름으로 불렸었던 때가 있었으나
현재는 통계적 기법을 적용한 인공신경망 - 딥러닝이 매우 유행하고 있다
기계학습의 탄생과 필요 -
우리는 입력과 출력은 알지만 그 중간 과정을 모르는 상황이 매우 많다
기계학습에 입문하기 위해서 -
선형대수, 미적분, 기초 통계학, 프로그래밍 등 능력을 요구한다
그리고 해결하고자 하는 문제의 전문분야(Domain) 지식 또한 필수다
기계학습에서 통계학이란? -
위 그림을 보면 데이터를 따라 하나의 추세선을 그릴 수 있는 것을 발견할 수 있다
이는 해당 데이터 군(群)을 하나의 선(Linear)으로 표현할 수 있다는 것을 의미한다
또는 해당 데이터 군의 데이터들이 이러한(선형적) 특징이 있다는 것을 의미하기도 한다
이러한 특징(규칙, 법칙, 패턴)을 가지고 있는지 판단하는 과정을 포함해서
그러한 특징(규칙, 법칙, 패턴)을 컴퓨터(프로그램)를 사용해 자동으로 찾아내고
다시 또 찾아낸 그 특징(규칙, 법칙, 패턴)을 컴퓨터(프로그램 등)에 적용해서 이용하는 것을
기계학습이라고 한다
(내용 - 기계학습의 정의)
물론 모든 데이터가 다 추세선이 존재하고 이를 선형적으로 다룰 수 있다는 것은 아니다
그래서 해당 문제에 맞는 올바른 데이터를 수집(데이터 수집)하고
데이터에 맞는 방식을 적용(모델 선택)하거나
적용할 수 있게 변환(데이터 전처리)을 하는 것이 매우 중요하다
회귀 -
기계학습을 시작할 때는 항상 선형 회귀부터 시작한다 (심층학습은 보통 퍼셉트론부터)
이유는 우리 실생활과 연관된 데이터가 많아 이해하기에 직관적이기 때문이라고 생각한다
아버지 아들 키 데이터 셋은 매우 유명한 예제다
선형 회귀의 시초가 되는 통계 자료인데
이는 통계적 기법을 사용하는 현대의 기계학습을 공부하기에 매우 알맞고
이해하기 직관적인 자료이기 때문이다
분류 -
회귀가 선형 회귀로 입문하듯이 분류는 가장 먼저 이진 분류를 다룬다
(사실 분류 또한 회귀와 같다, 선을 어디에 긋느냐 차이다)
캐글의 타이타닉 문제는 가장 대표적인 이진 분류 예제다
모든 탑승자의 정보와 일부 탑승자의 생존 여부가 담긴 파일이 주어지고
모든 탑승자의 각각의 생존 여부를 판단하는 문제다
(생존이면 1, 사망이면 0)
지도 학습과 비지도 학습
전처리와 특성 공학
악성코드를 AI로 분석하려면?(비공개)
데이터 분석의 과정
'Artificial Intelligence > Machine Learning' 카테고리의 다른 글
인공지능 - 기계학습 입문 03 (이진분류) (0) | 2020.08.15 |
---|---|
인공지능 - 기계학습 입문 02 (선형 회귀) (0) | 2020.08.14 |
댓글0