기본 개념
개념 |
설명 |
부연설명 |
독립변수 |
(입력변수, 예측변수, 일반적으로 X로 표시): 예측 모델의 입력변수 |
함수 y=f(x) 에 들어가는 x입니다. |
종속변수 |
(출력변수, 목표변수, 타깃변수, 결과변수, 일반적으로 Y로 표시) |
|
알고리즘 |
특정한 데이터마이닝 기술을 실행하기 위한 자세한 과정 |
|
예측/분류 |
목표 변수의 추정된 값 |
예측은 어떤 값이 나오고 분류는 어떤 클래스에 속하는가를 알려줍니다. |
데이터 분할 |
--훈련데이터 --검증데이터 --평가데이터 |
데이터 분할하는 이유는 모델을 만들때 훈련데이터는 학습을 위해서 사용됩니다. 검증데이터는 훈련된 모델의 성능을 평가할때 사용합니다. 그런데 어떤 모델같은경우는 검증데이터를 사용해서 최적의 파라미터값을 찾기도 합니다. 따라서 평가데이터는 진정한 실전평가데이터로서 한번도 사용되어보지 않은 데이터세트입니다. |
점수 |
개발된 모델을 이용하여 새로운 데이터의 결과를 예측한 값 혹은 분류된 계층 |
y=f(x)의 스코어 값입니다. 평가점수이죠. |
로드맵
데이터 마이닝할때 R을 사용할 생각입니다. C언어보다 쉬운 파이썬, 파이썬보다 쉬운 R을 가지고 마이닝을 해보겠습니다. R은 시각화 하는데 좋은 언어는 아닙니다. 따라서 시각화는 다른언어로 진행하겠습니다.
교사학습은 지도학습으로서 학습데이터가 x 와 y값이 주어진채로 학습합니다. 모델은 마치 답을 모르는것처럼 학습데이터로부터 문제와 답을 가지고 배우게 됩니다.
반대로 비교사 학습은 답이 없습니다. 모델링을 해서 f를 찾는것이 아닙니다. 따라서 검증할수가 없습니다. 타킷변수 즉 목표변수가 없습니다.
예측은 특정한 값으로 결과를 뱉어냅니다. 가령 주식예측이라던가 가격이 얼마다 판매량이 얼마다 등으로 값으로 나옵니다.
분류는 클래스로 나눠줍니다.
시계열 예측은 타임시리얼 이라고해서, ,, 뭐 등등 일단 시작!