본문 바로가기

데이터/데이터마이닝

(2)
R 기초 파이썬과는 다른 R에 대해서 좀 알아보겠습니다. 언어의 syntax는 언어들마다 다르기 때문에 좀 알아가는 시간이 필요합니다. 파이썬보다는 쉽지만 또한 그때문에 좀 까다로운 면이 있습니다. R데이터형 확인 class(x) mode(x) is.numeric(x) is.integer(x) is.logical(x) is.character(x) R데이터형 변경 as.logical(x) as.character(x) R기타 데이터 NULL 비어있다는 의미(0조차도 아니다) -반복적인 연산에서 배열이나 변수의 초기값(아무것도 들어있지 않음)으로 사용 -배열의 초기값이나 다른 변수의 속성을 제거하는데 사용 NA 결손값(not available) NaN 비수치(not a number), 0/0인 경우 Inf 무한대, 1..
데이터마이닝 로드맵 기본 개념 개념 설명 부연설명 독립변수 (입력변수, 예측변수, 일반적으로 X로 표시): 예측 모델의 입력변수 함수 y=f(x) 에 들어가는 x입니다. 종속변수 (출력변수, 목표변수, 타깃변수, 결과변수, 일반적으로 Y로 표시) 알고리즘 특정한 데이터마이닝 기술을 실행하기 위한 자세한 과정 예측/분류 목표 변수의 추정된 값 예측은 어떤 값이 나오고 분류는 어떤 클래스에 속하는가를 알려줍니다. 데이터 분할 --훈련데이터 --검증데이터 --평가데이터 데이터 분할하는 이유는 모델을 만들때 훈련데이터는 학습을 위해서 사용됩니다. 검증데이터는 훈련된 모델의 성능을 평가할때 사용합니다. 그런데 어떤 모델같은경우는 검증데이터를 사용해서 최적의 파라미터값을 찾기도 합니다. 따라서 평가데이터는 진정한 실전평가데이터로서 한..