분류분석에서 타겟값과 원핫인코딩에 대한 질문입니다.
조회수 364회
안녕하세요.
타겟값이 1,2,3,4,5 로 이루어진 평점 데이터입니다.
분류 모델을 사용해서 x 값에 따른 타겟값을 분류하는게 목적이었는데 타겟값을
1,0,0,0,0
0,1,0,0,0
0,0,0,1,0
....
원핫인코딩으로 주는것과
1
2
4
5
...
그냥 단순하게 숫자로 이루어진 타겟값을 주는것과 차이가 존재 할까요??
1 답변
-
타겟값이 평점이라면, 평점간의 순서관계가 있는 거네요. ( 1 < 2 < 3 < 4 < 5 )
그렇다면 원핫인코딩을 하지 않는 게 더 타당해 보입니다.
원핫인코딩을 하는 경우는 타겟을 일렬로 늘어놓을 수 없을 때 하는 겁니다. 예를 들어서, 사과, 배, 오렌지를 분류한다고 했을 때, 각각을 1, 2, 3 이라고 하면, 사과같고 오렌지같은데 배같지는 않은 것을 1과 3의 평균인 2로 예측할 수 있겠죠. 그런데, 이게 배와는 전혀 다른 거잖아요. 이럴 때는 원핫인코딩을 하는 게 맞겠습니다.
댓글 입력