파이썬 데이터 스케일링 질문입니다. Standard Scaler

Question

파이썬 데이터 스케일링 질문입니다. Standard Scaler

조회수 591회

python

python3

0

싫어요

오랜만에 인사드립니다. (__)

모델에 fit 하기전에 데이터 사이즈가 재각기라 스케일링으로 평균과 분산을 조정하는 작업이 필요하다고 배웠습니다.

여기서 보통은 train_test_split으로 train set/ test set으로 분리한 다음에 스케일링을 하는 작업을 하는데

전체 데이터프레임을 스케일링하고 train_test_split으로 분리해서 accuracy_score 평가를 하는데

스코어가 달라져서 궁금해졌습니다.

트레인,테스트셋 분리하고 스케일링과 스케일링 후 트레인,테스트셋 분리 어떤 방식이 맞을까요?

또 스케일링 후 fit 할 때

scaler1 = StandardScaler()
scaler1.fit(X_train)
X_train_scale = scaler1.transform(X_train)
X_test_scale = scaler1.transform(X_test)

위 방식과 아래방식에서

scaler1 = StandardScaler()
X_train_scale = scaler1.fit_transform(X_train)
X_test_scale = scaler1.fit_transform(X_test)

차이가 있을까요???

seonwoochoi 15 points

2022-06-19 23:40:20에 작성됨

댓글 입력

score 1 · Accepted Answer

train / test 분리 후 train data에만 scaler를 fit하고 해당 scaler로 train data, test data를 transform 해줍니다

이유) test data를 scaler의 적합에 이용하는 경우 data leakage에 해당합니다.

다만, Kaggle처럼 별도의 test data가 존재하며, train data로 CV를 하는 과정에서 train / validation data를 나누는 경우에는 스코어를 최대한 올리기 위해 train data 전체를 이용해 스케일링을 할 수 있습니다

(train data는 이미 알고 있는 데이터이고 test data는 모른다는 가정 하에 분석을 진행하면 됩니다)