t-test, 다중공선성에 대해 잘 아시는분 계실까요??

조회수 1441회

데이터분석 공부를 하면서 막히는 부분이 생겨서 질문해봅니다

statsmodel 활용하여 t-test 결과 변수들의 p값이 너무 높게 나와서 VIF 테스트를 진행하였습니다.

VIF Factor 값들을 줄이고자 MinMaxScaler로 정규화를 실행하였는데 VIF Factor 값들이 오히려 증가하였습니다.

주변에 물어볼 곳이 없네요 ㅠㅠ 아시는분 계실까요??

1 답변

  • 좋아요

    1

    싫어요
    채택 취소하기

    statsmodels 라이브러리를 이용해 t-test를 실행했을 때, p-value가 높게 나오는 것은 해당 변수가 의미 있는 통계적 효과를 갖지 않을 가능성을 보여줍니다. 즉, 귀무가설을 기각하지 못한다는 것을 의미하며, 해당 변수가 종속 변수에 미치는 영향이 통계적으로 유의미하지 않을 수 있다는 것을 나타냅니다.

    다중공선성 문제는 독립 변수들 간에 강한 상관관계가 있는 경우 발생합니다. 이 문제를 VIF(Variance Inflation Factor)를 통해 측정하며, 일반적으로 VIF 값이 5 이상이거나 10 이상인 변수는 다중공선성 문제가 있는 것으로 판단합니다.

    변수를 정규화하는 것이 다중공선성을 줄이는 데 도움이 되지 않는 이유는 다중공선성이 변수들 간의 상관관계에 기반하기 때문입니다. MinMaxScaler와 같은 스케일링 방법은 변수의 분포를 변환하거나 변수의 범위를 변경하지만, 변수들 간의 상관관계 자체를 변경하지는 않습니다. 따라서, 스케일링이 VIF 값을 크게 변화시키지 않습니다.

    다중공선성을 해결하는 방법으로는 변수 선택법, PCA(Principal Component Analysis)를 이용한 차원 축소, 또는 릿지(Ridge) 또는 라쏘(Lasso)와 같은 정규화 회귀 방법을 사용할 수 있습니다. 이러한 방법들은 변수들 간의 상관관계를 줄이거나, 다중공선성에 강한 모델을 사용함으로써 이 문제를 완화시킵니다.

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)