독립변수 간에 상관관계가 높으면 회귀분석 결과의 해석이 여러 모로 어려워진다. 이럴 경우 그대로 분석하지 않고, 해결하거나 또는 해석상에 고려해야 한다.
우선 다공선성이 의미하는 바를 알아보자. 다공선성(multicollinearity)은 독립변수가 다른 독립변수와 중복되는 것을 나타내는데, VIF(분산팽창지수)와 Tolerance를 사용해서 그 존재를 확인한다.
Tolerance는 1 - R²로 계산되며, R square는 해당 독립변수를 종속으로 그리고 다른 독립변수들을 독립으로 회귀분석을 실시했을 때의 설명량이다. 즉 Tolerance는 다른 독립변수들로 설명되지 않는 독립변수의 변량을 나타낸다. Tolerance의 역수가 VIF와 동일한 값을 가지므로, 두 지표는 동일한 정보를 제공한다. Tolerance가 0.1이면 VIF는 10이 된다.
일반적으로 VIF > 10이라는 기준을 사용하여 다공선성 문제를 진단한다. 독립변수의 변량의 90% 이상이 다른 독립변수들에 의해 설명된다는 의미다. 그러나 이 기준은 절대적인 것이 아니며, 데이터와 연구 상황에 따라 달라질 수 있다. 다공선성은 on/off의 문제가 아니다. 10이상의 극단의 경우에는 그대로 회귀분석을 실시하면 안된다는 것이지만 그 이하라 하더라도 독립변수간의 상관성을 결과 해석에 고려해야 한다.
다공선성이 존재할 경우, 회귀계수 추정에 불안정성이 발생한다. 회귀계수의 신뢰구간이 넓어지며, 이는 독립변수의 상대적 중요도를 판단하기 어렵게 만든다. 즉 분석결과 x1이 x2보다 영향력이 크다고 나왔지만 다시 데이터를 수집해서 분석해 보면 다른 분석결과가 나올 가능성이 높아진다.
다공선성이 존재할 경우의 대처 방법
다공선성이 확인되면, 가장 바람직한 해결책은 중복되는 독립변수를 삭제하는 것이다. 전집에서도 다공선성이 있다고 판단할 수 있으면, 중복되는 변수를 굳이 모델에 포함할 필요가 없기 때문이다. 두 변수를 하나로 통합하거나, 하나를 선택할 수도 있다. 그러나 전집에는 존재하지 않는 다공선성이 표본에서만 나타난 경우도 있다. 데이터 수집과정에서 특정 조건의 데이터가 수집되지 않았을 때 발생하기도 한다. 이 경우에는 두 변수의 통합 같은 방법은 적절하지 않을 것이다.
다른 독립변수를 추가하거나, 상호작용항 등을 포함하는 등 여러가지로 모델을 구성해서 다공선성이 나타나는 형태를 파악하는 것이 필요하다. 이후 분야 지식을 바탕으로 최적의 모델을 설정하는 것이 적절할 것으로 보인다.
그리고 해석에서도 유의가 필요하다. R square는 높지만 회귀계수들이 낮게 나타날 가능성이 있다. 그리고 회귀계수 자체가 불안정하기 때문에 변수간의 상대적 중요도를 파악할 때 특히 조심해야 한다. 예컨대 X1과 X2의 상관도가 높으면 이 중 어느 하나의 계수는 높게 그리고 다른 하나는 낮게 나타날 수도 있다. 이것을 토대로 그 중 하나가 더 중요하다고 해석할 수는 없다.
'요청 사항 (분석 관련)' 카테고리의 다른 글
통계적으로 유의하지 않게 나왔을 때: 분석의 검증력을 검토해야 (2) | 2025.03.24 |
---|---|
회귀분석, 어떻게 선택할까? - 종속변수에 따른 회귀모형 선택법 (0) | 2025.03.24 |
유의미하지 않은 통계적 결과: 해석과 처리 방법 (0) | 2025.03.21 |
작은 표본의 위험: 회귀분석을 위한 최소 표본 크기는? (0) | 2025.03.21 |
동등성 검증 (Equivalence Test) 실행방법 (JASP 이용 TOST test)예 (0) | 2025.03.15 |