논문의 통계 분석 실수들

더빈-왓슨(Durbin-Watson) 검증에 대한 오해: 시계열 분석 도구의 잘못된 적용

skcho 2025. 3. 26. 13:52

 회귀 분석 논문들 중 일부는 단면조사 데이터를 대상으로 더빈-왓슨(Durbin-Watson, DW) 검증을 실시하고,  d값이 2에 가깝다는 이유로 “해당 변수로 회귀 분석을 수행해도 된다”고 해석한다.  이러한 해석은 d 가 의미하는 바를 제대로 이해하지 못한 데서 비롯된 것이다.


d 계수는 시계열 데이터에만 적용 가능

d 계수는 시간의 흐름에 따라 반복 측정된 데이터에서 오차항 간 자기상관이 존재하는지를 알기 위해 사용된다. 즉, 이전 시점의 오차가 현재 오차에 영향을 주는지를 판단하는 지표다.  단면조사 데이터는 모든 사례가 동일한 시점에서 수집되므로, 사례 간에는 시간적 순서도, 자기상관도 존재하지 않는다. 따라서 DW 계수를 사용하는 것 자체가 무의미하며,
그 값을 근거로 회귀 분석의 적절성을 판단하는 것은 적절치 않다. 


d 계수는 ‘계산할 필요가 없는 것’이 아니라 ‘계산 자체가 무의미한 것’

단면조사 데이터에서 d를 계산하는 것은 존재하지 않는 것을 보려는 것이다.  단면조사 데이터에서는 적용할 필요도 없고 적용 자체가 논리적으로 성립되지 않는다.  


 VIF와 Tolerance는 같은 개념의 표현이다

개념을 이해하지 못하고 사용한다는 것은 VIF와 Tolerance에서도 종종 나타난다. VIF(Variance Inflation Factor)는 회귀분석에서 다중공선성을 판단하는  대표적인 지표다. 일반적으로 VIF가 10을 넘으면 해당 변수는 다른 변수들과 과도하게 연관되어 있다고 해석한다. 그리고 Tolerance는 VIF의 역수로, Tolerance = 1 / VIF이다.  즉  두 지표는  동일한 정보를 다른 방식으로 표현한 것이다. 

그럼에도 불구하고 일부 분석에서는 “VIF는 높고 Tolerance도 낮았다”는 식으로 두 지표를 별개의 기준처럼 사용하는 오류가 나타난다. 이는 통계 지표의 정의를 명확히 이해하지 못한 데서 비롯된 잘못된 표현이다.