데이터 분석방법

혼란 변수(Confounding Variables) 통제: 인과관계 분석의 핵심

skcho 2025. 3. 14. 03:19

 사회과학 연구에서 큰 도전 중 하나는 특정 변수(독립변수)가 종속변수에 미치는 영향을 정확하게 추정하는 것이다. 사회과학 연구는 사회적 현상의 패턴을 단순히 밝혀낼 뿐만 아니라 설명하고자 하기 때문이다. 그러나 현실에서는 다양한 외부 요인(혼란 변수, Confounder)이 존재하여 연구자가 관심 있는 변수의 순수한 영향을 파악하는 것을 어렵게 만든다. 따라서 혼란 변수를 효과적으로 통제하는 것이 인과관계 분석의 핵심이다.

 

혼란 변수란 무엇인가?

 

혼란 변수는 독립변수가 아니면서 종속변수와 독립변수에 동시에 영향을 주는 변수를 말한다예컨대, 아이스크림 판매량(X)이 증가할 때 익사자 수(Y)도 증가하는 상황을 생각하자. 아이스크림이 익사를 유발한 것이 아니라 기온상승(Z)이 아이스크림 판매도 늘리고, 익사자도 늘렸을 가능성이 있다. 즉 기온상승(Z)이 혼란 변수로 작용했을 가능성이 있다.

 

Z (기온상승)

 

X --> Y

 

 

혼란 변수를 제거하는 방법

 

사회과학 연구에서는 이러한 혼란 변수를 제거하고 독립변수(X)가 종속변수(Y)에 미치는 순수한 효과를 파악하려 한다. 혼란 변수를 제거하는 방법은  다음과 같이 구분할 수 있다.

 

- 실험설계를 통한 통제: 무작위 배정을 통해 혼란 변수의 영향을 제거한다.

- 통계적 통제: 회귀분석 등의 통계적 방법으로 통제한다.

- 혼합방법: 연구설계와 통계적 방법을 혼합하여 일부는 설계를 통해 배제하고 일부는 통계적으로 통제한다.

 

여기서 설계를 통해 배제한다는 것은, 혼란 요인의 작용을 막을 수 있도록 설계를 한다는 것이다. 예컨대 성별이 영향을 미칠 수 있는 경우, 실험설계에서 남녀를 무작위로 배치하거나, 특정 성별만 관찰하면 성별의 영향을 배제할 수 있다. 단 특정 성별만 관찰하면 연구의 일반화 가능성을 제한할 수 있다.  설계상 이를 완전히 제거하기 어렵다면, 성별을 통계적으로 통제하여 독립 변수의 순수한 효과를 분석할 수 있다. 예컨대 교육과 소득의 관계를 남성과 여성 집단을 따로 분석함으로써 성별을 통제한다. 이렇게 하면 성별의 차이에서 발생하는 소득의 영향을 배제할 수 있다.

 

전통적으로 회귀분석(regression analysis)이 혼란 변수를 통제하는 방법으로 사용되어왔다. 회귀분석은 모델에 포함된 모든 변수를 통제한 상태에서 투입된 각 변수의 효과를 분석하는 방법이다. 혼란 변수를 통제하려면 해당 변수를 회귀모델에 포함하고, 독립변수의 계수를 확인하면 된다. 회귀분석은 사회조사와 같이 실험설계를 활용하기 어려운 연구에서 인과관계를 찾는 데 활용된다.

 

혼란 변수를 포함하지 않았을 때의 문제

 

연구자가 혼란 변수를 모델에 포함하지 않으면 독립변수의 효과가 과대 혹은 과소 추정될 위험이 있다. 예를 들어 교육수준(X)이 소득(Y)에 미치는 영향을 연구할 때, 가정 배경(Z)를 통제하지 않으면 교육의 효과가 실제보다 과장되게 나타날 수 있다. 반대로 누락된 혼란 변수가독립변수와 반대 방향으로 작용하면 교육의 영향이 과소 추정된다. 회귀분석 방법을 사용할 때는 중요한 혼란 변수를 빠짐없이 포함해야 한다.

 

혼란 변수가 아닌 변수를 포함할 때의 문제

 

혼란 변수가 아닌 변수가 모델에 포함되면 불필요한 오차가 증가하여 연구자가 보고자 하는 관계가 희석될 수 있다. 예컨대 인구학적 변수를 무조건 통제하는 것은 검증력을 낮추고, 인구학적 변수에 결측 값이 있으면 분석 결과에 편향이 발생할 수 있다. 혼란 변수는 독립변수와 종속변수 모두에 영향을 주는 변수로, 단순히 종속변수에 연관성이 있다고 해서 통제하는 것은 적절하지 않다.

 

인과관계 분석과 혼란 변수의 누락 방지

 

사회과학에서 인과관계 분석은 독립변수(X)가 종속변수(Y)에 미치는 순수한 효과를 밝혀내는 과정이다. 이러한 인과관계는 다음을 통해 확인한다.

 

- 공변 관계: XY가 관계가 통계적으로 있어야 한다.

- 시간적 선후: XY보다 먼저 발생해야 한다.

- 제3의 변수 배제: 다른 요인이 XY에 동시에 영향을 주지 않아야 한다.

 

따라서 인과 분석에서는 독립변수와 종속변수의 공변 관계를 확인한 다음에는 혼란 변수를 빠짐없이 배제하는 것이 핵심이다중요한 혼란 변수가 누락되면 모델의 설명력이 낮아진다. 따라서 R square 값이 기존 연구에서 나온 것보다 현저히 낮거나 잔차가 독립변수와 상관도가 있으면, 혼란 변수의 누락 가능성을 확인할 필요가 있다. 또 기존 연구를 검토해서 중요한 변수가 모두 포함되었는지 확인하는 것도 필요하다.

 

회귀분석의 한계

 

회귀분석은 인과관계 분석에 널리 사용되지만, 정확한 인과 추정이 어려운 경우가 있다. 중요한 혼란 변수가 모델에 포함되지 않았거나, 변수 간의 비선형 관계나 상호작용 효과가 있을 때 이를 모델 구성에 포함되지 않았을 경우 등이다. 물론 모델 구성에서 비선형 관계나 상호작용을 포함할 수는 있지만 통제변수가 많으면 모델이 복잡해진다. 예컨대 4개 변수의 상호작용을 모두 포함하면 모델에 투입되는 변수가 15개가 된다. (2원 상호작용 6, 3원 상호작용 4, 4원 상호작용 1, 주효과 4).  회귀분석이 좋은 기법이기는 하지만 현실의 많은 혼란 변수의 영향을 언제나 효과적으로 배제해 주지는 못한다.   또 혼란 변수 중에는 측정되지 않은 것들도 있다. 회귀분석은 모델에 포함되어야 통제할 수 있기 때문에 중요한 혼란 변수가 데이터에 포함되지 않았으면 통제할 수 없다.

 

그래서 회귀분석보다 효과적으로 혼란 변수를 통제할 수 있는 방법들이 제시되고 있다. 상황에 따라서는 이러한 방법들을 사용하면 회귀분석을 사용하는 것보다 효과적으로 혼란 변수의 영향을 배제하고 독립변수들의 효과를 분석해 낼 수 있다. 아래에서 대표적인 방법들을 소개한다

 

이중차분법(Difference-in-Differences, DID)

 

이중차분법(DID)은 정책효과 분석에서 사용되는 준실험적 방법으로, 시간에 따라 일정하게 변하는 혼란 변수를 통제하여 독립변수 예컨대 정책의 순수한 효과를 분석한다. 정책이 시행된 집단 (처치 집단)과 정책이 시행되지 않았지만 다른 측면에서는 시행된 집단과 유사한 집단(통제 집단)을 선정한다. 그리고 두 집단은 유사한 시간적 추세를 보였을 것이라고 가정하에 두 집단 간 차이를 비교하여 정책 효과를 추정한다. 이 분석에서 중요한 가정은 두 집단이 시간에 따라 동일한 추세를 보일 것이라는 점이다. 그리고 두 집단이 정책 전후의 변화추세가 동일하지 않을 경우, 그것은 정책 효과 때문으로 본다.

이 방법은 혼란 변수를 회귀분석처럼 모델에 변수로 넣어 통제하는 것이 아니라 유사한 집단을 선정함으로써 제거한다. 따라서 혼란 변수의 누락이나 변수 간의 형태 등에 관계없이 통제할 수 있다는 점에서 회귀분석을 통한 통제보다 효과적이다. 그러나 통제 집단이 처치 집단과 유사하지 않으면 분석한 결과를 정책의 효과로 보기 어렵다.

 

예를 들어, 최저임금이 인상된 후 고용률 변화를 분석한다고 가정하자. 단순한 전후 비교는 경제 상황 변화 등의 외부 요인 영향을 받을 수 있다. 따라서 고용률 변화가 최저임금 인상의 결과인지 아니면 시간적 변화에 따른 결과인지 구분되지 않는다. 그러나 최저임금이 인상되지 않은 유사한 도시를 통제 집단으로 설정하고, 그 도시의 같은 기간 동안의 변화와 처치 집단의 변화를 비교하면 시간적 변화라는 혼란 변수를 제거할 수 있다고 가정한다.

 

회귀 불연속 설계(Regression Discontinuity Design, RDD)

 

RDD는 정책이나 어떤 사건이 특정 임계값 (컷오프)을 기준으로 적용될 때 활용할 수 있는 방법이며, 관측되지 않는 혼란 변수들의 영향을 효과적으로 통제할 수 있다. 이 방법은 임계값 근처의 사례들은 혼란 변수의 측면에서 차이를 보이지 않는다고 가정한다. 예컨대 임계값 부근에선 정책이 적용된 사례와 그렇지 않은 사례들이 본질적으로 매우 유사하지만, 정책 적용 여부만 다르다고 본다. 따라서 이 두 집단을 비교하면 혼란 변수들의 영향을 배제하고 독립변수의 영향을 파악할 수 있다고 본다.

 

예를 들어, 정부가 소득 3,000만 원 이하 가구에 지원금을 제공했을 때, 연소득 2,990만 원과 3,010만 원인 가구는 경제적 특성이 거의 동일하다고 가정한다. 따라서 이들을 비교하면 혼란 변수들의 영향을 제거하고 지원금의 효과를 분석할 수 있다고 본다. 또 다른 예로 과거 3년간의 실적을 기준으로 연구비를 지급했을 때, 기준점을 약간 초과하여 받게 된 기관과 그렇지 않고 약간 미달하여 받지 못한 기관들은 연구력에서 본질적으로 차이가 없다고 가정하고, 이들 집단을 비교하여 연구비 지원의 효과를 본다

이 방법은 기준점 부근의 사례에 혼란 변수에서 차이가 존재하거나, 사례 수가 충분하지 않으면 적용하는 것이 적절치 않을 수 있다.

 

도구변수(Instrumental Variable, IV) 방법

 

도구변수 방법은 독립변수가 종속변수에 영향을 줄 뿐만 아니라 종속변수로부터도 영향을 받는 문제 즉 내생성 문제를 해결하는 방법이다. 예를 들어, 안전교육이 안전사고 발생률에 미치는 영향을 분석할 때, 사고가 발생한 사업장에서 안전교육을 평소보다 많이 했을 수도 있다. 이런 경우 보통의 회귀분석을 하게 되면, 교육을 많이 실시한 사업장에 사고가 더 많다는 분석 결과가 나올 수 있다. 그렇지만 이것은 사고가 발생한 사업장이 교육을 증가시켜서 그렇게 나올 수도 있다. 이런 경우에 독립변수의 순수한 변화를 종속변수의 영향을 제거하고 파악해야 하는데 이런 방법이 도구 변수 방법이다.

독립변수와 강하게 관련되지만 종속변수에는 직접적인 영향을 미치지 않는 외부 변수를 찾아 이를 통해 독립변수의 순수한 영향을 추정한다. 여기서는 종속변수와 직접 관련이 없는 도구 변수를 찾는 것이 중요하다. 예컨대 사업장 교육에 대한 정부 규제가 있고 기업들이 통상적으로 정부에서 요구하는 정도의 안전교육을 실시한다면 이러한 정부 규제가 요구하는 교육 정도가 도구 변수가 될 수 있다.

 

성향점수 매칭(Propensity Score Matching, PSM)

 

PSM은 처치집단(정책 시행 집단)과 통제집단(비시행 집단)이 유사한 특성을 가지도록 1:1로 대응하여 통제집단을 구성하는 방식이다. 처치집단에 있는 개별 사례들이 처치집단에 속할 확률을 계산하고, 그 확률과 동일하지만 처치를 받지 않은 사례를 찾아 통제집단에 포함한다. 예컨대 사례 A가 정부 지원금을 받았다면 여러 가지 특성에서 A와 유사하여 지원금을 받았을 확률이 동일하지만 지원금을 받지 못한 사례를 찾아 통제집단에 포함한다. 즉 처치 집단은 처치에 노출되었고, 통제집단은 노출되지 않았지만, 노출될 확률은 동일하도록 구성하는 것이다. 이렇게 함으로써 두 집단 간 나타나는 종속변수의 차이는 처치의 효과라고 보는 것이다.

PSM 통제방법은 1:1로 정확히 대응하기 때문에 혼란변수 통제가 효율적일 수 있다. 회귀분석과 마찬가지로 성향을 산출할 때 사용할 변수들이 중요하다. 또 통제집단으로 선택할 사례가 많지 않거나 두 집단의 성향차이가 커서 대응하는 사례들을 찾기 어려운 경우는 적용하기 어렵다. 예컨대 정부 지원금의 효과를 알아보기 위해 지원금 받은 집단과 동일한 통제집단을 구성할 때 여러 가지로 지원금 받은 집단과 동일하지만 지원금을 받지 않는 사람을 찾기 어려울 수도 있다. 이런 경우는 PSM 방안이 오차 요인을 제거해 주지 못한다.

 

4. 머신러닝 기반 인과적 트리 분석, Causal Tree Analysis

 

전통적인 인과추론 방법은 연구자가 사전에 특정 변수를 선택해야 하지만, 머신러닝 기반 인과추론 방법은 처치 효과에 차이를 가져오는 변수를 찾아 준다. 명시적으로 혼란 변수를 통제하는 것은 아니지만, 처치 효과에 영향을 주는 변수에 따라 집단을 계속해서 구분해서, 세부 하위 집단별로 처치 효과를 보여준다. 따라서 주요 변수별로 처치효과의 차이 즉 이질적 처치효과 (Heterogeneous Treatment Effect, HTE)를 보여준다. 예컨대 정부지원금의 효과를 인과적 트리로 분석하게 되면, 남성 40대 집단에서는 처치효과가 5%로 나타났지만, 남성 10대에서는 7%였다는 식이다. 변수간 관계가 선형이 아니거나 상호작용이 있는 경우에도 적용할 수 있다. 따라서 전통적인 방법에 비해 모델 구축에서 연구자의 가정이 덜 요구된다. 그리고 머신러닝 기반이기 때문에 유의 확률을 계산해 주지 않는다.

 

사회과학 연구에서 인과관계를 정확하게 분석하기 위해서는 통제하고자 하는 혼란 변수의 특성에 따라 분석이 적절하게 이루어져야 한다. 어떤 기법이냐가 중요한 것이 아니라 그 기법을 통해 혼란 변수들이 잘 통제되었는지가 중요하다. 즉 중요 혼란 변수들이 식별되었고, 통제되었는지가 핵심이다. 이 글에서 소개한 방법들은 각기 다른 가정하에 혼란 변수를 제거하거나 통제한다. 모든 상황에 적용이 가능한 완벽한 방법은 없으며, 각 방법의 특성을 이해하는 것이 필요하다