데이터 리터러시

부분과 전체가 다르게 말할 때: 심프슨(Simpson's Paradox)의 역설과 혼란변수 통제

skcho 2025. 3. 25. 13:30

전체 집단에서의 분석 결과가 하위 집단별 분석 결과와 정반대로 나타나는 경우가 있다. 이를 심프슨의 역설이라고 한다. 하위 집단별 분포가 차이가 있는데, 분석 과정에서 이런  혼란변수(confounding variable)를 통제하지 않았을 때 발생한다. 

예를 들어, 연구소별로 보면 근무기간이 길수록 보수가 높아지는 경향이 나타났다고 하자. 그런데 연구단지 전체를 대상으로 분석하면 오히려 근무기간이 길수록 보수가 낮아지는 결과가 나올 수 있다. 이처럼 전체 집단의 경향과 하위 집단의 경향이 상반되게 나타나는 현상이 심프슨의 역설이다.

왜 이런 일이 일어날까? 그 이유는 하위 집단 간의 구조적 차이 때문이다. 아래 예시 표를 보자.


예시 표: 연구소별 근무기간과 보수 수준

연구소                          평균 근무기간                평균 보수             연구원 수          특이사항
A 연구소 2년 500만 원 100명 주로 신입 연구원
B 연구소 10년 400만 원 20명 주로 경력 연구원
전체 평균 3.3년 480만 원 120명 A 연구소 인원이 많음

이 표에서 각 연구소 내에서는 근무기간이 길수록 보수가 높은 경향이 있지만, 전체적으로는 경력이 긴 B 연구소의 평균 보수가 낮기 때문에 전체 평균을 왜곡시키고 있다. 즉, A 연구소의 높은 보수와 많은 인원 비중이 전체 결과에 큰 영향을 준 것이다. 즉 A연구소에 근무하는 경력 2년의 연구원이 B연구소의 경력 10년보다 높은 것이다.  이 예는 극단적으로 과장해서 보여주었지만, 현실에서도 이러한 결과가 얼마든지 나타난다. 예컨대 부서별로 보면 분명 여성 근로자 비율이 높은데, 전체 회사 차원에서 보면 남성근로자가 많게 나타날 수 있고, 하위 지역별 분석과 전체 광역 분석결과가 상반될 수 있다..  

그렇다면 어느 분석이 '정확한' 분석일까?

분석의 목적이 근무기간(독립변수)이 보수(종속변수)에 미치는 영향을 알고자 하는 것이라면, 연구소별로 분석한 결과가 더 타당하다. 왜냐하면 이는 ‘연구소’라는 혼란변수를 통제한 분석이기 때문이다. 반면, 전체 집단을 단순히 분석한 결과는 중요한 혼란변수를 고려하지 않은 피상적인 관계에 불과하다.


요약

  • 심프슨의 역설은 혼란변수를 통제하지 않았을 때 나타나는 분석상의 착시이다.
  • 사회과학 연구에서는 혼란변수를 적절히 통제하는 것이 중요하다.
  • 독립변수와 종속변수의 관계를 명확히 파악하려면, 전체 집단의 단순 분석이 아닌 하위 집단별 차이를 살펴보고 필요하면 통제한 상태에서 분석해야 한다.