전체 집단에서의 분석 결과가 하위 집단별 분석 결과와 정반대로 나타나는 경우가 있다. 이를 심프슨의 역설이라고 한다. 하위 집단별 분포가 차이가 있는데, 분석 과정에서 이런 혼란변수(confounding variable)를 통제하지 않았을 때 발생한다.
예를 들어, 연구소별로 보면 근무기간이 길수록 보수가 높아지는 경향이 나타났다고 하자. 그런데 연구단지 전체를 대상으로 분석하면 오히려 근무기간이 길수록 보수가 낮아지는 결과가 나올 수 있다. 이처럼 전체 집단의 경향과 하위 집단의 경향이 상반되게 나타나는 현상이 심프슨의 역설이다.
왜 이런 일이 일어날까? 그 이유는 하위 집단 간의 구조적 차이 때문이다. 아래 예시 표를 보자.
예시 표: 연구소별 근무기간과 보수 수준
A 연구소 | 2년 | 500만 원 | 100명 | 주로 신입 연구원 |
B 연구소 | 10년 | 400만 원 | 20명 | 주로 경력 연구원 |
전체 | 평균 3.3년 | 480만 원 | 120명 | A 연구소 인원이 많음 |
이 표에서 각 연구소 내에서는 근무기간이 길수록 보수가 높은 경향이 있지만, 전체적으로는 경력이 긴 B 연구소의 평균 보수가 낮기 때문에 전체 평균을 왜곡시키고 있다. 즉, A 연구소의 높은 보수와 많은 인원 비중이 전체 결과에 큰 영향을 준 것이다. 즉 A연구소에 근무하는 경력 2년의 연구원이 B연구소의 경력 10년보다 높은 것이다. 이 예는 극단적으로 과장해서 보여주었지만, 현실에서도 이러한 결과가 얼마든지 나타난다. 예컨대 부서별로 보면 분명 여성 근로자 비율이 높은데, 전체 회사 차원에서 보면 남성근로자가 많게 나타날 수 있고, 하위 지역별 분석과 전체 광역 분석결과가 상반될 수 있다..
그렇다면 어느 분석이 '정확한' 분석일까?
분석의 목적이 근무기간(독립변수)이 보수(종속변수)에 미치는 영향을 알고자 하는 것이라면, 연구소별로 분석한 결과가 더 타당하다. 왜냐하면 이는 ‘연구소’라는 혼란변수를 통제한 분석이기 때문이다. 반면, 전체 집단을 단순히 분석한 결과는 중요한 혼란변수를 고려하지 않은 피상적인 관계에 불과하다.
요약
- 심프슨의 역설은 혼란변수를 통제하지 않았을 때 나타나는 분석상의 착시이다.
- 사회과학 연구에서는 혼란변수를 적절히 통제하는 것이 중요하다.
- 독립변수와 종속변수의 관계를 명확히 파악하려면, 전체 집단의 단순 분석이 아닌 하위 집단별 차이를 살펴보고 필요하면 통제한 상태에서 분석해야 한다.
'데이터 리터러시' 카테고리의 다른 글
불변 독립변수의 오류: 인식의 차이를 현실의 차이로 해석할 수 있는가? (0) | 2025.03.28 |
---|---|
베이스레이트 오류: 왜 전 국민을 검사하지 않았을까? (0) | 2025.03.25 |
데이터 활용 오류 방지: 체리피킹, 맥나마라 오류, 굿하트의 법칙, 생존자 편향과 지표의 다양화 (0) | 2025.03.20 |
회귀오류 (Regression Fallacy): 정책효과 판단의 함정 - 회귀현상(Regression to the Mean)을 이해하자 (0) | 2025.03.18 |
"측정 오차와 표집 오차: 무작위와 체계적 오차의 차이와 처리 방법 (0) | 2025.03.17 |