전체 집단에서의 분석 결과가 하위 집단별 분석 결과와 정반대로 나타나는 경우가 있다. 이를 심프슨의 역설이라고 한다. 하위 집단별 분포가 차이가 있는데, 분석 과정에서 이런 혼란변수(confounding variable)를 통제하지 않았을 때 발생한다. 예를 들어, 연구소별로 보면 근무기간이 길수록 보수가 높아지는 경향이 나타났다고 하자. 그런데 연구단지 전체를 대상으로 분석하면 오히려 근무기간이 길수록 보수가 낮아지는 결과가 나올 수 있다. 이처럼 전체 집단의 경향과 하위 집단의 경향이 상반되게 나타나는 현상이 심프슨의 역설이다.왜 이런 일이 일어날까? 그 이유는 하위 집단 간의 구조적 차이 때문이다. 아래 예시 표를 보자.예시 표: 연구소별 근무기간과 보수 수준연구소 ..