모든 데이터에는 오차가 존재한다. 따라서 데이터를 분석하고 해석할 때 이를 고려해야 하며, 그렇지 않으면 비합리적인 판단을 초래할 수 있다. 특히, 무작위 측정 오차로 인해 발생하는 회귀현상(Regression Toward the Mean, RTM) 을 정책 효과나 독립변수의 효과로 착각하는 회귀오류(Regression Fallacy) 에 대해 살펴보자.
1. 회귀오류란?
회귀오류는 평균으로의 회귀 현상을 실제 현상으로 오인하는 오류를 의미한다.
평균으로의 회귀란, 높은 점수를 받은 집단은 다음 측정 시 점수가 낮아지고, 낮은 점수를 받은 집단은 반대로 점수가 올라가는 현상이다. 이는 정책 효과나 독립변수의 영향 때문이 아니라 무작위 오차 로 인해 발생한다.
예를 들어, 연구자의 연구 실적을 매년 집계한다고 가정하자.
- 특정 연도에 매우 높은 실적을 기록한 연구자 집단에는 일시적으로 운이 좋았던 연구자들이 포함될 가능성이 크다.
- 그러나 다음 해에 다시 측정하면, 운의 요소가 사라지면서 점수가 낮아지는 연구자들이 나타나 평균이 낮아진다.
- 반대로, 실적이 낮았던 연구자들은 운이 나빴던 경우가 포함될 수 있으며, 이후 운의 영향을 제거하면 평균 실적이 상승할 수도 있다.
이를 수식으로 나타내면 다음과 같다.
실적이 좋은 집단 = 연구능력 + 일시적 행운
실적이 나쁜 집단 = 연구능력 – 일시적 불운
2. 언제 회귀현상이 발생하는가?
회귀현상은 측정의 신뢰도가 낮을수록 더 크게 나타난다.
위 사례에서 연구능력만을 완벽하게 측정할 수 있다면, 즉 측정의 신뢰도가 높다면 회귀현상은 발생하지 않는다. 하지만 현실에서는 완벽한 측정이 어렵기 때문에 평균으로의 회귀 현상이 빈번하게 나타난다.
3. 회귀오류가 발생하는 사례
회귀현상 자체는 오류가 아니다. 문제는 이를 정책 효과나 독립변수의 효과로 오인하는 것 이다.
예시 1: 직원 교육 프로그램 효과 오인
기업이 컴퓨터 능력 시험에서 하위 10%에게 특별 교육을 실시했다고 가정하자.
- 교육 이후 다시 시험을 보았을 때 점수가 상승했다고 해서 교육 효과라고 단정할 수 있을까?
- 실제로는 교육의 영향이 없더라도 회귀현상 때문에 자연스럽게 점수가 상승했을 가능성이 있다.
- 이를 교육 효과로 오인하면 회귀오류를 범하는 것이다.
예시 2: 포상제도의 부작용 오인
능력이 뛰어난 직원에게 포상을 실시한 후, 다음 시험에서 이들의 평균 점수가 낮아졌다고 가정하자.
- 이를 "포상이 도덕적 해이를 유발했다" 고 해석하여 포상 제도를 폐지한다면, 이는 회귀현상을 정책 효과로 착각한 오류다.
- 실제로는 단순한 무작위 오차로 인해 점수가 낮아졌을 가능성이 있다.
이처럼 회귀현상을 정책 효과와 혼동하면, 잘못된 결론을 내릴 수 있다.
4. 회귀오류가 정책에 미치는 영향
회귀오류가 정책에 반영되면, 다음과 같은 문제가 발생할 수 있다.
● 실적 부진자에 대한 과도한 처벌
● 우수자에 대한 보상 축소
즉, 실적이 낮은 집단에서의 자연스러운 실적 상승을 정책 효과로 오인하여 불필요한 개입이 이루어질 수 있다. 반대로, 실적이 높은 집단에서의 하락을 정책의 부작용으로 해석하여 잘못된 조치를 취할 위험도 있다.
따라서 정책을 평가할 때는 회귀현상의 영향을 고려하여 실제 효과를 정확히 분석 해야 한다.
'데이터 리터러시' 카테고리의 다른 글
부분과 전체가 다르게 말할 때: 심프슨(Simpson's Paradox)의 역설과 혼란변수 통제 (0) | 2025.03.25 |
---|---|
데이터 활용 오류 방지: 체리피킹, 맥나마라 오류, 굿하트의 법칙, 생존자 편향과 지표의 다양화 (0) | 2025.03.20 |
"측정 오차와 표집 오차: 무작위와 체계적 오차의 차이와 처리 방법 (0) | 2025.03.17 |
학술논문에서 데이터 소개 방법 (0) | 2025.03.14 |
유의도 검증의 한계: 효과 크기를 같이 보아야 (2) | 2025.03.14 |