코로나19 팬데믹 당시, “왜 모든 사람에게 검사를 하지 않지?”라고 의문을 가진 분들이 있다. 모두 검사하면 안심도 되고, 조기 발견에도 도움이 될 것 같았기 때문이다. 하지만 방역 당국은 확진자 접촉 여부나 증상 유무 등 일정한 기준을 충족한 사람들만 검사 대상으로 하였다.
물론, 검사 시약이나 인력 등 자원의 제한도 이유였다. 그러나 그 이면에는 낮은 유병률(low base rate)을 가진 질병을 검사할 때 생기는 ‘위양성(false positive)’ 문제도 함께 고려되었을 가능성이 크다.
검사에는 일반적으로 두 방향의 오류가 존재한다.
위양성 (False Positive): 실제로는 감염되지 않았는데 양성으로 판정되는 경우
위음성 (False Negative): 실제로는 감염되었지만 음성으로 판정되는 경우
아무리 정밀한 검사라도 이 두 오류를 완전히 제거하는 것은 불가능하다. 특히, 전체 감염률(=베이스레이트)이 낮은 상황에서는 위양성의 영향이 커진다.
가령, 위양성률이 0.1%(=0.001)인 검사에서 1백만 명을 검사한다고 가정해 보자.
| 수치 | |
| 검사 대상 인원 | 1,000,000명 |
| 실제 감염자 수 (0.01%) | 100명 |
| 위양성률 | 0.1% |
| 위양성자 수 | 1,000명 |
| 실제 양성자 수 | 100명 |
| 양성 판정을 받은 총 인원 | 1,100명 |
| 이 중 실제 감염자 비율 | 약 9% |
즉, 양성 판정을 받은 사람 중 10명 중 9명은 실제 감염자가 아닐 수 있다. 이것은 감염률이 낮은 상황에서 위양성이 상대적으로 더 두드러지기 때문에 생기는 착시다. 이러한 전체 집단의 분포 즉 베이스레이트를 고려하지 않는 것을 베이스레이트 무시의 오류라고도 한다.
‘많이 검사할수록 그리고 빨리 검사할수록 좋다’는 생각은 사전 확률(=베이스레이트)을 고려하지 않았을 때 가질 수 있는 생각이다. 감염률이 낮은 상황에서는, 대규모 검사가 ‘가짜 양성자’를 대량으로 만들어 혼란과 자원 낭비를 초래할 수 있다.
데이터는 맥락 속에서 해석되어야 한다
이러한 베이스레이트 오류는 의료뿐 아니라 다양한 사회과학적 판단에서도 나타납니다. 우리는 때때로 관찰된 수치나 눈에 띄는 사례에 주목하면서, 그 사건이 전체 집단에서 얼마나 드문 일인지를 간과합니다. 따라서 어떤 분석 결과든지 전체 분포(=모수 집단 속성)를 고려한 해석이 필요하다.
'데이터 리터러시' 카테고리의 다른 글
| 상관계수 vs 회귀계수 - 관계와 인과를 구분하기 위한 출발점 (0) | 2025.04.06 |
|---|---|
| 불변 독립변수의 오류: 인식의 차이를 현실의 차이로 해석할 수 있는가? (0) | 2025.03.28 |
| 부분과 전체가 다르게 말할 때: 심프슨(Simpson's Paradox)의 역설과 혼란변수 통제 (0) | 2025.03.25 |
| 데이터 활용 오류 방지: 체리피킹, 맥나마라 오류, 굿하트의 법칙, 생존자 편향과 지표의 다양화 (0) | 2025.03.20 |
| 회귀오류 (Regression Fallacy): 정책효과 판단의 함정 - 회귀현상(Regression to the Mean)을 이해하자 (0) | 2025.03.18 |