데이터 리터러시

베이스레이트 오류: 왜 전 국민을 검사하지 않았을까?

skcho 2025. 3. 25. 14:20

코로나19 팬데믹 당시, “왜 모든 사람에게 검사를 하지 않지?”라고 의문을 가진 분들이 있다. 모두 검사하면 안심도 되고, 조기 발견에도 도움이 될 것 같았기 때문이다. 하지만 방역 당국은 확진자 접촉 여부나 증상 유무 등 일정한 기준을 충족한 사람들만 검사 대상으로 하였다.

물론, 검사 시약이나 인력 등 자원의 제한도 이유였다. 그러나 그 이면에는 낮은 유병률(low base rate)을 가진 질병을 검사할 때 생기는 위양성(false positive)’ 문제도 함께 고려되었을 가능성이 크다.

 

검사에는 일반적으로 두 방향의 오류가 존재한다.

 

위양성 (False Positive): 실제로는 감염되지 않았는데 양성으로 판정되는 경우

위음성 (False Negative): 실제로는 감염되었지만 음성으로 판정되는 경우

 

아무리 정밀한 검사라도 이 두 오류를 완전히 제거하는 것은 불가능하다. 특히, 전체 감염률(=베이스레이트)이 낮은 상황에서는 위양성의 영향이 커진다.

 

 

 

가령, 위양성률이 0.1%(=0.001)인 검사에서 1백만 명을 검사한다고 가정해 보자.


수치
검사 대상 인원 1,000,000
실제 감염자 수 (0.01%) 100
위양성률 0.1%
위양성자 수 1,000
실제 양성자 수 100
양성 판정을 받은 총 인원 1,100
이 중 실제 감염자 비율 9%

 

 

, 양성 판정을 받은 사람 중 10명 중 9명은 실제 감염자가 아닐 수 있다. 이것은 감염률이 낮은 상황에서 위양성이 상대적으로 더 두드러지기 때문에 생기는 착시다. 이러한 전체 집단의 분포 즉 베이스레이트를 고려하지 않는 것을 베이스레이트 무시의 오류라고도 한다.

 

많이 검사할수록 그리고 빨리 검사할수록 좋다는 생각은 사전 확률(=베이스레이트)을 고려하지 않았을 때 가질 수 있는 생각이다. 감염률이 낮은 상황에서는, 대규모 검사가 가짜 양성자를 대량으로 만들어 혼란과 자원 낭비를 초래할 수 있다.

 

데이터는 맥락 속에서 해석되어야 한다

이러한 베이스레이트 오류는 의료뿐 아니라 다양한 사회과학적 판단에서도 나타납니다. 우리는 때때로 관찰된 수치나 눈에 띄는 사례에 주목하면서, 그 사건이 전체 집단에서 얼마나 드문 일인지를 간과합니다. 따라서 어떤 분석 결과든지 전체 분포(=모수 집단 속성)를 고려한 해석이 필요하다.