2025/03/25 3

챗 지피티에게 통계 분석을 시켜보니: 가능성과 한계

동일한 데이터에 대해 직접 파이썬 코드를 작성해 분석을 진행한 적이 있다. 동시에 그 데이터를 GPT에게 주고 분석을 시켜보았다. 결과는 거의 같았다. 나는 여러 번 데이터 오류를 수정하고 나서 분석을 마무리했고, GPT 역시 몇 차례 오류를 감지해 스스로 수정해가며 작업을 완료했다. 이 분석은 위치 데이터를 이용해 거리 계산을 하고, 특이한 케이스를 골라 해당 케이스가 속한 그룹을 지도에 표시하는 작업이다. 이 글은 그 경험을 비롯해 지금까지 내가 느낀 GPT의 분석 역량에 대한 것이다. 개인적인 관찰과 제한된 사례에 기반하고 있으며, GPT가 달라진 것이라기보다는 내 인식이 달라진 것이다. ChatGPT의 등장으로, 많은 사람들이 "이제는 통계 패키지를 배우지 않아도 되지 않을까요?"라고 묻는다..

베이스레이트 오류: 왜 전 국민을 검사하지 않았을까?

코로나19 팬데믹 당시, “왜 모든 사람에게 검사를 하지 않지?”라고 의문을 가진 분들이 있다. 모두 검사하면 안심도 되고, 조기 발견에도 도움이 될 것 같았기 때문이다. 하지만 방역 당국은 확진자 접촉 여부나 증상 유무 등 일정한 기준을 충족한 사람들만 검사 대상으로 하였다. 물론, 검사 시약이나 인력 등 자원의 제한도 이유였다. 그러나 그 이면에는 낮은 유병률(low base rate)을 가진 질병을 검사할 때 생기는 ‘위양성(false positive)’ 문제도 함께 고려되었을 가능성이 크다. 검사에는 일반적으로 두 방향의 오류가 존재한다. 위양성 (False Positive): 실제로는 감염되지 않았는데 양성으로 판정되는 경우위음성 (False Negative): 실제로는 감염되었지만 음성으로 판..

부분과 전체가 다르게 말할 때: 심프슨(Simpson's Paradox)의 역설과 혼란변수 통제

전체 집단에서의 분석 결과가 하위 집단별 분석 결과와 정반대로 나타나는 경우가 있다. 이를 심프슨의 역설이라고 한다. 하위 집단별 분포가 차이가 있는데, 분석 과정에서 이런  혼란변수(confounding variable)를 통제하지 않았을 때 발생한다. 예를 들어, 연구소별로 보면 근무기간이 길수록 보수가 높아지는 경향이 나타났다고 하자. 그런데 연구단지 전체를 대상으로 분석하면 오히려 근무기간이 길수록 보수가 낮아지는 결과가 나올 수 있다. 이처럼 전체 집단의 경향과 하위 집단의 경향이 상반되게 나타나는 현상이 심프슨의 역설이다.왜 이런 일이 일어날까? 그 이유는 하위 집단 간의 구조적 차이 때문이다. 아래 예시 표를 보자.예시 표: 연구소별 근무기간과 보수 수준연구소                  ..