데이터에서 에러라고 하면 실제값과 데이터에 표시된 값의 차이를 말한다. 우리는 실제값을 모르기 때문에 에러가 얼마인지 정확히 알 수는 없다. 다만 설문지와 표집 방법 등 조사 방법을 보고 발생할 수 있는 에러의 종류와 크기를 추정할 수 있다. 데이터가 공개될 때는 이러한 수집 방법 등 관련된 정보가 소위 메타데이터라고 해서 같이 제공된다. 메타데이터란 데이터에 관한 데이터라고 해서 데이터를 이해하고 사용하는 데 필요한 모든 정보다. 데이터와 같이 제공되는 보고서, 이용자 가이드 등에 수록되어 있다.
데이터가 갖는 에러는 여러 가지가 있는데 그중에 표집오차가 있다. 표집오차란 우리가 알고자 하는 대상 전체를 대상으로 조사되지 않고 표본을 통해서 조사될 때 나온다. 당연히 일부만 가지고 전체에 대해서 말하려 하면 일치하지 않는 부분이 생기고 이것이 표집오차다. 이러한 표집오차는 다음과 같은 특성을 가진다.
- 표집오차는 표본크기가 크면 줄어든다.
전체를 대상으로 조사하면 표집오차는 0이 된다.
- 표본크기가 아니라 표본크기의 제곱근에 비례한다.
표본이 네 배가 되어야 표집오차가 1/2로 줄어든다. 조사비용이 표본크기에 비례한다면 돈을 투입한 것만큼 정확해지는 것은 아니다. 표집오차는 표준오차에 신뢰구간을 적용해서 구하게 되는데 표준오차는 다음 식에서 보듯이 표본크기의 제곱근에 반비례한다.
여기서:
SE: 표준오차 (Standard Error)
σ: 모집단의 표준편차 (Population Standard Deviation)
n: 표본 크기 (Sample Size)
- 전체 표본의 크기가 중요한 것이 아니라 내가 분석하고 싶은 집단의 표본크기가 중요하다.
예컨대 전국 2천 명을 조사한 데이터지만 충남 지역 데이터가 100개이면, 충남 지역에 대한 오차는 100명의 표본에 의해 결정된다. 즉 데이터 셋의 크기가 아닌 내가 분석하고자 하는 집단의 표본 크기가 더 중요한 요소다. 실제로 표본설계보고서를 보면 주요 하위 단위별로 오차 크기를 계산해 놓았다. 데이터 중의 일부를 이용하면 전체 데이터의 오차 크기에서 자신이 이용하는 데이터 크기를 고려해 오차 크기를 판단해야 한다.
- 모집단의 크기도 중요하지 않다.
모집단에서 표본이 차지하는 비율이 오차에 고려되기는 하나 다음 식에서 보듯이 웬만한 모집단이면 이 비율이 극히 낮다. 예컨대 10만 명에 대한 데이터가 1천 개라고 하면, 여기에 모집단 크기를 반영하면 오차크기에 미치는 영향이 원래 오차의 1/100 정도다. 즉 거의 의미가 없다. 사회과학 분야 데이터의 경우 모집단이 아주 작은 경우를 제외하면 전집의 크기는 데이터의 정확성 정도를 파악할 때 고려하지 않게 된다.
여기서
N 모집단 크기
n 표본의 크기
- 표본크기가 같다고 해서 표집오차가 동일하지는 않다.
표본의 추출 방법도 중요하다. 실제 데이터를 추출할 때 여러 표집 방법을 혼합해서 사용할 수도 있다. 단순무선표집(Simple Random Sampling)이 실행하기 어려울 때는 표본추출의 과정을 여러 단계로 나누고, 유층표집(Stratified Sampling), 군집표집(Cluster Sampling) 등 다양한 표집 방법을 단계별로 적용하기도 한다. 이렇게 표본을 추출하는 방법과 절차를 표본설계(Sampling Design)라고 하는데, 이러한 표본설계에 따라 오차가 크게 나올 수도 있고, 아닐 수도 있다.
단순 무선 표집을 기준으로 했을 때를 기준으로 해서, 표집 방법이 오차에 미치는 영향 정도를 디자인 효과 (Design Effect, Deff)라고 한다. 디자인 효과가 1보다 크면 단순 무선 표집보다 오차가 증가한다. 이 경우 실제 표본 수가 아닌 표본 수를 디자인 효과로 나눈 것을 유효표본(Effective Sample Size)라 한다. 표집오차는 이 유효 표본가 결정한다.
예컨대 디자인 효과 Deff=2인 경우는 표본크기가 1만 명일지라도 유효표본의 크기는 5천 명이 된다. 표본크기가 아니라 유효표본의 크기가 중요한 것이다.
- 유효표본의 크기가 중요하다.
실제 데이터를 수집할 때 예산을 책정한 다음, 최대한 표본 수를 크게 하려고 애쓰는 경향이 있다. 표본 수만 중요시하면 표본 추출 방법 중에서 가장 비용이 적게 드는 방법을 사용하게 되고, 그런 표본설계는 대체로 디자인 효과가 크다. 유효표본의 크기는 실제 표본의 60%나 70%가 될 수도 있다. 표본 전문가들이 작성한 표본 보고서에는 이러한 디자인 효과를 반영해서 오차 크기를 추정해 놓는다. 그렇지만 언론에 보도되는 조사나, 표본 전문가가 참여하지 않은 조사의 경우 표본크기만 제시되는 경우가 많다.
여기서
Deff 디자인 효과
neff 유효 표본 크기
n 실제 표본 크기
- 표집오차는 에러의 일부에 지나지 않는다.
중요한 것은 표집오차가 데이터가 갖는 에러의 일부에 지나지 않는다는 점이다. 표집오차 외에도 오차가 있다. 표집오차가 유일한 오차라면 이 오차만 줄이면 된다. 그래서 표집 방법을 유지하는 한 표본크기를 크게 할수록 오차가 줄어든다. 그러나 표집오차 외에도 오차가 있고, 이 오차들이 더 클 수도 있다. 그래서 표본이 크다고 더 정확하다고 볼 수는 없다. 종류와 관계없이 모든 오차를 다 합한 것이 그 데이터의 품질을 나타낸다. 데이터를 아주 잘 만들면 표집오차가 유일한 오차가 되겠지만 그렇지 않은 경우가 많고, 표본의 크기를 크게 하면 다른 오차들이 발생할 가능성이 높아지기 때문에 표본의 크기보다는 다른 오차 요인들을 균형 있게 살펴야 한다.
데이터 크기가 크다고 오차가 적다는 생각은 하지 말자. 표집오차를 줄이면 데이터가 좋아지고 에러가 줄어든다고 생각하는 경향이 있다. 언론에서 조사 결과를 발표할 때 다른 에러는 하나도 없고 표집오차만 있다고 가정할 경우의 에러를 마치 실제 에러인 것처럼 발표한다. 예컨대 ‘전국 1천 명을 조사해서 오차한계가 95% 신뢰수준에서 +/-3.1% 포인트’라는 식이다. 이것은 조사 결과의 실제 에러 수준을 나타내 주는 것이 아니다. 여론조사의 정확도 수준을 과장한 것이다. 그러니까 오차한계를 벗어난 오차들이 그렇게 많은 것이다. 조사 전문가와 언론인의 선정성 내지는 무지가 조사 결과의 정확도를 과장하고 있다. 그리고 이것이 역으로 조사에 대한 불신도 키운다.
이러한 표집오차에 대한 오인은 빅데이터 사용에서도 나타난다. 빅데이터를 사용할 때는 표본추출이 아니기 때문에 표집오차가 없다고 주장하기도 한다. 물론 워낙 큰 데이터이니 표집 오차가 있더라도 극히 적을 것이고 현실적으로 그 크기를 고려할 필요는 없을 것이다. 그렇지만 표집오차가 없다는 것이 곧 에러가 없다는 것을 의미하지는 않는다. 그러니까 빅데이터가 표집오차가 없다는 말은 틀렸다고 보지는 않는다. 문제는 이것이 에러가 없다고 해석될 때이다. 표집오차는 전체 오차의 일부분이다.
- 표집오차는 확률 표집을 사용할 때만 계산할 수 있다.
확률 표집이란 모집단의 구성원에게 표본에 선정될 확률을 부여할 수 있을 때 또는 알 수 있을 때 가능하다. 예컨대 아파트 주민 3만 명 중에서 1백명을 확률 표집 하려면 각각의 단순 무선표집으로 한다면 모든 모집단 구성원에게 동일한 확률을 부여해야 하니 1/300의 확률로 주민들이 표본에 추출되는 것이다. 우리가 주민 명부가 있으면 이렇게 할 수 있다. 그러나 주민 명부가 없이 각각의 가구에 들려 집에 있는 주민들을 선정했다면 선정 확률을 알 수 없다. 따라서 확률 표집이라고 할 수 없다. 이처럼 확률 표집을 하려면 전집 구성원들의 명부 같은 것이 있어야 가능하다. 물론 선거출구조사처럼 명부가 없어도 선거를 마치고 나오는 모든 사람 중에서 순서대로 5번째 사람을 선정한다면 명부가 없어도 확률 표집이 가능하다. 여하튼 확률을 부여해서 선정할 수 있어야 확률표집이 된다. 그리고 표집오차를 계산할 수 있다. 확률을 알 수 없는 경우는 표집오차를 계산할 수 없다. 확률표집이 가능하려면 아파트 주민 명부, 전화번호 부 등과 같은 목록이 필요한데 이것을 표집틀 (sampling frame)이라고 한다. 확률표집을 하려면 표집틀이 있어야 한다.
비확률표본은 표집오차를 알 수 없다.
여러 가지 이유로 확률표집을 할 수 없는 때가 있다. 확률을 알 수 없는 경우 비확률 표집(Non-probability Sampling)을 사용하게 되는데, 이 경우는 표집오차를 계산하는 것은 잘못이다. 계산한다면 그 의미는 동일한 크기의 확률 표집을 했을 경우의 오차가 이런 정도라는 것인데 그것을 실제 그 데이터의 품질로 오인될 수 있기 때문이다.
확률표본이 항상 정확한 것은 아니다.
마지막으로 확률표집은 정확하다는 인식도 잘못된 것이다. 확률표집은 표집오차를 계산할 수 있다는 것이지 오차가 작다는 것을 의미하는 것은 아니다. 오차는 표본의 크기, 그리고 다른 요소들에 의해 결정되기 때문이다. 비확률 표집으로 추출된 표본 즉 비확률 표본도 오차크기를 계산할 수 없다는 것이기 반드시 오차가 크다는 것을 의미하지 않는다. 정확하게 표현한다면 오차를 알 수 없다고 해야 한다.
'데이터 리터러시' 카테고리의 다른 글
데이터 분석도구: 내 용도에 맞는 것을 선택하자 (0) | 2025.03.07 |
---|---|
데이터 에러: 표본이 커도 줄어들지 않는 에러가 있다 (0) | 2025.03.07 |
가로형 데이터와 세로형 데이터 (0) | 2025.03.07 |
데이터를 활용하는 전문가가 되는 길 (0) | 2025.03.07 |
데이터 시대의 필수 역량: 데이터 문해력 (데이터 리터러시)을 갖추자 (0) | 2025.03.07 |