데이터 리터러시

"측정 오차와 표집 오차: 무작위와 체계적 오차의 차이와 처리 방법

skcho 2025. 3. 17. 21:41

오차는 데이터와 현상간의 차이다. 측정 값과 실제와의 차이라고도 한다.

 

오차= 데이터 현상

또는

오차= 측정값 실제

 

이러한 오차에는  크기와 방향이 일정하게 나타나는 체계적 오차가 있다. 예를 들어 기부금 액수를 조사할 때  실제보다 높여 대답하면,  체계적 오차가 발생한다.  예컨대 기부금을 높여서 대답하면 체계적 오차가 발생한다. 이 외에 무수히 많은 이유로 오차가 있을 수 있는데, 예컨대 같은 질문을 반복해도 대답이 달라질 수 있다. 이러한 오차를 무작위 오차라고 하는데, 크기와 방향은 예측할 수 없다. 그렇지만  +도 있고 도 있기 때문에 여러 무작위 오차의 평균을 내면 0에 가까워진다고 가정한다.

 

무작위 오차의 종류: 측정오차와 표집오차

 

무작위 오차는 발생원인에 따라 측정오차와 표집오차로 구분할 수 있다. 측정오차의 크기는 보통 Cronbach Alpha로 나타낸다. 알파의 값이 0.9 정도면 측정의 신뢰도가 높다고 한다. 즉 측정오차가 작다고 본다. 측정오차는 문항 수를 늘리면 감소한다. 예컨대 3문항으로 삶의 질을 측정했는데 신뢰도가 낮으면, 4문항이나 5문항으로 늘리면 신뢰도가 보통은 올라간다.

 

표집오차는 표본조사라서 발생하는 것이고 그 크기는 표준오차 또는 오차한계로 나타낸다. 표본크기를 증가하면 감소한다.

 

체계적 오차는 0으로 만들 수 있다. 그리고 0으로 만들지 못하더라도 그 크기를 추정해서 해석과정에서 고려해야 한다.

무작위 오차는 데이터 생산과정의 오차를 잘 관리하면 줄일 수는 있으나 완전히 없앨 수는 없다. 따라서 모든 데이터가 무작위 오차를 가지고 있다고 가정한다.

 

데이터의 활용과정에서 오차를 고려하지 않으면 오류가 발생한다. 이러한 오류는 오차가 존재한다고 해서 나타나는 것이 아니라, 데이터 이용자가 오차를 무시하거나 과소 평가하기 때문에 발생한다. 이러한 오류에 대해서는 다음 글에서 살펴본다.