포함률 오차 (Coverage Error)
데이터는 현상에 대한 관찰 결과를 모아놓은 것이다. 그런데 그 현상의 일부분에 대해서만 데이터가 있다면 비록 그 크기가 크더라도 에러가 발생한다. 이런 것을 포함률 오차(Coverage Error)라고 한다. 예컨대 한국 20세 이상 성인들의 인터넷 사용 정도를 연구하면서 네이버 사용자들 대상으로 표본을 추출했다면 네이버를 이용하지 않는 사람들은 표본에 포함되지 않는다. 이 경우 데이터가 100만 200만 사례를 포함한다고 해도 여전히 에러가 발생한다. 이런 성격의 에러는 표본이 커진다고 해서 줄어들지는 않는다. 즉 표집을 위한 표집틀이 실제 모집단을 충분히 포함하지 않을 때 또는 모집단에 해당되지 않는 요소들을 많이 포함하고 있을 때 발생한다.
예컨대 한국의 SKT 통신사 사용자만을 대상으로 여론조사를 하면 다른 통신사 사용자들은 포함되지 않는 에러가 발생한다. 그런데 하나 주의할 점은 단지 포함하지 않았다는 것이 문제가 아니라 포함된 사람과 포함되지 않은 사람 간에 차이가 있느냐가 중요하다. 만약 정치 여론조사를 하는 것이었고, skt 사용자와 타 통신사 사용자 간에 정치적 성향에 차이가 없다면 포함률 오차는 발생하지 않을 것이다. 그렇지만 SKT 사용자와 타 통신사 사용자 간에 정치적 성향에 차이가 있다면 포함률 오차가 발생하게 된다. 따라서 데이터를 볼 때는 데이터가 나타내고자 하는 현상을 대표할 수 있는지 만약 못한다면 그러한 포함률 차이가 우리가 추출하고자 하는 정보에 영향을 줄 것인지를 판단해야 한다. 이러한 모집단 그리고 표본추출 방법에 관한 정보는 조사보고서나 이용안내서에 있다.
무응답 오차 (Non-response Error)
포함률 오차와 비슷한 것으로 무응답 오차(Non-response Error)가 있다. 포함률 오차는 애초에 모집단이 포함되지 않거나 모집단 외의 요소들이 포함되어서 발생하지만, 무응답 오차는 데이터 수집을 시도했으나 여러 가지 이유로 포함하지 못한 경우를 말한다. 예컨대 여론조사를 했는데 일부 응답자들이 대답을 거절하는 경우다. 흔히 여론조사 결과를 발표하면서 응답률 또는 협조율을 발표하고, 또 조사 결과에 대한 비판을 하면서 응답률이 낮다는 말을 사용하는데 이것을 의미한다. 이 경우에도 응답률 자체가 아니라 응답자와 무응답자 또는 거절자 간 차이가 중요하다. 그래서 어떤 해에는 선거 여론조사의 응답률이 낮았어도 오차가 크지 않을 때도 있고 또 반대의 경우도 있다. 응답률이 낮다는 것이 바로 그대로 오차가 크다는 것을 의미하는 것이 아니다. 응답자와 무응답자 간의 차이가 있는가가 중요하다.
무응답 오차 역시 표본크기가 커도 줄어들지 않는다. 서베이 조사의 경우 면접원이 집을 방문해서 조사하는 면접원 방문 조사 방법을 많이 사용한다. 이 방법의 경우 낮에 집에 아무도 없거나, 응답을 거절하는 경우가 많아 응답률이 점점 낮아진다. 조사데이터가 갖는 오차 중 가장 큰 부분이 이러한 무응답으로 인한 오차일 것으로 보인다. 마찬가지로 조사 방법을 설명한 자료 등을 통해 이러한 오차가 나타날 가능성은 어느 정도인지 그리고 나타난다면 어떤 방향으로 나타날 것인지를 판단해 보아야 한다. 서베이가 아닌 경우에도 이런 오차는 쉽게 발생할 수 있다. 어떤 이유로는 수집과정에서 누락된 데이터들이 어떤 이유로 어떻게 누락되는지를 잘 살펴야 한다.
데이터의 품질을 판단할 때는 표집오차 보다 무응답 오차가 더 중요할 때가 많다. 특히 선거조사 등과 같은 여론조사의 경우, 그리고 대부분의 조사자료에서는 무응답 오차의 발생 여부 및 그 크기가 상당히 중요하다. 일단 무응답의 크기가 중요하다. 무응답이 크다고 해서 오차가 반드시 있는 것은 아니지만 그럴 확률이 높다. 그래서 조사 결과를 발표할 때는 응답률을 같이 공개해서 무응답 오차가 어느 정도 될 것인지 판단토록 해야 한다. 한국조사연구학회는 윤리규정에서 여론조사결과를 공표할 때 응답률을 포함하도록 했다. ( 한국조사연구학회. 조사윤리강령 http://www.kasr.org/?c=1/6/28; 여론조사보도지침 http://www.kasr.org/?m=bbs&bid=faq.) 그렇지만 응답률이 중요하다고 해서 응답률이 조금 높다는 것이 품질차이를 바로 가져오지 않는다. 오차가가 발생할 가능성이 낮아진다는 것이지 오차가 작다는 것은 아니다.
응답률 계산방법
응답률(Response Rates)을 계산할 때는 분모와 분자가 중요하다. 예컨대 가구에 면접원이 찾아갔을 때 부재중인 경우는 분모에 넣어야 하는 것인지 등이다. 응답률을 계산하는 방법은 미국여론조사학회 (American Association For Public Opinion Research, AAPOR)에서 이것을 분모 분자에 들어가는 여러 가지 경우로 나누어서 여섯 가지로 정의해 놓았는데, 이 정의는 세계적으로 널리 사용된다. 일일이 분모 분자를 열거하는 대신에 AAPOR의 응답률 몇 번 공식을 사용한 것이라고 표기하면 된다. AAPOR는 같은 문서에서 응답률 외에 협조율 (Cooperation Rates), 접촉률(Contact Rates), 거절율(Refusal Rates) 등에 대해서도 상세히 정의했다. (AAPOR, Standard Definitions. https://aapor.org/wp- content/uploads/2023/05/Standards-Definitions-10th-edition.pdf ).
자원자 표본은 응답률 계산의 의미 없다
응답률을 발표할 때는 AAPOR 온라인 패널 (Online Panel Surveys)의 경우에 확률에 기반해서 응답자 패널이 구축된 경우에는 다양한 지표를 통해 그 품질을 판단할 수 있도록 제시하고 있다. 그러나 확률로 모집되지 않은 경우에는 이러한 지표들이 의미 없다고 보고 비확률표본 또는 자원자 표본(Voluntary Sample)이라는 점을 명시하도록 하고 있다. 한국에서 인터넷 조사에 사용되는 온라인 응답 패널은 자원자 표본에 해당한다. 따라서 이것을 이용한 조사에서 표집오차나 응답률을 명시하는 것은 의미 없다.
정책수립을 위한 연구나 정책효과 등을 판단하기 위한 연구에서 온라인 패널을 사용하는 것은 바람직하지 않다. 데이터의 표집이나 분석 등의 과정에서 결과가 특정 방향으로 왜곡되는 것을 편향(Bias)라 한다. 온라인 패널은 그 결과가 편향을 보일 가능성이 높다. 선거결과를 예측하기 위한 조사로도 아직 허용되지 않고 있다.
측정오차 - 사회적 바람직성 오류
데이터 에러에는 또 측정오차(Measurement Error)도 있다. 측정 과정에서 즉 데이터 수집 과정에서 발생하는 오차를 의미하는데 예컨대 측정 도구의 문제나 조사원 또는 응답자의 문제로 발생할 수도 있다. 사회조사의 경우 흔히 발생할 수 있는 측정오차에는 사회적 바람직성 (Social Desirability), 측정 도구의 타당도(Validity) 부족, 측정의 신뢰도 (Reliability) 부족 등이다. 사회적 바람직성 오차는 응답자들이 사회적으로 바람직한 또는 허용되도록 왜곡해서 응답해서 나타나는 오차를 말한다. 예컨대 도둑질을 얼마나 했는가라는 질문에 솔직한 응답을 기대하지는 못할 것이다. 반대로 기부금 액수를 질문한다면 실제보다 높게 나타날 가능성이 있다. 선거조사가 끝난 다음 예측이 빗나갔을 때 그 이유로 제시된다. 즉 특정 정당 지지자들이 조사에서 사실대로 응답하지 않았다가 또는 응답을 거절했는데 투표에는 참여해서 조사가 빗나갔다는 설명이다. 특정 선거 여론조사가 빗나간 것이 사회적 바람직성 요인 때문인지는 알 수 없으나, 청소년 흡연 조사, 사행성 행위 조사, 불법 도박 실태조사 등에서 나타나고 있을 가능성은 있다.
사회적 바람직성이 덜 작용하도록 조사를 설계하는 방법도 있다. 이런 목적을 위해 다양한 방식의 질문 또는 응답방식을 사용한다. 예컨대 출구조사에서 면접원이 응답하는 것을 보지 않도록 상자 함에 응답자가 직접 넣도록 하는 방법도 이러한 장치 중의 하나다.
측정도구의 타당도 부족- 목표한 개념과 다른 특성을 반영
측정 도구의 타당성이란 측정하고자 하는 것을 질문이나 측정 도구가 측정하지 못할 때 발생한다. 예컨대 과학시험을 보면서 영어로 답하게 하면 과학능력이 아니라 영어 능력 때문에 점수가 낮아진다. 경제적 수준을 측정하기 위해 ‘귀하는 자신의 경제적 수준이 어느 정도에 해당한다고 보십니까?’라는 문항을 사용하면 실제 경제적 수준이 아니라 응답자가 생각하는 주관적 경제적 수준이다. 실제 경제적 수준과 주관적 수준이 어느 정도 관계는 있겠지만 엄연히 다른 것이다. 특히 사회과학 데이터 중에는 실제 현상을 연구한다고 하면서 주관적 또는 인식을 측정하는 경우가 많다. 이 경우 정확하게 주관적 사회계층이라는 점을 명확히 해야 한다.
또 두 개의 다른 개념을 측정했는데 사실 동일한 개념을 측정한 경우가 있다. 예컨대 디지털 리더쉽이 조직의 디지털 활용에 대한 영향을 연구한다고 하자. 리더쉽을 측정할 때 그 조직에서 얼마나 사무 절차에 디지털 도입을 권장했는가로 측정한다면 그것은 디지털 활용정도와 중복된다. 따라서 개념적으로는 구분되는 것 같지만 실제로는 구분되지 않는 경우도 많다.
측정의 신뢰도 부족 - 개선을 위한 노력이 중요
신뢰도와 문제는 측정 도구의 문제와 응답자의 불성실 또는 응답환경 등이 복합적으로 작용한다. 설문 자체는 아무리 잘 만들어도 응답자들이 잘못 이해하면 신뢰도가 낮아진다. 예컨대 ‘가족 소득’을 질문하는데 ‘본인 소득’으로 잘못 알고 대답하는 경우를 들 수 있다. 비슷하지만 서로 다른 문항들이 여러 개 있을 때 일일이 생각하지 않고 동일한 응답을 하기도 한다. 소득에 대한 질문에 근로소득만을 대답하는 경우가 있지만, 어떤 응답자는 은행 이자와 자녀로부터 받은 용돈도 소득으로 보고 답할 수도 있다. 논문 작성 시, 신뢰도 수준을 크론바흐 알파(Cronbach's Alpha) 계수로 보고하는 것만으로 충분하다고 생각하는 연구자들이 많다. 그러나 중요한 것은 해당 계수를 활용하여 신뢰도를 검토하고, 문제가 발견되면 측정 도구를 수정하거나 보완하는 과정이다. 이러한 절차 없이 단순히 신뢰도가 높은 데이터만을 얻으려는 것은 바람직하지 않다. 물론 사후 보고도 중요하지만, 신뢰도 문제를 최소화하려는 노력이 우선되어야 한다. 문항을 명확히 구성하고, 응답자의 이해를 돕기 위한 설명을 제공하며, 응답 환경을 조정하는 등의 조치를 통해 신뢰도를 향상시킬 수 있다. 단순히 높은 신뢰도 수치를 얻는 것이 목표가 아니라, 측정의 정확성과 일관성을 확보하는 데 초점을 맞춰야 한다.
데이터의 이러한 측정오차는 조사 도구와 설계 등을 통해 축소할 수 있다. 그리고 이러한 오차 최소화 방안은 연구 방법에서 상당히 중요하다. 데이터 측정오차는 분석을 통해 제거할 수는 없다. 기존 데이터를 활용할 때 측정오차가 얼마나 있는지 살펴야 한다. 논문이나 데이터를 공개할 때는 이러한 측정 도구, 측정환경 그리고 측정한 신뢰도 수치 등을 같이 제시해야 한다. 타당도의 경우는 수치로 나올 수 없다. 다만 다른 개념과 구분되는지, 그리고 원래 상정한 요인으로 측정 문항들이 측정하는지를 요인분석 (Factor Analysis)등을 통해 보여줄 수는 있지만, 이러한 도구가 측정 타당도의 문제를 다 찾아주지는 못한다.
개념 정의의 문제
주요 개념을 측정한 데이터의 경우, 해당 개념에 대한 명확한 정의를 제시해야 한다. 개념 정의는 사전적 의미 뿐만 아니라 , 이를 어떻게 측정했는지까지 포함해야 한다. 측정한 방법으로 개념을 정의하는 것을 조작적 정의(Operational Definition)라고 한다. 예컨대 근로자의 야간 노동에 대한 데이터라면 근로자를 어떻게 정의했고, 야간 노동의 기준은 무엇인지 (예: 오후 10시 이후 근무여부 등...)를 명확히 해야 한다. 이러한 정의가 불분명할 경우, 데이터 해석에 혼선이 생길 수 있으며, 분석결과의 신뢰성이 낮아진다.
흔히 데이터에 포함된 항목들이 잘 정의되지 않고 사용되는 경우가 있다. 그러나 일상적인 대화는 약간의 잘못 이해가 큰 문제를 야기하지는 않으나 데이터에서는 정확하고 엄밀하게 정의할 필요가 있다. 논문이나 데이터 보고서에 중요 항목에 대한 정의가 없으면 그 데이터나 분석결과는 활용성이 높지 않다고 볼 수 있다.
데이터 처리과정 오류
마지막으로 데이터 처리 에러(Processing Error)가 있다. 데이터를 처리하는 과정에서 발생하는 에러인데 예컨대 입력할 때 잘못 입력하는 등의 오류다. 모든 것이 자동화되고 있지만 어느 순간에는 사람이 실수할 수도 있고, 컴퓨터 코드가 잘못되었을 수도 있다. 응답자가 모바일로 입력하면서 실수로 0을 하나 더 넣을 수도 있고, 숫자의 단위가 만 단위로 입력해야 하는데 원 단위로 입력하는 일도 있다. 그리고 소득을 묻는 난이 빈칸으로 되어 있는데, 이것이 소득을 밝히지 않은 것인지 아니면 소득이 없어서 대답을 하지 않은 것인지 구분되어 있지 않을 수도 있다. 물론 신뢰할 만한 조사기관이나 연구소에서 수집한 데이터라면 이러한 부분들을 점검하고 공개한다. 그리고 이러한 처리 과정도 공개한다. 예컨대 EU에서 발표한 유럽근로환경조사(European Working Conditions Survey, EWCS)의 경우 그 보고서에 모든 세세한 오류수정 과정이 기록되어 있다. 모든 조사가 그런 것은 아니다. 많은 데이터들이 이러한 과정을 세세하게 공개하지는 않는다. 처리 과정의 오차가 제대로 검토되지 않은 데이터를 이용하면 오류가 발생한다. 데이터를 활용하거나 분석결과를 볼 때에는 이러한 처리과정 오차를 제대로 점검했는지 확인해야 한다.
데이터 오류 최소화를 위한 노력
이 외에도 다양한 에러가 있을 수 있다. 가장 어려운 점은 이러한 에러가 얼마인지 파악하기 어렵다는 것이다. 데이터의 신뢰성이 낮을 경우, 이를 기반으로 한 분석이나 의사결정이 비합리적일 가능성이 높다. 데이터 수집자는 최대한 이러한 오차를 줄여야 한다. 단순하게 표집오차만을 줄일 것이 아니라 표집오차 외의 다른 오차 특히 무응답 오차를 줄이는 것이 중요하다. 그리고 이러한 오차 정도를 데이터 이용자들이 정확하게 판단할 수 있도록 상세하고 정확하게 조사자료의 수집 및 처리 과정을 기술해서 같이 제공토록 해야 한다. 이를 통해 데이터의 신뢰성을 높이고, 분석 결과의 타당성을 확보할 수 있다.
'데이터 리터러시' 카테고리의 다른 글
학술연구 데이터의 새로운 패러다임: 리포지토리 활용의 중요성 (2) | 2025.03.08 |
---|---|
데이터 분석도구: 내 용도에 맞는 것을 선택하자 (0) | 2025.03.07 |
데이터 에러: 표집오차(sampling error)를 먼저 보자 (0) | 2025.03.07 |
가로형 데이터와 세로형 데이터 (0) | 2025.03.07 |
데이터를 활용하는 전문가가 되는 길 (0) | 2025.03.07 |