데이터 리터러시 16

상관계수 vs 회귀계수 - 관계와 인과를 구분하기 위한 출발점

회귀계수와 상관계수는 두 변수가 관계된 정도를 나타내는 대표적인 통계치며, 회귀분석을 하게 되면 두 계수를 같이 구한다.  따라서 두 계수가 나타내는 바를 개념적으로 구분해 두는 것이 필요하다.  상관계수는 관계 정도의 ‘전체 합계’를 보여준다상관계수(correlation coefficient)는 두 변수가 함께 움직이는 정도를 나타낸다. 즉, 변수 A와 B가 얼마나 “같은 방향으로” 또는 “다른 방향으로” 변화하는지를 총체적으로 나타낸다.  우리는 분석할 때,  먼저 상관계수를 본다.   상관계수가 나타나지 않으면 두 변수간의 관계(선형) 가 없다고 간주한다.  (예외적으로 한 변수의 효과를 다른 변수가 억압하고 있을 경우에는 회귀계수가 상관계수보다 클 수 있다).  회귀계수는 통제 이후 ‘남은 영향’..

불변 독립변수의 오류: 인식의 차이를 현실의 차이로 해석할 수 있는가?

변수 간 인과관계를 분석하려면, 기본적으로 독립변수가 변해야 한다. 독립변수가 변화함에 따라 종속변수가 어떻게 달라지는지를 보는 것이 연구의 출발점이기 때문이다.  독립변수가 변화하지 않으면, 그것이 종속변수에 영향을 미쳤는지 알아내기 어렵다. 연구중에는 실제로는 독립변수가 변화하지 않았음에도 그 효과를 분석하는 연구가 다수 존재한다. 대표적인 예는 다음과 같다. 예컨대 “정주단지의 물리적 환경이 주민 만족도에 미치는 영향”을 분석한 연구를 보자. 연구 대상은 동일한 정주단지에 거주하는 주민들이며, 종속변수는 주민의 생활 만족도이다. 연구자는 독립변수로 물리적 환경을 설정하고, 그것에 대한 주민 개인의 평가를 수집하였다. 그러나 이 경우 실제로는 물리적 환경 자체는 하나이며 변화가 없다. 변화한 것은  ..

베이스레이트 오류: 왜 전 국민을 검사하지 않았을까?

코로나19 팬데믹 당시, “왜 모든 사람에게 검사를 하지 않지?”라고 의문을 가진 분들이 있다. 모두 검사하면 안심도 되고, 조기 발견에도 도움이 될 것 같았기 때문이다. 하지만 방역 당국은 확진자 접촉 여부나 증상 유무 등 일정한 기준을 충족한 사람들만 검사 대상으로 하였다. 물론, 검사 시약이나 인력 등 자원의 제한도 이유였다. 그러나 그 이면에는 낮은 유병률(low base rate)을 가진 질병을 검사할 때 생기는 ‘위양성(false positive)’ 문제도 함께 고려되었을 가능성이 크다. 검사에는 일반적으로 두 방향의 오류가 존재한다. 위양성 (False Positive): 실제로는 감염되지 않았는데 양성으로 판정되는 경우위음성 (False Negative): 실제로는 감염되었지만 음성으로 판..

부분과 전체가 다르게 말할 때: 심프슨(Simpson's Paradox)의 역설과 혼란변수 통제

전체 집단에서의 분석 결과가 하위 집단별 분석 결과와 정반대로 나타나는 경우가 있다. 이를 심프슨의 역설이라고 한다. 하위 집단별 분포가 차이가 있는데, 분석 과정에서 이런  혼란변수(confounding variable)를 통제하지 않았을 때 발생한다. 예를 들어, 연구소별로 보면 근무기간이 길수록 보수가 높아지는 경향이 나타났다고 하자. 그런데 연구단지 전체를 대상으로 분석하면 오히려 근무기간이 길수록 보수가 낮아지는 결과가 나올 수 있다. 이처럼 전체 집단의 경향과 하위 집단의 경향이 상반되게 나타나는 현상이 심프슨의 역설이다.왜 이런 일이 일어날까? 그 이유는 하위 집단 간의 구조적 차이 때문이다. 아래 예시 표를 보자.예시 표: 연구소별 근무기간과 보수 수준연구소                  ..

데이터 활용 오류 방지: 체리피킹, 맥나마라 오류, 굿하트의 법칙, 생존자 편향과 지표의 다양화

사회현상을 분석하고 정책 효과를 평가할 때 단일 지표나 통계치에 의존하면 현상의 패턴을 왜곡하거나 중요한 요소를 간과할 위험이 있다. 다양한 지표를 활용하면 해석이나 분석이 다소 복잡해 지기는 하지만 오류의 가능성은 감소한다. 지표나 통계치를 활용할 때 발생할 수 있는 주요 오류로는 다음과 같은 것들이 있다.  체리피킹(Cherry Picking): 특정 주장을 뒷받침하는 데이터나 결과만 선택적으로 제시하는 오류를 말한다. 연구자가 의도적으로 유리한 결과만 선택할 수도 있지만, 무의식적으로 자신이 원하는 방향의 결과를 강조하는 경우도 있다. 예컨대 새로운 환경정책의 효과를 분석할 때, 긍정적인 변화가 나타난 지표만 제시한다면, 이는 체리피킹에 해당한다. 또한 특정 지역의 낮은 성과를 감추기 위해 다른 지..

회귀오류 (Regression Fallacy): 정책효과 판단의 함정 - 회귀현상(Regression to the Mean)을 이해하자

모든 데이터에는 오차가 존재한다. 따라서 데이터를 분석하고 해석할 때 이를 고려해야 하며, 그렇지 않으면 비합리적인 판단을 초래할 수 있다. 특히, 무작위 측정 오차로 인해 발생하는 회귀현상(Regression Toward the Mean, RTM) 을 정책 효과나 독립변수의 효과로 착각하는 회귀오류(Regression Fallacy) 에 대해 살펴보자. 1. 회귀오류란?회귀오류는 평균으로의 회귀 현상을 실제 현상으로 오인하는 오류를 의미한다.평균으로의 회귀란, 높은 점수를 받은 집단은 다음 측정 시 점수가 낮아지고, 낮은 점수를 받은 집단은 반대로 점수가 올라가는 현상이다. 이는 정책 효과나 독립변수의 영향 때문이 아니라 무작위 오차 로 인해 발생한다.예를 들어, 연구자의 연구 실적을 매년 집계한다고 ..

"측정 오차와 표집 오차: 무작위와 체계적 오차의 차이와 처리 방법

오차는 데이터와 현상간의 차이다. 측정 값과 실제와의 차이라고도 한다. 오차= 데이터 – 현상 또는오차= 측정값 – 실제 이러한 오차에는  크기와 방향이 일정하게 나타나는 체계적 오차가 있다. 예를 들어 기부금 액수를 조사할 때  실제보다 높여 대답하면,  체계적 오차가 발생한다.  예컨대 기부금을 높여서 대답하면 체계적 오차가 발생한다. 이 외에 무수히 많은 이유로 오차가 있을 수 있는데, 예컨대 같은 질문을 반복해도 대답이 달라질 수 있다. 이러한 오차를 무작위 오차라고 하는데, 크기와 방향은 예측할 수 없다. 그렇지만  +도 있고 –도 있기 때문에 여러 무작위 오차의 평균을 내면 0에 가까워진다고 가정한다. 무작위 오차의 종류: 측정오차와 표집오차 무작위 오차는 발생원인에 따라 측정오차와 표집오차로..

학술논문에서 데이터 소개 방법

데이터를 분석한 결과를 학술논문이나 보고서로 제출할 때는 데이터에 대한 충분한 설명을 제공해야 한다.  이는 독자가 분석결과의 신뢰성을 평가할 수 있도록 하고, 다른 연구자가 해당 데이터에 접근하여 검증하거나 추가 연구 또는 반복 연구를 수행하는 것이 가능하도록 하기 위해서다.  따라서 데이터 유형에 따라 다르겠지만 이런 목적에 필요한 정보를 제공하는 것이 필요하다. 사회과학 분야 논문에서 사회조사 데이터를 사용했을 경우 대체로 다음 사항을 포함한다. 물론 소셜 미디어를 이용한 경우나 실험을 실시했을 때는  해당 방법에 적합한 정보를 제공한다. 1. 데이터 수집 관련 정보.모집단 혹은 연구대상: .표본크기.표집 방법:  - 단순히 ‘무선 표집을 실시했다’, ‘연령별로 전국 20세 이상 성인을 확률표집을 ..

유의도 검증의 한계: 효과 크기를 같이 보아야

유의도 검증은 표본에서 발견된 패턴이 전체 집단에서도 존재하는지를 확인하는 방법이다. 이를 위해 유의확률(p-value) 을 계산하며, 이 값이 충분히 작으면 해당 패턴이 실제로 존재한다고 판단한다. 일반적으로 p 이면 실제 현상이 존재한다고 보고, 그보다 크면 우연한 결과로 간주한다. 대부분의 통계 기법은 유의확률을 자동으로 계산해 주며, 많은 연구자가 이를 분석 결과를 판단할 때 사용한다.  그러나 유의도 검증에는 몇 가지 중요한 한계가 있다. 첫째로 유의확률이 낮다고 해서 효과가 크거나 중요한 것은 아니다. 유의확률이 낮다는 것은 단지 해당 효과가 ‘확실히 존재한다’는 것을 의미할 뿐이고, 그 효과가 크거나 의미 있다는 것과는 별개다. 하지만 p-value가 작으면 결과가 중요하다고 해석하는 오류가..

학술연구 데이터의 새로운 패러다임: 리포지토리 활용의 중요성

학술연구에서 신뢰할 수 있는 데이터를 찾는 것은 연구의 타당성 확보에 매우 중요하다. 연구자는 연구 목적에 맞는 데이터를 직접 수집하거나 기존 데이터를 활용해야 하는데, 공공기관에서 생산한 국가 승인 통계는 통계청 마이크로데이터 서비스( https://mdis.kostat.go.kr/index.do 에서 제공된다. 또한, 연구기관이나 정부 기관이 자체적으로 데이터를 공개하기도 한다. 그러나 이러한 공공 데이터만으로 연구에 필요한 모든 정보를 확보할 수는 없다. 특히, 특정한 연구 주제에 맞는 세부 데이터를 검색하는 것은 쉽지 않다. 이러한 문제를 해결하는데 데이터 기탁소(Data Repository)가 중요한 역할을 한다. 데이터 기탁소는 데이터 생산자나 연구자가 생성한 연구자료와 데이터를 수집하여 다른..