데이터 분석방법

두 변수 간 관계분석: 집단 간 차이, 상관도, 동등성 검증

skcho 2025. 3. 13. 08:18

데이터 분석의 기본적인 목적 중 하나는  변수 간 관계를 규명하는 것이다. 사회과학 연구의 핵심은 변수 간 관계를 탐색하고 이를 통해 사회적 현상의 원인을 설명하는 데 있다.  따라서 두 변수 간의 관계를 분석해서 밝혀내는 것은 사회과학 연구의 출발점이자 근본적인 과정이라고 할 수 있다.

 

변수 간의 관계는 ‘한 변수가 변하면 다른 변수도 변하는가?’를 통해서 파악할 수 있다.  이러한 관계를 찾아내는 방법에

여러 가지가 있으나, 대표적인 방법으로 (1) 집단 간 평균 차이 검증 (2) 상관도 분석 (3) 동등성 검증 등이 있다.

 

집단 간 평균 차이 검증

 

집단에 따라 평균에 차이가 있는지를 통해 관계를 분석하는 방법으로 널리 사용된다.   독립변수(X)에 따라 종속변수 (Y)의 평균값이 집단별로 차이를 보이는가를 보는 방법인데,  t 검증(t-Test), 분산분석(ANOVA) 등이 있다.  종속변수에 이상치가 있거나 분포가 정상분포에서 많이 벗어 난 경우 맨위트니 유검증(Mann-Whitney U Test)이나 크루스칼 월리스 (Kruskal-Wallis One-way ANOVA) 와 같은 비모수 검증방법을 사용할 수 있다. 또 이상치의 영향을 덜 받는 절삭평균치(trimmed mean)을 이용해서 집단간 차이를 검증하기도 한다. 

 

이러한 집단 간 차이를 알아보는 방법은  실험설계가 잘 되어 있는 연구에서 실험결과를 토대로  인과관계를 검증할 때 사용한다.  예컨대 모든 것이 동일하지만 미리 훈련을 받은 실험집단과 그렇지 않은 통제 집단 간에 성과점수에 차이가 나타난다면 훈련이 성과에 영향을 미쳤다고 해석할 수 있다. 이러한 해석은 실험처치 (X) 외에 다른 요인의 변화가 없도록 실험설계가 되어 있어야 한다.

 

준 실험설계(Quasi-experimental Design)에서도 인과관계 입증에 사용될 수 있다. 예컨대 어느 지역에 있는 사업체들이 업종을 무엇으로 신고했느냐에 따라 정부 지원금이 달라졌지만,   신고한 업종 차이에도 불구하고 실질적으로 사업체간에 어떤 차이도 없었다면  준실험설계 연구가 될 수 있다.  즉 지원금이 사업실적에 미치는 효과를  이들 사업체를 분석해서 파악할 수 있기 때문이다.  이처럼 사업체를 무선적으로 배치하지는 않았지만, 실질적으로 차이가 없는 두 집단을  비교하는 경우 이것을 준실험설계라고 한다. 

 

그러면 실험이나 준 실험이 아닌 경우에는 사용하지 못하는가? 그렇지 않다. 다만 검증 결과를 인과관계로 해석하지 못할 뿐이다. XY 간에 차이는 있으나 인과관계인지는 알 수 없는 것이다.  인과관계 여부는 검증 방법이 아니라 연구설계와 이론에 의해서 결정된다. 데이터 분석은 그러한 이론적 해석에 도움이 되도록 현상의 규칙성을 찾아내는 것이다.

 

상관도 분석 (Correlation Analysis)

변수 간의 관계를 알아보는 또 다른 방법에는 상관관계를 분석하는 것이다.  상관분석은 한 변수가 변화할 때 다른 변수가 어떻게 변화하는지를 수치로 나타내는 분석이다.  이러한 수치 즉 상관계수가 0이 아니면 관계가 존재한다고 볼 수 있다. 상관분석은 일반적으로 실험연구보다는 사회조사 데이터에서 변수 간 관계를 탐색할 때 사용한다. 따라서 인과관계를 바로 보여주지는 못한다. 상관관계가 있다는 것은 인과관계의 필요조건이지 충분조건은 아니다. 연구에서는 먼저 상관관계를 확인한 후, 인과관계를 검증하는 추가적인 분석을 수행하는 것이 일반적이다.

 

연속형 변수 간의 관계가 선형이라고 가정할 수 있으면 피어슨 상관계수 (Pearson’s r)를 사용할 수 있다. 그렇지 않은 경우엔 스피어맨 로우(Spearman’s rank correlatin coefficient)와 같은 비모수적 방법을 사용하는 것이 좋다. 선형이 아닐 때 피어슨 r을 사용하면 실제로 존재하는 관계를 찾아내지 못할 수 있다.  또 이상치가 있는 경우에는 이상치의 위치에 따라 관계를 과대 평가하거나 과소 평가하게 된다. 

 

동등성 검증 (Equivalence Test)

두 변수 간 관계를 보여주는 검증 방법에 집단 간 차이가 없다는 것을 확인하는 검증 방법도 있다. 일반적으로 연구에서는 두 집단 간에 차이가 있다는 것을 찾아내서 변수 간 관계를 확인한다. 즉 독립변수(X)에 따라 종속변수(Y)가 달라져야 XY가 관계가 있다고 해석한다. 그런데 X에 따라 Y에 차이가 없다는 것을 입증해야 하는 경우가 있다. 예컨대 예산이 덜 소요되는 새로운 교육 방법을 사용한 다음,  새로운 교육방법이 기존에 사용하던 방법을 대치할 수 있다는 것을 보여줄 경우도 있다.  새로운 교육 방법이 효과가 있다는 것을 보여주려면 실험집단 (새 교육방법)과 통제 집단 (기존의 교육방법) 간에 성과(Y)에 차이가 없어야 한다. 이처럼 집단 간 차이가 없다는 것을 검증하는 방법을 동등성 검증 또는 상동성 검증이라고 한다.

 

사회과학 연구에서 동등성 검증을 사용해야 할 경우가 종종 있지만, 여전히 많은 연구에서 이를 간과하고 단순한 차이 검증을 수행하는 경향이 있다. 차이 검증 결과가 유의하지 않다는 이유만으로 차이가 없다고 해석하는 것은 논리적 오류다. “차이가 존재하지 않는다는 주장과 차이가 있다고 결론내릴 수 없다는 주장이 동일하지 않기 때문이다.

 

동등성 검증에서는 단순히 평균차이가 유의미하지 않다는 것을 확인하는 것이 아니라, 두 집단 간 차이가 실질적으로 의미 없는 수준(사전에 설정한 범위 내)임을 확인하는 것이다. 즉 실질적으로 무의미한 효과크기 (a practically negligibel effect size)가 얼마인지를 설정하고,  독립변수의 효과가 이 크기 안에 있는지를 확인하는 것이다.

 

동등성 검증에는 TOST (Two One-sided Test) 방법을 사용한다. (TOST에 대해서는 별도 글에서 설명한다). R GUI 중에서 JASP는 추가모듈을 통해 TOST 검증기능을 제공한다. 독립표본, 종속표본 등에서 TOST 검증을 실시할 수 있다.

 

이처럼  측정 수준이나 변수의 특성에 따라 적용할 수 있는 다양한 방법이 개발되어 있다. 이 중에서 데이터의 특성에 맞는 방법을 선택하는 것이 중요하다. 검증력이 강한 모수 통계 방법을 선호하는 경향이 있지만, 데이터가 적합하지 않으면 결과가 왜곡될 수 있다. 분석 방법의 검증력이 약해도 있는 관계는 찾아낼 수 있다.  유의미한 결과가 나오지 않는 것은  분석방법의 문제라기 보다는 실제로 그런 관계가 없거나, 아니면  데이터의 특성에 맞는 방법을 선택하지 않아서일 가능성이 높다.   분석결과가 기대와 다를 때는,  이상치나 결측치 그리고 분포의 형태 등을 검토해서 현재 사용한 방법이 적절하게 선택되었는지를 살펴볼 필요가 있다.