효과크기 (Effect Size): 영향의 크기를 나타내는 지표
효과크기란?
효과크기(effect size)란 독립변수 또는 실험처치가 종속변수에 미치는 영향의 크기를 나타내는 지표다. 독립변수가 종속변수에 영향을 주는가에 보통은 관심을 두고, 그래서 p 값을 구해 이를 알아본다. 그리고 효과의 크기는 사용한 분석방법에 따라 보통 평균 값의 차이, R square, 상관계수, %차이 등 다양한 방법으로 제시한다. 상관도의 경우 표준화가 되어있지만 평균값이나 백분률 차이로 나타내면 그 효과가 큰 것인지 작은 것인지 판단하기 어렵다. 그래서 이러한 효가의 크기를 나타낼 때는 표준편차로 표준화하여 효과크기를 나타내는 지표로 사용한다. 이러한 표과크기는 다음에 살펴볼 TOST (Two One-sided Test)와 같은 동등성 검증 (Equivalence Test)의 핵심이 된다.
두 집단 간 평균 차이가 5점이며 t-test결과 p = 0.01이라면, 이러한 차이가 우연에 의한 것일 확률이 1%다. 두 집단 간에 차이가 있다고 간주한다. 평균 차이 5점이 독립변수의 영향력 즉 효과의 크기가 되는데, 5점차이라는 것이 얼마나 큰 것인지를 나타낼 필요가 있다. 그렇지만 원래 점수의 평균값의 차이를 그대로 사용하면 연구나 조사마다 그 크기의 의미가 다르기 때문에 비교나 해석이 어렵다. 그래서 이러한 평균차이를 표준편차를 이용하여 표준화한 값을 사용한다. 그 중에 대표적인 것으로 Cohen(1988)이 제안한 Cohen’s d가 있으며, 이는 다음과 같이 정의된다.
Cohen's d = (평균의 차이)/ (표준편차)
여기서 표준편차로 나누어 준다는 것이 중요하다. 유의도 수준을 구할 때는 표준오차를 이용하기 때문에 표본크기에 따라 유의도 수준이 다르게 되지만 코헨의 디는 표준편차로 나누어주기 때문에 표본크기와 관계없다.
어떻게 구하나?
. JASP과 JAMOVI는 t-Test 등 해당 분석 메뉴에 효과크기와 효과크기의 신뢰구간을 구하는 옵션이 있어 쉽게 구할 수있다. SPSS는 코헨의 d를 계산해 주지 않는다. 코헨의 디 자체는 평균을 표준편차로 나누면 되나, 신뢰구간은 t 분포를 이용해서 직접 구하려면 번거롭다. 물론 R에는 effsize()등 다양한 함수가 있지만 JASP, JAMOVI등의 GUI에서 구하는 것이 가장 편하다.
Cohen’s d 해석
평균를 표준화한 Cohen’s d는 다음과 같이 해석된다.
- d = 0.2: 작은 효과 (Small effect)
- d = 0.5: 중간 효과 (Medium effect)
- d = 0.8 이상: 큰 효과 (Large effect)
특히, d = 1인 경우, 두 집단 간 평균 차이가 1 표준편차만큼의 차이를 의미한다. 표준편차는 평균값으로부터의 변동성을 나타내며, 정규분포를 가정할 때 약 68%의 데이터가 평균 ±1 표준편차 범위 내에 위치한다. 따라서 d = 1은 상당히 의미 있는 차이를 나타낸다고 볼 수 있다. 이와 같은 효과크기를 나타내는 코헨의 디를 사용하면 여러 평균차이 검증결과를 비교할 수 있다.
그 외의 지표들
효과크기는 평균 차이뿐만 아니라, 다양한 통계 분석에서 사용된다. 대표적인 효과크기 지표는 다음과 같으나 이 외에도 다양한 지표들이 있다. 연구맥락에서 적절한 것을 선택하면된다. 카이스퀘어를 이용한 교차표의 경우 유의확률은 카이스퀘어로 하지만 효과의 크기 즉 관계의 정도는 Cramer's V로 나타내야 비교하기 편하다. 카이스퀘어와 달리 크레머 V는 표본크기와 관계없이 최소 0에서 최대 1이 된다. 따라서 비교하고 해석하기에 편하다.
- Cohen’s d: 평균 차이를 표준편차로 나눈 값 (t-검정에서 사용)
- Pearson’s r: 상관계수로 효과크기를 나타낸다.
- Eta squared : 분산분석(ANOVA)에서 설명된 변량의 비율을 나타낸다.
- Odds ratio (OR): 로지스틱 회귀 분석에서 집단 간의 비율 차이를 나타낸다
- Cramér’s V : 범주형 데이터에서 카이제곱 값을 표본크기와 변수의 수를 가지고 표준화를 한 지표다. 0에서 1사이의 값을 갖고, 카이스퀘어와 달리 표본크기의 영향을 받지 않는다.
효과크기와 유의확률(p value)
효과크기와 유의확률은 데이터 검증의 각기 다른 측면을 보여준다.
- 유의확률 p 값은 영가설일 참일 확률을 의미한다. 즉 관계의 확실성을 나타낸다. p 값이 작을수록 우리는 독립변수가 종속변수에 영향을 주고 있다고 확신할 수 있다.
- 효과크기는 두 변수 간 관계의 강도를 나타내며, 표본 크기의 영향을 받지 않는다.
같은 효과크기를 가지더라도, 표본 크기(n)에 따라 유의확률(p-value)이 달라진다. 예를 들어, 표본 크기가 작으면 효과크기가 커도 유의확률이 낮게 나오지 않을 수 있다. 즉 유의미한 차이가 없는 것으로 나올 수 있다. 반대로 표본 크기가 크면 효과크기가 작아도 유의미한 차이가 있는 것으로 나올 수 있다.
예: 새로운 민원서비스 제도를 개편한 후 주민 만족도를 100점만점으로 측정하여 비교한 결과, 시행 후 평균이 54.8로 시행 전 평균(50.2)보다 4.6점 높게 나타났다. 독립표본 t-검증결과 t(198) = 3.45, p = 0.001로 나타나, 정책 시행후의 만족도가 증가하였다. 그러나 효과크기(Cohen’s d = 0.44)는 중간(medium) 정도인 것으로 나타나, 정책의 시행이 성과에 미치는 영향이 통계적으로 유의하지만, 그 크기는 기대만큼 크지는 않았다고 해석된다.
평균 | 표준편차 | 표본크기 | |
정책 시행 전 | 50.2 | 10.5 | 100 |
정책 시행 후 | 54.8 | 10.2 | 100 |
통계량 | 값 |
t 값 | 3.45 |
p 값 | 0.001 |
Cohen’s d | 0.44 |
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum Associates.
Fritz, C. O., Morris, P. E., & Richler, J. J. (2012). "Effect size estimates: Current use, calculations, and interpretation." Journal of Experimental Psychology: General, 141(1), 2-18.