요청 사항 (분석 관련)

작은 표본의 위험: 회귀분석을 위한 최소 표본 크기는?

skcho 2025. 3. 21. 18:01

회귀분석을 위해서는 독립변수의 약 10배 정도의 사례가 필요하다고 하지만,  더  작은 표본으로도 데이터의 패턴을 적절히 추출할 수 있다는 연구도 있다.  또한 연구자가 예상하는 효과 크기를 바탕으로 표본 수를 계산하여 정할 수 있다는 접근법도 존재한다.

그러나 사회과학 분야에서 작은 표본이 가지는 위험성은 단순히 표본 크기가 작다는 점을 넘어서, 더 중요한 문제가 있을 수 있다. 따라서 표본 크기 자체 보다는 이 점을 확인해야 한다.

사회과학 분야의 작은 표본은 대체로 무작위 표집(random sampling) 방식으로 전집에서 추출되지 않는 경우가 많고,  따라서 전집의 특성이 충분히 반영되지 않았을 가능성이 크다.  특히 독립변수의 변동성이 충분하지 않을 가능성이 높다. 예를 들어, 농장의 규모와 농장 운영 기간이 소득에 미치는 영향을 연구한다고 가정할 때, 표본 크기가 30개 정도라면, 이 30개의 표본에서 농장 규모나 운영 기간이 특정 범위로 한정될 수 있다. 

둘째로는 독립변수가 여러 개일 경우 특정 조건의 사례들이 추출되지 않았을 수도 있다. 앞의 예의 경우 최근에 설립되었지만 규모가 큰 농장 등 특정 조건을 가진 사례가 누락되었을 수가 있다.

이런 상황은  독립변수의 영향력이 과소 추정되거나 입증되지 않는 방향으로 작용할 수 있다. 즉, 현실에서 존재하는 관계가 데이터 분석에서는 발견되지 않거나 왜곡될 위험이 있다는 것이다.

 

결론적으로,  중요한 독립변수가 충분한 변동성을 보이는지, 그리고 독립변수 간 상관계수가 지나치게 높지 않으면 작은 표본이라도 회귀 분석등을 적용할 수 있다고 본다.