요청 사항 (분석 관련)

회귀분석, 어떻게 선택할까? - 종속변수에 따른 회귀모형 선택법

skcho 2025. 3. 24. 20:43

 – 어떤 회귀모형을 쓸까? 

 회귀분석은 사회과학에서 인과관계를 분석할 때 매우 널리 사용된다.  분석 과정이 비교적 직관적이고, 결과 해석도 간명하기 때문이다.  특히 혼란변수(Confounder)를 통제하면서 특정 독립변수가 종속변수에 미치는 영향을 분석할 수 있다는 점에서 유용하다.

하지만 회귀분석에는 생각보다 다양한 변형 기법이 존재하고, 이로 인해 분석 방법을 선택할 때 혼란을 겪는 경우도 많다. 그래서 이 글에서는 종속변수의 성격에 따라 어떤 회귀모형이 적절한지 정리보았다.

논문을 읽을 때나 직접 분석할 때, 종속변수가 어떤 특성을 갖고 있는지, 그리고 그에 적합한 회귀모형은 무엇인지 살펴볼 필요가 있다.  


회귀분석의  중요 가정: 종속변수의 분포

기본적인 선형 회귀분석에서는 종속변수가 연속형이고  그 잔차가 정규분포를 따른다고 가정한다.  그런데 실제 연구를 하다 보면,  종속변수가 범주형이거나, 0이 많은 카운트형일 때도 있고,  극단치의 영향을 배제하고 살펴보고 싶은 때도 있다. 

이때는 종속변수의 분포에 따라 선형 회귀 외의 다양한 회귀모형을 고려하면 된다. 만약 적합하지 않은 모형을 그대로 사용하면 설명력이 떨어지고,  결과 해석도 왜곡될 수 있습니다.


다양한 회귀모형  

1. 선형 회귀 (Linear Regression)

종속변수가 연속형이고 그 잔차가 정규분포를 따른다고 가정할 때 사용한다.  예를 들어, 월 소득이나 키, 시험 점수처럼 수치형 변수가 종속변수인 경우에 적합하다. .회귀계수는 독립변수가 1 단위 증가할 때 종속변수가 얼마나 변하는지를 나타낸다.  

 

2. 로지스틱 회귀 (Logistic Regression)

종속변수가 두 가지 범주(예: 찬성/반대, 성공/실패 등)로 나뉘는 이진형일 때 사용한다. 

예를 들어, 어떤 정책에 찬성할 확률을 분석할 때 사용할 수 있다.  로지스틱 회귀는 확률이 아니라 그 확률을 오즈(odds)로 변환한 뒤 로그를 취한 값에 선형 회귀를 적용한다.

회귀계수는 오즈비(odds ratio)로 전환해서 해석한다.  예를 들어, β=0.5라면 해당 독립변수가 1 증가할 때 특정 사건이 발생할 확률이 약 1.65배(exp(0.5) =1.65) 증가한다고 해석할 수 있다.


3. 다항 로지스틱 회귀 (Multinomial Logistic Regression)

종속변수가 세 개 이상의 범주를 가지지만 순서가 없는 경우에 사용한다. 예를 들어, 주거 유형이 아파트, 빌라, 단독주택인 경우처럼 명목형 범주일 때 사용한다.  분석은 기준 범주(예: 아파트)에 대해 다른 범주들이 선택될 상대적 확률을 비교한다.


4. 순서형 로지스틱 회귀 (Ordinal Logistic Regression)

종속변수가 서열(순서)이 있는 범주형 변수일 때 사용한다.  예를 들어, 만족도(불만족/보통/만족), 사회계층(하/중/상) 등이다. 이 모형은 인접한 범주 간의 누적 확률을 기준으로 회귀계수를 추정하고, 오즈비로 해석한다.


5. 포아송 회귀 (Poisson Regression)

종속변수가 어떤 사건이 일어난 횟수(카운트)일 때 사용한다.

예를 들어, 한 달 동안 병원에 방문한 횟수, 교통사고 건수 등일 때 적용한다.   회귀계수는 사건 발생률의 비율로 해석한다. β=0.3은 exp(0.3)=1.35이므로 사건 발생률이 약 1.35배 증가한다는 뜻이다. 분산이 평균보다 큰 경우는 음이항회귀 (Negative Binomial Regression)을 사용한다.

 

6. 음이항 회귀 (Negative Binomial Regression)

포아송 회귀처럼 종속변수가 어떤 사건이 일어난 횟수(카운트)일 때 사용하지만,  분산이 클 때 예컨대 평균보다 분산이 큰 경우에 적용한다.  예컨대 병원에 한 번도 안가는 사람이 있는 반면 10번 20번 이상 가는 사람들이 있을 때와 같이 분산이 큰 경우에 적용한다. 

 회귀계수는 포아송의 경우와 같이  사건 발생률로 해석한다. 

6. 제로 인플레이티드 회귀 (Zero-Inflated Regression)

 0값이 과도하게 많은 경우에 사용하는 회귀모형이다. 예를 들어, 병가 일수 데이터를 분석하는데 대부분 사람들이 병가를 가지 않아서 0일이 많다면, 일반 포아송 회귀보다 이 모델이 적절하다.  이 회귀분석은 사건이 일어난 예컨대 병가를 사용했는가를 예측하는 부분과 병가를 사용한다면 얼마나 사용했는가로 나누어 분석한다고 볼 수 있다. 


7. 검열 회귀 (Censored Regression, Tobit Model)

종속변수가 특정 값 이하 또는 이상으로만 관측되는 경우에 사용한다.

예컨대 가구소득이 0 미만으로는 조사되지 않거나, 1억 원 이상은 모두 ‘1억 이상’으로만 처리되는 경우 등이다.  이런 ‘절단’ 상황에서는 일반 선형 회귀보다는 토빗 회귀가 적절할 수 있다. 


8. 분위 회귀 (Quantile Regression)

평균이 아니라 특정 분위수(중앙값, 상위 25% 등)를 예측하고자 할 때 사용한다. 

예를 들어, 월소득의 중앙값에 어떤 요인이 영향을 주는지를 알고 싶을 때다. 극단값(outlier)에 영향을 덜 받기 때문에 분포가 비대칭이거나 극단값이 있을 때 선택할 수 있다.


9. 인과적 트리 (Causal Decision Tree)

인과적 트리는 데이터의 분포나 변수 간의 관계에 대한 가정을 하지 않고 사용하는 머신러닝 기반 회귀 기법이다.

트리 구조에 따라 데이터를 분기하면서, 각 집단(분기 노드)별로 특정 처치(treatment, 독립변수)의 인과 효과가 어떻게 달라지는지를  분석한다.

이 분석을 통해, 전체 평균 효과(ATE, Average Treatment Effect)뿐 아니라, 조건에 따른 이질적 인과 효과(Heterogeneous Treatment Effect, HTE)를 파악할 수 있다.

일반 회귀분석과 달리 모든 통제변수를 명시적으로 포함하지는 않지만, 트리 분기를 통해 조건부 평균 차이(Conditional ATE)를 비교하기 때문에 주요 변수들의 영향을 간접적으로 고려하는 구조이다.

 10. 도구변수 회귀 (Instrumental Variable Regression)

 

독립변수가 종속변수에 영향을 주는지, 혹은 반대인지 방향이 불확실할 때 사용하는 회귀다.

예를 들어, 교육이 사고를 줄이는지 확인하려고 할 때, 실제로는 사고가 나서 교육을 받은 경우도 있다. 이런 경우 일반 회귀모형은 잘못된 결론을 낼 수 있다.도구변수 회귀는 종속변수의 영향을 받았을 수 있는 독립변수 대신 제3의 변수(도구변수)를 이용해 순수한 효과를 파악한다. 


11. 명목변수 회귀 (Categorical Regression, CATREG)

종속변수가 명목형 또는 서열형 변수일 때, 이를 수치화하여 회귀분석을 수행한다.

SPSS의 CATREG가  대표적이며, 'Optimal Scaling'을 이용해 변수들을 수치형으로 변환하고 나서  분석한다.  해석은 회귀계수 자체보다는 변수 간 상대적 영향력 중심으로 한다.


✔ 요약 정리: 종속변수 유형별 회귀모형 비교표

 

회귀모형종속변수 형태주요 가정대표적 적합도 평가해석 방식
선형 회귀 연속형 (잔차의 정규분포) 선형 관계 계수 직접 해석
로지스틱 회귀 이진형 로짓 변환 AIC, McFadden R² 오즈비
다항 로지스틱 범주형 (3개 이상) 기준범주와 비교 AIC, BIC 범주별 오즈
순서형 로지스틱 서열형 누적 오즈비 AIC, BIC 인접 범주 비교
포아송 회귀 카운트형 평균 = 분산 AIC 발생률 비율
ZIP 회귀 0 과잉 카운트 두 과정 모델링 AIC 이중 해석
토빗 회귀 절단된 연속형 검열 고려 AIC, Pseudo R² 제한 구간 해석
분위 회귀 연속형, 비대칭 분위수 추정 Pseudo R² 분위수별 효과
인과적 트리 제한 없음 비선형 허용   분기 조건 해석
도구변수 회귀 내생성 존재 외생성 도구 통상적 R² 순수 인과효과
명목 회귀 명목형/서열형 최적척도 변환 상대적 영향 해석

마무리하며

회귀분석은 독립변수의 순수 효과를 찾아낸다는 강력한 도구지만,  종속변수가 어떤 특성을 갖는지에 따라 모델을 달리해야 한다.  종속변수의 형태는 다양하기 때문에 위에서 열거한 모델 외에도   다양한 기법들이 존재하고, 계속해서 새롭게 나타날 것이다. 

데이터에 적합한 최적의 모델이 무엇인지 판단하기 어렵다면, 선형회귀나 로지스틱 회귀 같은 간단한 모형으로 분석해 보고, 이것을 기존 연구와 비교해 보는 것이 좋다.  필요하다면  다항회귀, 순서형 회귀, 포아송, 트리 등으로 확장해 나가기를 권한다.