데이터가 일부만 관측되거나, 특정 조건 하에서만 관측 가능한 경우에는 다른 접근이 필요하다. 이러한 상황에서 사용되는 모델이 바로 제한된 종속변수 모형이다.
이러한 모형들은 일반적인 회귀모형처럼 모든 관측값이 연속적으로 주어지는 구조를 전제로 하지 않고,
- 0이 비정상적으로 많이 나타나거나,
- 하위 구간에서 관측이 잘리거나,
- 특정 조건에서만 종속변수가 관측되거나,
- 선택된 표본에만 결과변수가 존재하거나
하는 경우를 모델링하기 위해 사용된다.
예를 들어,
- 프로빗 회귀는 0/1로만 관측되는 결과를 예측하며,
- 핵만 모형은 관측이 선택된 집단에만 일어나는 경우의 편향을 보정하고,
- 토빗 회귀는 특정 구간 이하나 이상이 모두 같은 값(절단)으로 처리되는 경우,
- 제로 인플레이티드 회귀는 0이 두 가지 원인(구조적 0, 우연한 0)에서 나타나는 상황을 모델링한다.
즉, 이들은 각기 다른 계산 방식과 통계적 가정을 따르지만,
현실 데이터에서 흔히 나타나는 “일부 관측의 제한성 또는 구조적 불균형”을 공통적으로 다룬다는 점에서,
일부 관측 회귀모형군으로 볼 수 있다.
예컨대 프로빗(Probit) 회귀의 잠재변수 수식을 보면 다음과 같다.
이러한 모델은 보이지 않는 연속형 잠재변수를 전제로 하며,
이 잠재변수가 특정 기준(예: 0)을 넘었을 때만 관측값 (Yi)가 1로 나타난다고 본다.
즉, 우리가 관측하는 0/1은 사실 내면의 연속적인 경향이나 성향이 일정 임계값을 넘었는지 아닌지를 표현하는 결과일 뿐이다.
이는 프로빗 모델뿐 아니라, 토빗(절단), 핵만(선택), ZIP(구조적 0)과 같은 다양한 모형에서도 잠재변수 구조가 핵심적인 분석 단위로 작용한다.
이처럼, 잠재변수를 상정하고 확률분포를 전제로 하는 회귀모형들은, 해석과 사용 측면에서 일반적인 회귀모형과 다른 점이 있다. 먼저, 회귀계수의 해석이 보다 간접적이다. 선형회귀나 로지스틱 회귀에서는 계수 하나하나가 종속변수의 변화량이나 확률 변화와 직접 연결할 수 있지만, 잠재변수 모형에서는 관측되지 않은 잠재 변수를 설명하는 것이며, 실제 관측된 결과와의 관계는 확률적 함수(예: 누적 정규분포함수, 즉 일정 임계값을 넘을 확률을 계산하는 함수)를 통한 간접 해석으로 이뤄진다.
이러한 모형들은 데이터의 구조가 검열(censoring), 절단(truncation), 선택(selection) 등으로 복잡하게 구성된 경우에 한정하여 사용된다. 예컨대, 소비금액 중 0으로 기록된 값이 많거나, 관측 자체가 특정 조건을 만족할 때에만 이뤄지는 경우(예: 취업자만 임금이 측정되는 경우) 등에 적합하다.
잠재변수 모형에서도 독립변수 간의 영향력 비교는 가능하지만, 이는 보이지 않는 잠재변수에 대한 상대적 영향일 뿐, 실제 관측된 결과의 변화량을 의미하지는 않는다. 따라서 이러한 모형의 계수는 해석이 간접적이므로 절대값보다는, “표준화 계수나 한계효과(marginal effect)를 통해 변수간 상대적 영향을 비교하는 것이 일반적이다. 또한 설명력 측면에서는 일반적인 R² 대신, 의사 R²(pseudo R-squared)와 같은 지표를 통해 모델 간 상대적 적합도를 비교할 수 있다.
현실적으로 사회과학데이터는 측정된 값이 검열의 결과인지, 혹은 실제 현상이 그러한 것인지 데이터 만으로는 구분하기 어렵다. 예컨대 어떤 응답자가 드라마 시청시간은 0이라고 응답했을 때, 정말 드라마를 보지 않는 사람일 수도 있고, 조사 시점이나 측정방식 등에 따라 일시적으로 0으로 나타났을 가능성도 있다. 일반 선형회귀를 사용할 것인지 아니면 특수 회귀분석이 적합한 것인지는 이론적 해석 가능성과 데이터의 특성, 수집방식 등을 함께 고려해서 판단해야 한다.
모형 | 분석 대상 | 데이터 특성 | 수학 구조 | 해석 방식 |
프로빗 | 이진 결과 | 0/1 관측만 가능 | GLM, 누적 정규분포 | 확률 기반 해석 |
토빗 | 연속형 결과 | 일정 값 아래 절단 | 잠재변수 + 절단 | 간접 추정 |
핵만 | 연속형 결과 | 일부만 관측됨 | 선택모형, 2단계 구조 | 선택 편의 보정 |
ZIP | 카운트 데이터 | 0이 과잉 발생 | 혼합모형 (로지스틱+포아송) | 이중 과정 해석 |
'회귀분석' 카테고리의 다른 글
회귀분석 계통도 6- 베이지안 회귀 - 사전 지식과 소표본 (0) | 2025.04.06 |
---|---|
회귀모형 계통도 5: 유연한 비선형 회귀- GAM, 스플라인 회귀 (0) | 2025.04.06 |
회귀모형 계통도3- 다층모형/혼합모형 : 계층적 구조를 가진 데이터 (0) | 2025.04.05 |
회귀모형 계통도2 - 일반화 선형모델(GLM) - 링크함수로 확장 (0) | 2025.04.05 |
회귀모형 계통 1 - 선형 회귀와 그 변형 : 회귀분석의 출발점이자 확장의 기반 (0) | 2025.04.05 |