회귀분석은 기본적으로 독립변수와 종속변수 사이의 선형 관계(linear relationship)를 전제로 한다.
그러나 현실의 데이터에서는 선형적이지 않은 경우도 많다. 이럴 때 전통적인 선형 회귀모형보다 더 유연하고 확장된 회귀모형이 필요할 수 있다.
대표적인 방법으로는
- GAM (Generalized Additive Model, 일반화 가법 모형)
- 스플라인 회귀 (Spline Regression)
■ GAM (Generalized Additive Model)
GAM은 선형 회귀식의 각 항을 고정된 계수(선형 형태)로 제한하지 않고,
각 독립변수에 대해 스무스 함수(smooth function)를 적용함으로써
변수와 결과 사이의 비선형적 관계를 유연하게 추정할 수 있게 한다.
예를 들어, 야간 근로 시간이 건강에 미치는 영향이 일정하지 않고, 특정구간(예: 월 13시간까지)에서는 거의 변화가 없다가 다른 구간(예, 월 20시간 이상)에서 급격히 증가하는 경우, GAM은 이런 비선형 패턴을 자연스럽게 포착할 수 있다.
GAM은 전체 예측식을 변수별 스무스 함수의 합으로 구성하므로 구조가 명확하고 해석도 비교적 직관적이다.
■ 스플라인 회귀 (Spline Regression)
스플라인 회귀는 전체 데이터를 일정 구간으로 나누고,
각 구간마다 다항함수(polynomial function)를 적합한 뒤,
이를 부드럽게 연결하여 하나의 회귀식으로 만드는 방법이다.
즉, 연속된 여러 개의 곡선 조각을 이어 붙인 구조이며,
노드(knot) 또는 절점이라고 불리는 특정 지점에서 기울기가 변할 수 있게 설계되어
한 변수 내에서 구간별로 다른 관계를 반영할 수 있다.
예를 들어, 연령과 건강지표 간 관계의 관계를 분석하는데, 젊을 때는 건강이 일정하게 유지되다가 노년기에 급격히 나빠지고 있다면, 스플라인 회귀는 이를 간결하게 포착한다. 복잡한 비선형 곡선도 과도한 다항식 사용 없이 간단한 형태로 표현한다.
📘 전체 분석 결과와 해석의 특징
GAM과 스플라인 회귀는 선형 회귀에 비해 훨씬 유연하게 다양한 데이터의 특성을 찾아주지만 그만큼 해석에는 주의가 필요하다. 먼저, 각 독립변수에 대해 추정되는 계수는 단일 숫자가 아닌, 스무스 함수나 다항식 계수 등 복수의 수치들로 구성되기 때문에, 선형 회귀처럼 독립변수 1단위 증가 시 결과가 얼마만큼 변한다는 식의 해석은 어렵다.
또한, 이들 모형은 기본적으로 변수의 중요도나 영향력의 크기를 직접 나타내지는 않는다.
모형 내부에는 각 변수에 대응되는 함수들이 존재하지만, 그것의 기울기나 곡선의 폭이 변수의 중요도를 수치로 요약해주지는 않으며, 전체 효과는 주로 시각적으로 확인하게 된다.
모델 전체의 적합도(예측 성능)는 평가 가능하다.
예측된 값과 실제 관측값의 차이, 또는 deviance, AIC 등과 같은 기준을 통해 모형 비교도 가능하다.
그러나 이들 모형은 유연도가 높아 과적합(overfitting)의 가능성이 크다.
.
무엇보다, 이들 모형의 핵심 목적은 관계의 유무를 검증하는 것보다는,
변수와 종속변수 사이의 관계 형태를 유연하게 파악하는 데 있다.
예를 들어, 변수의 효과가 일정한 방향으로 작용하는지,
특정 구간에서만 작동하는지, 혹은 일정 수준 이후 포화(flattening)되는지를 시각적으로 확인하는 것이 중심이 된다.
따라서 시각화는 이들 모형 해석에서 반드시 필요하다. 각 변수별로 추정된 곡선을 그래프로 표현함으로써, 사용자는 변수의 작용 구간, 변화 방향, 경향성 등을 보다 직관적으로 이해할 수 있다.
사회과학 실증연구에서는 이러한 비선형 회귀기법이 널리 사용되지 않는다. 기술적인 난이도 때문이 아니라 사회과학에서는 학문적 관심이 관계의 형태보다 독립변수의 영향력 자체에 있기 때문이다. 즉 "어떤 변수가 종속변수에 유의한 영향을 미치는가?”가 중요하다. 그런데 비선형 회귀는 각 변수의 효과를 하나의 계수로 요약하지 않기 때문에 사회과학에서의 해석 방식에 적합하지 않다.
또 사회과학연구는 모델의 설명력이 높은 것 보다는 이론적 해석 가능성이 더 중요하다. 예컨대 야간노동시간과 건강간의 관계가 4차 함수 형태로 나타났다고 할 때, 이를 이론적으로 해석하는 것은 매우 어렵다.
또 이러한 비선형 회귀를 추정하려면 데이터가 많이 필요하다. 그러나 사회과학의 경우 설령 표본수가 어느 정도 되더라도 측정오차와 표집오차등이 있기 때문에 복잡한 비선형 모델을 안정적으로 추정하려면 데이터가 많아야 한다.
비선형 회귀가 변수간의 관계를 잘 보여줄 수 있는 매력이 있지만 사회과학에서 잘 사용되지 않는 이유다.
요약
- 변수별로 복수의 계수가 추정되어, 단일 계수 해석은 불가하다.
- 변수 중요도는 직접 제시되지 않음, 곡선 형태를 통해 간접 확인한다.
- 모델 전체 적합도는 평가 가능하나, 과적합이 발생할 수있다.
- 관계의 존재 유무보다는 형태 해석이 적절하다.
- 곡선의 모양을 통해 해석한다.
'회귀분석' 카테고리의 다른 글
변수의 로그 변환과 제곱근 변환- '큰 수'를 현실적으로 만들기 (0) | 2025.04.06 |
---|---|
회귀분석 계통도 6- 베이지안 회귀 - 사전 지식과 소표본 (0) | 2025.04.06 |
회귀분석 계통도4- 일부만 보이는 데이터: 절단, 검열, 선택, 구조적 0 (0) | 2025.04.05 |
회귀모형 계통도3- 다층모형/혼합모형 : 계층적 구조를 가진 데이터 (0) | 2025.04.05 |
회귀모형 계통도2 - 일반화 선형모델(GLM) - 링크함수로 확장 (0) | 2025.04.05 |