2025/04/05 4

회귀분석 계통도4- 일부만 보이는 데이터: 절단, 검열, 선택, 구조적 0

데이터가 일부만 관측되거나, 특정 조건 하에서만 관측 가능한 경우에는 다른 접근이 필요하다.  이러한 상황에서 사용되는 모델이 바로 제한된 종속변수 모형이다.이러한 모형들은 일반적인 회귀모형처럼 모든 관측값이 연속적으로 주어지는 구조를 전제로 하지 않고,0이 비정상적으로 많이 나타나거나,하위 구간에서 관측이 잘리거나,특정 조건에서만 종속변수가 관측되거나,선택된 표본에만 결과변수가 존재하거나하는 경우를 모델링하기 위해 사용된다.예를 들어,프로빗 회귀는 0/1로만 관측되는 결과를 예측하며,핵만 모형은 관측이 선택된 집단에만 일어나는 경우의 편향을 보정하고,토빗 회귀는 특정 구간 이하나 이상이 모두 같은 값(절단)으로 처리되는 경우,제로 인플레이티드 회귀는 0이 두 가지 원인(구조적 0, 우연한 0)에서 나타..

회귀분석 2025.04.05

회귀모형 계통도3- 다층모형/혼합모형 : 계층적 구조를 가진 데이터

■ 집단 구조를 반영해야 하는 이유사회과학 데이터 중에는 집단 내 종속성을 가지는 경우가 있다. 예를 들어 학생은 학교에, 환자는 병원에 소속되어 있고,  근로자는 회사에 소속되어 있다.   이렇게 집단에 속한 개인들을 대상으로 분석할 때는 각 개인이 갖는 독립변수 외에, 소속된 집단의 특성이 미치는 영향을 함께 고려해야할 경우가 있다.  즉, 학생의 성적에는 개인의 성별이나 공부 시간 같은 개인 속성뿐 아니라, 사립학교 여부나 학교 규모, 교육환경 같은 학교 차원의 특성도 함께 작용한다고 보고, 그것을 분리해서 파악해야 개인이나 학교의 특성이 갖는 효과를 제대로 분석할 수 있을 것이다. 이러한 계층적 구조를 반영하지 않고 일반적인 단일 수준 회귀모형으로 분석하면, 집단의 효과가 개인 속성의 효과에 섞여..

회귀분석 2025.04.05

회귀모형 계통도2 - 일반화 선형모델(GLM) - 링크함수로 확장

일반적인 선형회귀모형(OLS)은 종속변수가 정규분포를 따른다고 가정하고, 예측값은 독립변수의 선형결합으로 표현된다. 그러나 현실에서는 종속변수가 연속형이 아닌 경우도 많다. 예를 들어, 성공/실패처럼 이항형(binary outcome)이거나, 어떤 사건의 발생 횟수처럼 카운트 자료일 수도 있다. 이러한 경우에는 기존의 선형회귀모형을 그대로 적용할 수 없고, 종속변수의 특성에 맞는 다른 분포를 고려해야 한다. 이럴 때 사용하는 것이 일반화 선형모형(GLM, Generalized Linear Model)이다.GLM에서는 먼저 설명변수들의 선형조합으로 선형 예측자(linear predictor)를 계산하고, 이를 링크 함수(link function)에 적용해 최종 예측 값을 산출한다. 이때 링크 함수는 데이터..

회귀분석 2025.04.05

회귀모형 계통 1 - 선형 회귀와 그 변형 : 회귀분석의 출발점이자 확장의 기반

1. 선형회귀와 그 변형들 – 회귀분석의 출발점이자 확장의 기반 회귀분석의 출발점은 최소제곱법(OLS, ordinary least squares)을 기반으로 한 고전적인 선형 회귀다. 이는 종속변수가 연속형 변수일 때, 설명변수와의 선형 관계를 통해 그 값을 예측하거나 설명하는 모형이다.  이 고전적 형태에서 발전한 다양한 변형들이 있다. 이들은 공통적으로 종속변수의 구조는 유지하면서, 추정 방식이나 목적함수를 변형하는 방식이다.리지 회귀(Ridge): 변수 간 다중공선성 문제를 완화하기 위해 계수를 축소하는 L2 패널티를 추가한다. 고전적 선형회귀와 비슷하되, 회귀 계수들의 크기가 선형회귀와 비교해서 줄어든다.라쏘 회귀(Lasso): 일부 계수를 0으로 수축시켜 변수 선택까지 수행하는 L1 패널티를 사..

회귀분석 2025.04.05