2025/04 19

회귀분석 계통도 0 - 하나의 가계도, 다양한 자손들

회귀분석(regression)은 다양하게 발전해 왔지만,  공통적으로 갖는 목적이 있다.  즉 독립변수로 종속변수를 예측하는 것이다.  우리가 흔히 접하는 선형 회귀분석은 이러한 다양한 회귀분석방법의 출발점이다.  이것에서, 데이터의 성격에 맞추어 다양한 파생 모델이 나왔다. 어떤 모형은 계수 추정 방식을 바꾸고, 어떤 모형은 종속변수의 분포 가정을 바꾸며, 또 어떤 모형은 데이터의 계층 구조를 반영한다.  데이터의 특성이나 분석목적에 따라 다양하게 변신해 온 것이다.  따라서 한 연구자가 이 모든 회귀모형을 사용할 가능성은 없다고 본다. 다만 다른 사람의 분석결과를 이해하려면  각 회귀분석의 특성들은 알아둘 필요가 있다..  워낙 다양하기 때문에 이것을 분류하기도 쉽지 않다. 사회과학자의 입장에서  사..

회귀분석 2025.04.06

변수의 로그 변환과 제곱근 변환- '큰 수'를 현실적으로 만들기

회귀분석을 할 때 연속형 변수는 대개 별다른 가공 없이 그대로 분석에 사용한다.그러나 값의 범위가 너무 크거나, 분포가 한쪽으로 심하게 치우쳐 있는 경우에는 그대로 사용하기에 적합치 않다.이런 변수를 그대로 쓰면 회귀모형의 가정을 위배하거나, 결과 해석이 왜곡될 수 있다.예를 들어, 도시 인구, 기업 매출, 가구소득처럼 일부 극단적으로 큰 값이 나타나는 변수는 종속변수에 비정상적인 영향을 주거나, 오차가 일정하지 않은 문제(이분산성)가 발생한다.   이런 경우 데이터 값을 변환(transformation)하는 것도 하나의 해결방법이 된다.  변환이란  데이터의 분포 형태를 바꾸는 것이라고 생각하면 된다. 사회과학에서는 그중에서도 로그(log)와 제곱근(sqrt) 변환이 가장 널리 사용된다. 로그 변환 –..

회귀분석 2025.04.06

회귀분석 계통도 6- 베이지안 회귀 - 사전 지식과 소표본

마지막으로 베이지안 회귀(Bayesian Regression)는 회귀분석에 사전 지식(prior knowledge)을 반영할 수 있으며,각 회귀계수를 확률 분포 형태로 추정한다는 점에서 전통적인 회귀분석과 차별된다. . 전통적인 회귀분석에서는 계수를 고정된 값으로 추정한다. .  표준오차나 신뢰구간을 통해 추정의 정확도를 간접적으로 표현한다.하지만 베이지안 회귀에서는 각 계수 자체를 확률변수로 간주하고, 분석자가 설정한 사전 분포(prior distribution)와 실제 데이터로부터 얻어진 가능도(likelihood)를 결합하여  사후 분포(posterior distribution)를 추론한다. 즉 이 계수가 어느 정도의 값을 가질 가능성이 얼마나 되는가를 직접적으로 표현해 준다. 즉, 이러한 접근은 ..

회귀분석 2025.04.06

회귀모형 계통도 5: 유연한 비선형 회귀- GAM, 스플라인 회귀

회귀분석은 기본적으로 독립변수와 종속변수 사이의 선형 관계(linear relationship)를 전제로 한다.그러나 현실의 데이터에서는 선형적이지 않은 경우도 많다.  이럴 때 전통적인 선형 회귀모형보다 더 유연하고 확장된 회귀모형이 필요할 수 있다.대표적인 방법으로는GAM (Generalized Additive Model, 일반화 가법 모형)스플라인 회귀 (Spline Regression)■ GAM (Generalized Additive Model)GAM은 선형 회귀식의 각 항을 고정된 계수(선형 형태)로 제한하지 않고,각 독립변수에 대해 스무스 함수(smooth function)를 적용함으로써변수와 결과 사이의 비선형적 관계를 유연하게 추정할 수 있게 한다.예를 들어, 야간 근로 시간이 건강에 미치..

회귀분석 2025.04.06

회귀분석 계통도4- 일부만 보이는 데이터: 절단, 검열, 선택, 구조적 0

데이터가 일부만 관측되거나, 특정 조건 하에서만 관측 가능한 경우에는 다른 접근이 필요하다.  이러한 상황에서 사용되는 모델이 바로 제한된 종속변수 모형이다.이러한 모형들은 일반적인 회귀모형처럼 모든 관측값이 연속적으로 주어지는 구조를 전제로 하지 않고,0이 비정상적으로 많이 나타나거나,하위 구간에서 관측이 잘리거나,특정 조건에서만 종속변수가 관측되거나,선택된 표본에만 결과변수가 존재하거나하는 경우를 모델링하기 위해 사용된다.예를 들어,프로빗 회귀는 0/1로만 관측되는 결과를 예측하며,핵만 모형은 관측이 선택된 집단에만 일어나는 경우의 편향을 보정하고,토빗 회귀는 특정 구간 이하나 이상이 모두 같은 값(절단)으로 처리되는 경우,제로 인플레이티드 회귀는 0이 두 가지 원인(구조적 0, 우연한 0)에서 나타..

회귀분석 2025.04.05

회귀모형 계통도3- 다층모형/혼합모형 : 계층적 구조를 가진 데이터

■ 집단 구조를 반영해야 하는 이유사회과학 데이터 중에는 집단 내 종속성을 가지는 경우가 있다. 예를 들어 학생은 학교에, 환자는 병원에 소속되어 있고,  근로자는 회사에 소속되어 있다.   이렇게 집단에 속한 개인들을 대상으로 분석할 때는 각 개인이 갖는 독립변수 외에, 소속된 집단의 특성이 미치는 영향을 함께 고려해야할 경우가 있다.  즉, 학생의 성적에는 개인의 성별이나 공부 시간 같은 개인 속성뿐 아니라, 사립학교 여부나 학교 규모, 교육환경 같은 학교 차원의 특성도 함께 작용한다고 보고, 그것을 분리해서 파악해야 개인이나 학교의 특성이 갖는 효과를 제대로 분석할 수 있을 것이다. 이러한 계층적 구조를 반영하지 않고 일반적인 단일 수준 회귀모형으로 분석하면, 집단의 효과가 개인 속성의 효과에 섞여..

회귀분석 2025.04.05

회귀모형 계통도2 - 일반화 선형모델(GLM) - 링크함수로 확장

일반적인 선형회귀모형(OLS)은 종속변수가 정규분포를 따른다고 가정하고, 예측값은 독립변수의 선형결합으로 표현된다. 그러나 현실에서는 종속변수가 연속형이 아닌 경우도 많다. 예를 들어, 성공/실패처럼 이항형(binary outcome)이거나, 어떤 사건의 발생 횟수처럼 카운트 자료일 수도 있다. 이러한 경우에는 기존의 선형회귀모형을 그대로 적용할 수 없고, 종속변수의 특성에 맞는 다른 분포를 고려해야 한다. 이럴 때 사용하는 것이 일반화 선형모형(GLM, Generalized Linear Model)이다.GLM에서는 먼저 설명변수들의 선형조합으로 선형 예측자(linear predictor)를 계산하고, 이를 링크 함수(link function)에 적용해 최종 예측 값을 산출한다. 이때 링크 함수는 데이터..

회귀분석 2025.04.05

회귀모형 계통 1 - 선형 회귀와 그 변형 : 회귀분석의 출발점이자 확장의 기반

1. 선형회귀와 그 변형들 – 회귀분석의 출발점이자 확장의 기반 회귀분석의 출발점은 최소제곱법(OLS, ordinary least squares)을 기반으로 한 고전적인 선형 회귀다. 이는 종속변수가 연속형 변수일 때, 설명변수와의 선형 관계를 통해 그 값을 예측하거나 설명하는 모형이다.  이 고전적 형태에서 발전한 다양한 변형들이 있다. 이들은 공통적으로 종속변수의 구조는 유지하면서, 추정 방식이나 목적함수를 변형하는 방식이다.리지 회귀(Ridge): 변수 간 다중공선성 문제를 완화하기 위해 계수를 축소하는 L2 패널티를 추가한다. 고전적 선형회귀와 비슷하되, 회귀 계수들의 크기가 선형회귀와 비교해서 줄어든다.라쏘 회귀(Lasso): 일부 계수를 0으로 수축시켜 변수 선택까지 수행하는 L1 패널티를 사..

회귀분석 2025.04.05

GPT 시대, 우리는 어떻게 말하고 듣는가

기술이 바뀌어도, 인간의 커뮤니케이션은 변하지 않는다 요즘 수업을 준비하며 자주 드는 생각이 있다.기술은 정말 빠르게 변하고 있지만, 그 안에서 말하고 듣는 인간의 모습은 의외로 크게 달라지지 않았다는 것이다.사람들은 여전히 정보를 알고 싶어하고, 의견을 표현하고 싶어하고, 감정을 나누고 싶어하며, 연결되고 싶어한다.오늘은 ‘변하지 않는 인간의 욕구’를 중심에 놓고 생각해보고자 한다. 1. 인간은 왜 소통하는가?디지털 기술과 인공지능이 발전하면서 우리는 방대한 정보 속에 살고 있다.하지만 소통의 목적은 예나 지금이나 같다. 정보를 알고 싶고,나를 알리고 싶고,감정을 나누고 싶고,누군가와 연결되고 싶다.기술은 수단을 바꿨지만, 인간의 소통 욕구를 충분히 채우지 못하고 있다.. . 2. 한 때는 ‘의견..