회귀분석 10

로지스틱 회귀분석 2: 해석방법과 GPT 프롬프트

4. 다항 로지스틱 회귀 예시 로지스틱 회귀는 이진형 종속변수에 주로 사용되지만, 종속변수가 세 개 이상의 범주를 가지거나 순서가 없는 범주형일 경우에는 다항 로지스틱 회귀(multinomial logistic regression)를 사용할 수 있다.소비자들이 A, B, C 중 어떤 브랜드를 선택하는지를 분석하고자 할 경우, 다항 로지스틱 회귀를 사용하여 B 또는 C 브랜드를 선택할 가능성을  A 브랜드에 대한 상대적 오즈비로 추정할 수 있다. 이 때 분석 결과가 아래와 같다고 가정하자: 비교 대상독립변수계수(β)오즈비(exp(β))p-value해석B vs A소득0.1821.200.028소득이 높을수록 B 브랜드를 선택할 가능성이 증가함B vs A나이0.0211.020.204나이는 B 브랜드 선택과 유의..

회귀분석 2025.04.10

로지스틱 회귀분석 1 : 이진형(binary) 종속변수

1. 로지스틱 회귀란 무엇인가?로지스틱 회귀는 종속변수가 이진형(binary)일 때 사용하는 회귀분석 기법이다.  일반적인 선형 회귀는 결과 값이 연속형일 때 적합하지만, 로지스틱 회귀는 결과가 '성공/실패', '예/아니오', '1/0'처럼 두 가지 범주로 나뉘는 경우에 적절하다.예를 들어,  교육 프로그램에 참여할 확률이나 상품 구매 여부를 예측하는 데 사용할 수 있다. 2. 왜 로지스틱 회귀를 사용하는가?선형 회귀분석을 이진형 종속변수에 사용하면 예측값이 0~1 범위를 벗어난다.  그래서 로지스틱 회귀는 독립변수의 선형 결합을 시그모이드 함수(logistic function)를 통해 변환하여 0과 1 사이의 값을 갖도록 한다. 이처럼 로지스틱 회귀는 비선형적으로 변환하는 과정을 거쳐 예측값을 산출하기..

회귀분석 2025.04.10

회귀분석 계통도 0 - 하나의 가계도, 다양한 자손들

회귀분석(regression)은 다양하게 발전해 왔지만,  공통적으로 갖는 목적이 있다.  즉 독립변수로 종속변수를 예측하는 것이다.  우리가 흔히 접하는 선형 회귀분석은 이러한 다양한 회귀분석방법의 출발점이다.  이것에서, 데이터의 성격에 맞추어 다양한 파생 모델이 나왔다. 어떤 모형은 계수 추정 방식을 바꾸고, 어떤 모형은 종속변수의 분포 가정을 바꾸며, 또 어떤 모형은 데이터의 계층 구조를 반영한다.  데이터의 특성이나 분석목적에 따라 다양하게 변신해 온 것이다.  따라서 한 연구자가 이 모든 회귀모형을 사용할 가능성은 없다고 본다. 다만 다른 사람의 분석결과를 이해하려면  각 회귀분석의 특성들은 알아둘 필요가 있다..  워낙 다양하기 때문에 이것을 분류하기도 쉽지 않다. 사회과학자의 입장에서  사..

회귀분석 2025.04.06

변수의 로그 변환과 제곱근 변환- '큰 수'를 현실적으로 만들기

회귀분석을 할 때 연속형 변수는 대개 별다른 가공 없이 그대로 분석에 사용한다.그러나 값의 범위가 너무 크거나, 분포가 한쪽으로 심하게 치우쳐 있는 경우에는 그대로 사용하기에 적합치 않다.이런 변수를 그대로 쓰면 회귀모형의 가정을 위배하거나, 결과 해석이 왜곡될 수 있다.예를 들어, 도시 인구, 기업 매출, 가구소득처럼 일부 극단적으로 큰 값이 나타나는 변수는 종속변수에 비정상적인 영향을 주거나, 오차가 일정하지 않은 문제(이분산성)가 발생한다.   이런 경우 데이터 값을 변환(transformation)하는 것도 하나의 해결방법이 된다.  변환이란  데이터의 분포 형태를 바꾸는 것이라고 생각하면 된다. 사회과학에서는 그중에서도 로그(log)와 제곱근(sqrt) 변환이 가장 널리 사용된다. 로그 변환 –..

회귀분석 2025.04.06

회귀분석 계통도 6- 베이지안 회귀 - 사전 지식과 소표본

마지막으로 베이지안 회귀(Bayesian Regression)는 회귀분석에 사전 지식(prior knowledge)을 반영할 수 있으며,각 회귀계수를 확률 분포 형태로 추정한다는 점에서 전통적인 회귀분석과 차별된다. . 전통적인 회귀분석에서는 계수를 고정된 값으로 추정한다. .  표준오차나 신뢰구간을 통해 추정의 정확도를 간접적으로 표현한다.하지만 베이지안 회귀에서는 각 계수 자체를 확률변수로 간주하고, 분석자가 설정한 사전 분포(prior distribution)와 실제 데이터로부터 얻어진 가능도(likelihood)를 결합하여  사후 분포(posterior distribution)를 추론한다. 즉 이 계수가 어느 정도의 값을 가질 가능성이 얼마나 되는가를 직접적으로 표현해 준다. 즉, 이러한 접근은 ..

회귀분석 2025.04.06

회귀모형 계통도 5: 유연한 비선형 회귀- GAM, 스플라인 회귀

회귀분석은 기본적으로 독립변수와 종속변수 사이의 선형 관계(linear relationship)를 전제로 한다.그러나 현실의 데이터에서는 선형적이지 않은 경우도 많다.  이럴 때 전통적인 선형 회귀모형보다 더 유연하고 확장된 회귀모형이 필요할 수 있다.대표적인 방법으로는GAM (Generalized Additive Model, 일반화 가법 모형)스플라인 회귀 (Spline Regression)■ GAM (Generalized Additive Model)GAM은 선형 회귀식의 각 항을 고정된 계수(선형 형태)로 제한하지 않고,각 독립변수에 대해 스무스 함수(smooth function)를 적용함으로써변수와 결과 사이의 비선형적 관계를 유연하게 추정할 수 있게 한다.예를 들어, 야간 근로 시간이 건강에 미치..

회귀분석 2025.04.06

회귀분석 계통도4- 일부만 보이는 데이터: 절단, 검열, 선택, 구조적 0

데이터가 일부만 관측되거나, 특정 조건 하에서만 관측 가능한 경우에는 다른 접근이 필요하다.  이러한 상황에서 사용되는 모델이 바로 제한된 종속변수 모형이다.이러한 모형들은 일반적인 회귀모형처럼 모든 관측값이 연속적으로 주어지는 구조를 전제로 하지 않고,0이 비정상적으로 많이 나타나거나,하위 구간에서 관측이 잘리거나,특정 조건에서만 종속변수가 관측되거나,선택된 표본에만 결과변수가 존재하거나하는 경우를 모델링하기 위해 사용된다.예를 들어,프로빗 회귀는 0/1로만 관측되는 결과를 예측하며,핵만 모형은 관측이 선택된 집단에만 일어나는 경우의 편향을 보정하고,토빗 회귀는 특정 구간 이하나 이상이 모두 같은 값(절단)으로 처리되는 경우,제로 인플레이티드 회귀는 0이 두 가지 원인(구조적 0, 우연한 0)에서 나타..

회귀분석 2025.04.05

회귀모형 계통도3- 다층모형/혼합모형 : 계층적 구조를 가진 데이터

■ 집단 구조를 반영해야 하는 이유사회과학 데이터 중에는 집단 내 종속성을 가지는 경우가 있다. 예를 들어 학생은 학교에, 환자는 병원에 소속되어 있고,  근로자는 회사에 소속되어 있다.   이렇게 집단에 속한 개인들을 대상으로 분석할 때는 각 개인이 갖는 독립변수 외에, 소속된 집단의 특성이 미치는 영향을 함께 고려해야할 경우가 있다.  즉, 학생의 성적에는 개인의 성별이나 공부 시간 같은 개인 속성뿐 아니라, 사립학교 여부나 학교 규모, 교육환경 같은 학교 차원의 특성도 함께 작용한다고 보고, 그것을 분리해서 파악해야 개인이나 학교의 특성이 갖는 효과를 제대로 분석할 수 있을 것이다. 이러한 계층적 구조를 반영하지 않고 일반적인 단일 수준 회귀모형으로 분석하면, 집단의 효과가 개인 속성의 효과에 섞여..

회귀분석 2025.04.05

회귀모형 계통도2 - 일반화 선형모델(GLM) - 링크함수로 확장

일반적인 선형회귀모형(OLS)은 종속변수가 정규분포를 따른다고 가정하고, 예측값은 독립변수의 선형결합으로 표현된다. 그러나 현실에서는 종속변수가 연속형이 아닌 경우도 많다. 예를 들어, 성공/실패처럼 이항형(binary outcome)이거나, 어떤 사건의 발생 횟수처럼 카운트 자료일 수도 있다. 이러한 경우에는 기존의 선형회귀모형을 그대로 적용할 수 없고, 종속변수의 특성에 맞는 다른 분포를 고려해야 한다. 이럴 때 사용하는 것이 일반화 선형모형(GLM, Generalized Linear Model)이다.GLM에서는 먼저 설명변수들의 선형조합으로 선형 예측자(linear predictor)를 계산하고, 이를 링크 함수(link function)에 적용해 최종 예측 값을 산출한다. 이때 링크 함수는 데이터..

회귀분석 2025.04.05

회귀모형 계통 1 - 선형 회귀와 그 변형 : 회귀분석의 출발점이자 확장의 기반

1. 선형회귀와 그 변형들 – 회귀분석의 출발점이자 확장의 기반 회귀분석의 출발점은 최소제곱법(OLS, ordinary least squares)을 기반으로 한 고전적인 선형 회귀다. 이는 종속변수가 연속형 변수일 때, 설명변수와의 선형 관계를 통해 그 값을 예측하거나 설명하는 모형이다.  이 고전적 형태에서 발전한 다양한 변형들이 있다. 이들은 공통적으로 종속변수의 구조는 유지하면서, 추정 방식이나 목적함수를 변형하는 방식이다.리지 회귀(Ridge): 변수 간 다중공선성 문제를 완화하기 위해 계수를 축소하는 L2 패널티를 추가한다. 고전적 선형회귀와 비슷하되, 회귀 계수들의 크기가 선형회귀와 비교해서 줄어든다.라쏘 회귀(Lasso): 일부 계수를 0으로 수축시켜 변수 선택까지 수행하는 L1 패널티를 사..

회귀분석 2025.04.05