2025/04/06 5

상관계수 vs 회귀계수 - 관계와 인과를 구분하기 위한 출발점

회귀계수와 상관계수는 두 변수가 관계된 정도를 나타내는 대표적인 통계치며, 회귀분석을 하게 되면 두 계수를 같이 구한다.  따라서 두 계수가 나타내는 바를 개념적으로 구분해 두는 것이 필요하다.  상관계수는 관계 정도의 ‘전체 합계’를 보여준다상관계수(correlation coefficient)는 두 변수가 함께 움직이는 정도를 나타낸다. 즉, 변수 A와 B가 얼마나 “같은 방향으로” 또는 “다른 방향으로” 변화하는지를 총체적으로 나타낸다.  우리는 분석할 때,  먼저 상관계수를 본다.   상관계수가 나타나지 않으면 두 변수간의 관계(선형) 가 없다고 간주한다.  (예외적으로 한 변수의 효과를 다른 변수가 억압하고 있을 경우에는 회귀계수가 상관계수보다 클 수 있다).  회귀계수는 통제 이후 ‘남은 영향’..

회귀분석 계통도 0 - 하나의 가계도, 다양한 자손들

회귀분석(regression)은 다양하게 발전해 왔지만,  공통적으로 갖는 목적이 있다.  즉 독립변수로 종속변수를 예측하는 것이다.  우리가 흔히 접하는 선형 회귀분석은 이러한 다양한 회귀분석방법의 출발점이다.  이것에서, 데이터의 성격에 맞추어 다양한 파생 모델이 나왔다. 어떤 모형은 계수 추정 방식을 바꾸고, 어떤 모형은 종속변수의 분포 가정을 바꾸며, 또 어떤 모형은 데이터의 계층 구조를 반영한다.  데이터의 특성이나 분석목적에 따라 다양하게 변신해 온 것이다.  따라서 한 연구자가 이 모든 회귀모형을 사용할 가능성은 없다고 본다. 다만 다른 사람의 분석결과를 이해하려면  각 회귀분석의 특성들은 알아둘 필요가 있다..  워낙 다양하기 때문에 이것을 분류하기도 쉽지 않다. 사회과학자의 입장에서  사..

회귀분석 2025.04.06

변수의 로그 변환과 제곱근 변환- '큰 수'를 현실적으로 만들기

회귀분석을 할 때 연속형 변수는 대개 별다른 가공 없이 그대로 분석에 사용한다.그러나 값의 범위가 너무 크거나, 분포가 한쪽으로 심하게 치우쳐 있는 경우에는 그대로 사용하기에 적합치 않다.이런 변수를 그대로 쓰면 회귀모형의 가정을 위배하거나, 결과 해석이 왜곡될 수 있다.예를 들어, 도시 인구, 기업 매출, 가구소득처럼 일부 극단적으로 큰 값이 나타나는 변수는 종속변수에 비정상적인 영향을 주거나, 오차가 일정하지 않은 문제(이분산성)가 발생한다.   이런 경우 데이터 값을 변환(transformation)하는 것도 하나의 해결방법이 된다.  변환이란  데이터의 분포 형태를 바꾸는 것이라고 생각하면 된다. 사회과학에서는 그중에서도 로그(log)와 제곱근(sqrt) 변환이 가장 널리 사용된다. 로그 변환 –..

회귀분석 2025.04.06

회귀분석 계통도 6- 베이지안 회귀 - 사전 지식과 소표본

마지막으로 베이지안 회귀(Bayesian Regression)는 회귀분석에 사전 지식(prior knowledge)을 반영할 수 있으며,각 회귀계수를 확률 분포 형태로 추정한다는 점에서 전통적인 회귀분석과 차별된다. . 전통적인 회귀분석에서는 계수를 고정된 값으로 추정한다. .  표준오차나 신뢰구간을 통해 추정의 정확도를 간접적으로 표현한다.하지만 베이지안 회귀에서는 각 계수 자체를 확률변수로 간주하고, 분석자가 설정한 사전 분포(prior distribution)와 실제 데이터로부터 얻어진 가능도(likelihood)를 결합하여  사후 분포(posterior distribution)를 추론한다. 즉 이 계수가 어느 정도의 값을 가질 가능성이 얼마나 되는가를 직접적으로 표현해 준다. 즉, 이러한 접근은 ..

회귀분석 2025.04.06

회귀모형 계통도 5: 유연한 비선형 회귀- GAM, 스플라인 회귀

회귀분석은 기본적으로 독립변수와 종속변수 사이의 선형 관계(linear relationship)를 전제로 한다.그러나 현실의 데이터에서는 선형적이지 않은 경우도 많다.  이럴 때 전통적인 선형 회귀모형보다 더 유연하고 확장된 회귀모형이 필요할 수 있다.대표적인 방법으로는GAM (Generalized Additive Model, 일반화 가법 모형)스플라인 회귀 (Spline Regression)■ GAM (Generalized Additive Model)GAM은 선형 회귀식의 각 항을 고정된 계수(선형 형태)로 제한하지 않고,각 독립변수에 대해 스무스 함수(smooth function)를 적용함으로써변수와 결과 사이의 비선형적 관계를 유연하게 추정할 수 있게 한다.예를 들어, 야간 근로 시간이 건강에 미치..

회귀분석 2025.04.06