데이터 분석방법 8

정책 효과 분석을 위한 DID(이중차분) 분석: GPT를 활용한 실행과 해석

1. 언제 사용하는가?정책이나 제도 개입의 효과를 평가할 때, 단순히 한 집단의 전후 변화만으로는 정책 효과를 입증하기 어렵다. 왜냐하면 시점 간 차이는 정책 외에도 다양한 외생적 요인의 영향을 받을 수 있기 때문이다. 그렇다면 회귀분석으로 통제하면 될까?회귀분석을 이용해서 정책대상자와 비대상자의 모든 차이를 통제할 수 있다면 정책효과를 추정할 수 있다. 하지만 실제로는 다음과 같은 문제가 있다.  a. 차이를 유발하는 중요한 속성변수를 연구자가 모를 수 있고 b. 안다고 해도 데이터에 포함되어 있지 않거나 c. 측정 자체가 어려울수도 있다. 이 경우 회귀분석을 통해 원인을 추정하는 방안은 실현하기 어렵다. 그래서 어떻게 할 수 있을까?정책대상자와 유사한 집단을 특정할 수 있다면 정책 개입 전후의 변화를..

PSM과 PSW: 성향점수(Propensity Score)를 이용한 분석

성향점수란?  성향 점수(Propensity Score)란, 어떤 사례가 특정 집단(예: 처치 집단, 찬성 집단 등)에 속할 확률을 해당 사례의 여러 특성을 바탕으로 예측한 값이다.  이 값은 로지스틱 회귀분석을 통해 산출되며, 0~1 사이의 확률로 표현된다. 2. 성향 점수는 언제 사용하나? 관찰 자료에서는 집단별로 공변량 혹은 오차변수(성별, 연령, 학력 등)의 분포가 다르기 때문에 집단간 비교가 어렵다.  성향 점수는  이러한 집단의 공변량을 하나의 수치로 요약한 것이다.  마치 여러 문항으로 구성된 심리검사 점수를 하나의 총점으로 나타내는 것과 같다. 3. 성향 점수의 예 두 동네가 있다고 가정해 보자. 위쪽 동네와 아래쪽 동네는 여러 면에서 서로 다르다. 옷을 입는 스타일도 다르고, 음식 취향도..

통계적 통제란 무엇인가?

이 블로그의 다른 글 「사회과학에서 인과관계 분석: 혼란변수 통제」 에서는 인과 추론의 기본 개념과 함께 혼란변수를 통제하는 필요성에 대해 소개했다. 이번 글에서는 통계적 통제(statistical control)가 어떤 방식으로 이루어지는지 그리고  분석 과정에서 무엇을 유의해야 하는지를 조금 더 구체적으로 살펴본다.통계적 통제란?통계적 통제는 독립변수 외에, 종속변수에 영향을 줄 수 있는 다른 변수들의 영향력을 통계적으로 제거하는 것을 말한다.이 과정을 통해 관심 있는 독립변수가 종속변수에 미치는 '순수한 영향'을 추정하려는 것이다. 예를 들어 ‘경력’이 ‘소득’에 영향을 주는지를 분석할 때, 동시에 ‘성별’도 소득에 영향을 미친다면, 이 변수는 혼란변수(confounding variable)가 된다..

사회과학에서의 인과적 영향: 매개변수와 조절변수의 역할 (헤이즈 PROCESS Macro 활용)

사회과학에서는 독립변수(X)가 종속변수(Y)에 미치는 영향을 찾아낸 후, 그 영향이 왜 나타나는지, 그리고 언제 나타나는지를 알아내고자 한다.  예를 들어, "소셜미디어 사용이 삶의 만족도를 낮춘다"는 패턴이  확인되었다고 가정해 보자.  사회과학자는 여기에서 나아가, "왜" 소셜미디어 사용이 만족도를 낮추는지, 그리고 그 영향이 어떤 경우에 나타나는지를 알고 싶어한다.  즉 독립변수의 영향을  매개(mediate)하고  조절(moderate)하는 변수를 찾아내어  영향의 흐름을  규명하는 것이다.  이러한 분석은 회귀분석을 이용할 수 있으나,   SPSS, JASP 등에서 제공하는 Andrew Hayes의 PROCESS Macro를 통해 수행할 수 있다. 중개(매개)  효과  분석중개변수는 독립변수(X..

혼란 변수(Confounding Variables) 통제: 인과관계 분석의 핵심

사회과학 연구에서 큰 도전 중 하나는 특정 변수(독립변수)가 종속변수에 미치는 영향을 정확하게 추정하는 것이다. 사회과학 연구는 사회적 현상의 패턴을 단순히 밝혀낼 뿐만 아니라 설명하고자 하기 때문이다. 그러나 현실에서는 다양한 외부 요인(혼란 변수, Confounder)이 존재하여 연구자가 관심 있는 변수의 순수한 영향을 파악하는 것을 어렵게 만든다. 따라서 혼란 변수를 효과적으로 통제하는 것이 인과관계 분석의 핵심이다. 혼란 변수란 무엇인가? 혼란 변수는 독립변수가 아니면서 종속변수와 독립변수에 동시에 영향을 주는 변수를 말한다. 예컨대, 아이스크림 판매량(X)이 증가할 때 익사자 수(Y)도 증가하는 상황을 생각하자. 아이스크림이 익사를 유발한 것이 아니라 기온상승(Z)이 아이스크림 판매도 늘리고, ..

두 변수 간 관계분석: 집단 간 차이, 상관도, 동등성 검증

데이터 분석의 기본적인 목적 중 하나는  변수 간 관계를 규명하는 것이다. 사회과학 연구의 핵심은 변수 간 관계를 탐색하고 이를 통해 사회적 현상의 원인을 설명하는 데 있다.  따라서 두 변수 간의 관계를 분석해서 밝혀내는 것은 사회과학 연구의 출발점이자 근본적인 과정이라고 할 수 있다.  변수 간의 관계는 ‘한 변수가 변하면 다른 변수도 변하는가?’를 통해서 파악할 수 있다.  이러한 관계를 찾아내는 방법에여러 가지가 있으나, 대표적인 방법으로 (1) 집단 간 평균 차이 검증 (2) 상관도 분석 (3) 동등성 검증 등이 있다.  집단 간 평균 차이 검증  집단에 따라 평균에 차이가 있는지를 통해 관계를 분석하는 방법으로 널리 사용된다.   독립변수(X)에 따라 종속변수 (Y)의 평균값이 집단별로 차이를..

데이터 분석의 첫걸음 - 데이터 전처리

데이터 분석에서 가장 중요한 첫걸음은 바로 전처리다. 분석을 위한 데이터 준비 작업이 제대로 이루어져야만, 이후의 분석이 정확하고 효율적으로 진행될 수 있다. 데이터 전처리는 각 변수의 분포 형태, 결측값, 극단값 등을 파악하고, 데이터를 분석에 적합한 형태로 변환하는 작업을 포함한다.  데이터 분석 방법은 매우 다양하며, 계속해서 새로운 기법들이 개발되고 있다. 모든 기법을 다 알 필요는 없지만, 주요 기법을 사용할 때 그 목적을 잘 이해하는 것이 중요하다. 분석 목적에 맞는 기법을 선택하고, 분석 결과를 제시할 때 어떤 산출물을 중점적으로 보여줘야 할지 판단하는데 도움이  되기 때문이다. 사회과학 분야에서의 자료 분석 목적은 다음 7가지로 구분해 볼 수 있다. 1. 데이터 전처리: 데이터의 분포와 특..

효과크기 (Effect Size): 영향의 크기를 나타내는 지표

효과크기란?효과크기(effect size)란 독립변수 또는 실험처치가 종속변수에 미치는 영향의 크기를 나타내는 지표다.  독립변수가 종속변수에 영향을 주는가에 보통은 관심을 두고, 그래서 p 값을 구해 이를 알아본다.  그리고 효과의 크기는 사용한 분석방법에 따라 보통 평균 값의 차이, R square, 상관계수, %차이 등 다양한 방법으로 제시한다.  상관도의 경우 표준화가 되어있지만 평균값이나 백분률 차이로 나타내면 그 효과가 큰 것인지 작은 것인지 판단하기 어렵다. 그래서 이러한 효가의 크기를 나타낼 때는 표준편차로 표준화하여  효과크기를 나타내는 지표로 사용한다. 이러한 표과크기는  다음에 살펴볼 TOST (Two One-sided Test)와 같은 동등성 검증 (Equivalence Test)의..