2025/04 18

정책 효과 분석을 위한 DID(이중차분) 분석: GPT를 활용한 실행과 해석

1. 언제 사용하는가?정책이나 제도 개입의 효과를 평가할 때, 단순히 한 집단의 전후 변화만으로는 정책 효과를 입증하기 어렵다. 왜냐하면 시점 간 차이는 정책 외에도 다양한 외생적 요인의 영향을 받을 수 있기 때문이다. 그렇다면 회귀분석으로 통제하면 될까?회귀분석을 이용해서 정책대상자와 비대상자의 모든 차이를 통제할 수 있다면 정책효과를 추정할 수 있다. 하지만 실제로는 다음과 같은 문제가 있다.  a. 차이를 유발하는 중요한 속성변수를 연구자가 모를 수 있고 b. 안다고 해도 데이터에 포함되어 있지 않거나 c. 측정 자체가 어려울수도 있다. 이 경우 회귀분석을 통해 원인을 추정하는 방안은 실현하기 어렵다. 그래서 어떻게 할 수 있을까?정책대상자와 유사한 집단을 특정할 수 있다면 정책 개입 전후의 변화를..

PSM과 PSW: 성향점수(Propensity Score)를 이용한 분석

성향점수란?  성향 점수(Propensity Score)란, 어떤 사례가 특정 집단(예: 처치 집단, 찬성 집단 등)에 속할 확률을 해당 사례의 여러 특성을 바탕으로 예측한 값이다.  이 값은 로지스틱 회귀분석을 통해 산출되며, 0~1 사이의 확률로 표현된다. 2. 성향 점수는 언제 사용하나? 관찰 자료에서는 집단별로 공변량 혹은 오차변수(성별, 연령, 학력 등)의 분포가 다르기 때문에 집단간 비교가 어렵다.  성향 점수는  이러한 집단의 공변량을 하나의 수치로 요약한 것이다.  마치 여러 문항으로 구성된 심리검사 점수를 하나의 총점으로 나타내는 것과 같다. 3. 성향 점수의 예 두 동네가 있다고 가정해 보자. 위쪽 동네와 아래쪽 동네는 여러 면에서 서로 다르다. 옷을 입는 스타일도 다르고, 음식 취향도..

로지스틱 회귀분석 2: 해석방법과 GPT 프롬프트

4. 다항 로지스틱 회귀 예시 로지스틱 회귀는 이진형 종속변수에 주로 사용되지만, 종속변수가 세 개 이상의 범주를 가지거나 순서가 없는 범주형일 경우에는 다항 로지스틱 회귀(multinomial logistic regression)를 사용할 수 있다.소비자들이 A, B, C 중 어떤 브랜드를 선택하는지를 분석하고자 할 경우, 다항 로지스틱 회귀를 사용하여 B 또는 C 브랜드를 선택할 가능성을  A 브랜드에 대한 상대적 오즈비로 추정할 수 있다. 이 때 분석 결과가 아래와 같다고 가정하자: 비교 대상독립변수계수(β)오즈비(exp(β))p-value해석B vs A소득0.1821.200.028소득이 높을수록 B 브랜드를 선택할 가능성이 증가함B vs A나이0.0211.020.204나이는 B 브랜드 선택과 유의..

회귀분석 2025.04.10

로지스틱 회귀분석 1 : 이진형(binary) 종속변수

1. 로지스틱 회귀란 무엇인가?로지스틱 회귀는 종속변수가 이진형(binary)일 때 사용하는 회귀분석 기법이다.  일반적인 선형 회귀는 결과 값이 연속형일 때 적합하지만, 로지스틱 회귀는 결과가 '성공/실패', '예/아니오', '1/0'처럼 두 가지 범주로 나뉘는 경우에 적절하다.예를 들어,  교육 프로그램에 참여할 확률이나 상품 구매 여부를 예측하는 데 사용할 수 있다. 2. 왜 로지스틱 회귀를 사용하는가?선형 회귀분석을 이진형 종속변수에 사용하면 예측값이 0~1 범위를 벗어난다.  그래서 로지스틱 회귀는 독립변수의 선형 결합을 시그모이드 함수(logistic function)를 통해 변환하여 0과 1 사이의 값을 갖도록 한다. 이처럼 로지스틱 회귀는 비선형적으로 변환하는 과정을 거쳐 예측값을 산출하기..

회귀분석 2025.04.10

GPT 통계분석 2 - 데이터 정제 (데이터 클리닝)

※ 본 문서에 포함된 내용은 필자의 GPT 사용 경험을 기반으로 작성된 것이다. GPT ADA의 실제 작동 방식은 사용자의 프롬프트, 이전 대화 내용, 버전, 랜덤성 등에 따라 달라질 수 있으며, 매번 동일한 결과를 보장하지 않는다. 데이터는 분석에 앞서 정제(cleaning) 작업을 해야 한다. 정제작업이란 데이터에 있는 처리 과정상의 오류를 찾아내서 수정하는 작업을 말한다. 이러한 정제작업은 그다음 단계인 데이터 변환 및 사전 검토 등을 모두 포함해서 전처리라고도 한다. 통계청이나 전문 생산기관에서 제공한 공개용 데이터는 대부분 이러한 정제 과정을 거쳤기 때문에 추가적인 처리가 필요 없는 경우가 많다. 그러나 조사 기관에 의뢰해서 직접 수집한 데이터의 경우, 이러한 작업이 완전하지 않을 수 있어 확인..

GPT 통계분석 1 - GPT ADA에 데이터 올리기

※ 본 문서의 내용은 필자의 GPT 사용 경험에 기반하고 있으며, GPT ADA의 실제 작동은 사용자의 프롬프트, 이전 대화 맥락, 버전 및 랜덤 요소에 따라 달라질 수 있다. 따라서 동일한 입력에도 항상 같은 결과가 생성되지는 않는다. GPT에게 분석을 맡기려면 먼저 데이터를 올려야 한다. 데이터가 작고 잘 정리되어 있다면, CSV 파일을 올린다음 간단한 설명을 채팅창에 입력해도 된다. 하지만 변수가 많거나 분석을 반복해야 하는 경우에는 변수 정보를 정리한 엑셀 파일을 따로 업로드하는 것이 좋다.GPT는 채팅창에 입력한 설명을 기억하지 않는다. 다음에 다시 분석하려면 설명을 반복해야 하므로, 변수 설명 파일을 만들고 함께 업로드하는 방식이 효율적이다. 1. 변수명 규칙 GPT는 Python을 사용해서 ..

〈라쇼몽〉에서 〈빨간모자의 진실〉까지: 진실은 어떻게 구성되는가 – GPT 시대의 소통과 서사에 대한 성찰

### 1. 서론: 질문이 바뀌었다 오늘날 우리는 무엇을 ‘진실’이라 부를 수 있는가? 수많은 정보가 넘쳐나는 시대에 살고 있음에도 불구하고, 진실에 도달하기는 점점 더 어려워지고 있다. 과거에는 언론, 법정, 학계 등 제한된 채널에서 제공되는 완결된 정보를 비교하고 선택하는 구조였다면, 지금은 정보가 끊임없이 생성되고 해석이 융합되며, 진실 그 자체가 유동적인 것으로 변모하고 있다. 롱펠로우의 시 《The Arrow and the Song》은 이러한 시대의 감각을 예감하듯 말한다: > I shot an arrow into the air,   > It fell to earth, I knew not where; 우리가 쏜 화살, 말, 생각, 질문은 그 즉시 어떤 영향을 미쳤는지 알 수 없다. 그것이 어디에..

말은 어떻게 해야 통할 수 있을까 : 설득 전략을 구성하는 이론과 실제

우리는 소통을 늘 강조하지만,  상대가 내 말대로 움직여야 소통이 되었다고 생각한다.  설득이 되어야 소통이 되었다고 착각한다.   그러나 소통과 설득은 분명히 다르다. 아니 달라야 한다.   설득은 특정 행동을 유도하기 위한 전략적 행위이고, 소통은 상대의 감정, 욕구, 맥락을 이해하고 연결하는 과정이기 때문이다.설득이 효과를 중심에 둔다면,소통은 관계와 의미를 중심에 둔다.그렇다고 설득과 소통이 서로를 배제하는 것은 아니다.  오히려 지정한 설득은 소통을 바탕으로 이루어지며, 설득 없는 소통은 공허한 공감에 그친다. 영화 『라쇼몽』은 설득의 과잉과 소통의 부재가 어떻게 진실을 왜곡하고 파편화하는지를 상징적으로 보여준다. 등장인물들은 모두 자기 정당화를 위한 말을 쏟아내지만, 누구도 타인의 말을 들으려..

상관계수 vs 회귀계수 - 관계와 인과를 구분하기 위한 출발점

회귀계수와 상관계수는 두 변수가 관계된 정도를 나타내는 대표적인 통계치며, 회귀분석을 하게 되면 두 계수를 같이 구한다.  따라서 두 계수가 나타내는 바를 개념적으로 구분해 두는 것이 필요하다.  상관계수는 관계 정도의 ‘전체 합계’를 보여준다상관계수(correlation coefficient)는 두 변수가 함께 움직이는 정도를 나타낸다. 즉, 변수 A와 B가 얼마나 “같은 방향으로” 또는 “다른 방향으로” 변화하는지를 총체적으로 나타낸다.  우리는 분석할 때,  먼저 상관계수를 본다.   상관계수가 나타나지 않으면 두 변수간의 관계(선형) 가 없다고 간주한다.  (예외적으로 한 변수의 효과를 다른 변수가 억압하고 있을 경우에는 회귀계수가 상관계수보다 클 수 있다).  회귀계수는 통제 이후 ‘남은 영향’..

회귀분석 계통도 0 - 하나의 가계도, 다양한 자손들

회귀분석(regression)은 다양하게 발전해 왔지만,  공통적으로 갖는 목적이 있다.  즉 독립변수로 종속변수를 예측하는 것이다.  우리가 흔히 접하는 선형 회귀분석은 이러한 다양한 회귀분석방법의 출발점이다.  이것에서, 데이터의 성격에 맞추어 다양한 파생 모델이 나왔다. 어떤 모형은 계수 추정 방식을 바꾸고, 어떤 모형은 종속변수의 분포 가정을 바꾸며, 또 어떤 모형은 데이터의 계층 구조를 반영한다.  데이터의 특성이나 분석목적에 따라 다양하게 변신해 온 것이다.  따라서 한 연구자가 이 모든 회귀모형을 사용할 가능성은 없다고 본다. 다만 다른 사람의 분석결과를 이해하려면  각 회귀분석의 특성들은 알아둘 필요가 있다..  워낙 다양하기 때문에 이것을 분류하기도 쉽지 않다. 사회과학자의 입장에서  사..

회귀분석 2025.04.06