성향점수란?
성향 점수(Propensity Score)란, 어떤 사례가 특정 집단(예: 처치 집단, 찬성 집단 등)에 속할 확률을 해당 사례의 여러 특성을 바탕으로 나타낸 값이다. 이 값은 로지스틱 회귀분석을 통해 산출되며, 0~1 사이의 확률로 표현된다.
2. 성향 점수는 언제 사용하나?
성향 점수는 여러 가지 용도로 사용하지만 특성이 다른 두 집단을 비교가능하도록 만들 때 주로 사용한다. 각 사례가 가진 많은 특성을 하나의 점수로 요약해서 나타낸 것이라고 생각하면 된다.
3. 성향 점수의 예
두 동네가 있다고 가정해 보자. 위쪽 동네와 아래쪽 동네는 여러 면에서 서로 다르다. 옷을 입는 스타일도 다르고, 음식 취향도 다르며, 사람들의 태도나 관심사도 조금씩 다르다. 예컨대 위쪽 동네 사람들은 빨간 옷을 자주 입고, 아래쪽 동네 사람들은 검은 옷을 선호하는 등 특유한 스타일이 있다. 그렇지만 같은 동네에 있더라도 그 동네 스타일을 별로 갖고 있지 않은 사람도 있을 것이고, 오히려 반대로 다른 동네 스타일을 가지고 있는 경우도 있을 수 있다.
이제 어떤 사람이 위쪽 동네 사람이지만, 검은 옷을 즐겨 입고 아래쪽 동네의 말투나 행동양식을 닮았다면 우리는 “이 사람은 아래쪽 동네 스타일이네”라고 말할 수도 있다. 즉, 위쪽 동네 사람일지라도 아래쪽 동네의 ‘성향’을 어느 정도 가지고 있을 수 있다.
성향 점수는 이런 개념을 숫자로 표현한 것이다. 사람의 다양한 특성(성별, 연령, 태도, 행동양식 등)을 종합하여, 그 사람이 특정 집단에 속할 ‘경향’을 하나의 수치로 요약한 것이다.
이처럼 성향 점수는 다양한 특성(공변량)을 하나의 점수로 요약하여, 개별 변수들을 따로 비교하거나 통제하지 않고도 집단 간 차이를 설명하거나 조정할 수 있도록 도와준다.
4. 대표성 보정을 위한 활용
성향 점수는 인과 추정뿐 아니라, 대표성이 부족한 표본을 조정하여 전체 집단을 나타낼 수 있도록 하는 데도 사용할 수 있다.
예를 들어, 서울시민 전체를 대상으로 한 조사가 있지만, 실제로는 특정 연령대나 지역에 편중된 심층 인터뷰 참여자만을 확보했다면, 이 표본은 서울시민 전체를 대표하지 못한다.
이 경우 서울시 인구 특성과 해당 표본의 특성을 기준으로 성향 점수를 계산한 뒤, 성향 점수에 따른 가중치(Propensity Score Weighting)를 부여하면 표본을 보정할 수 있다. 이 과정을 통해 심층 인터뷰 자료도 서울시민 전체를 일정 부분 대표하도록 만들 수 있다. (실제 대표성을 이런 방법으로 확보할 수 있다고 보지는 않지만, 이상적으로 성향점수를 구할 수 있다면 가능할 수도 있을 것이다).
5. 성향 점수를 활용한 분석 방법
성향 점수를 활용한 대표적인 분석 방법으로는 성향 점수 매칭(Propensity Score Matching, PSM)과 성향 점수 가중치 부여(Propensity Score Weighting, PSW)가 있다.
(1) 성향 점수 매칭 (Propensity Score Matching, PSM)
성향 점수 매칭은 서로 다른 집단(예: 처치 집단과 비교 집단)의 구성원 중에서 성향 점수가 유사한 사례를 1:1 또는 1:n으로 짝지어 비교하는 방식이다. 이때 성향 점수가 비슷한 사례끼리 비교하므로 공변량이 통제된 조건에서 결과 변수의 차이를 비교할 수 있게 된다.
인과 추론에서의 활용: 처치 그룹과 통제 그룹을 성향 점수 기준으로 매칭해, 인위적으로 무작위 배정된 것과 유사한 비교 구조를 만든다.
대표성 확보에서의 활용: 대규모 비확률 표본에서 성향 점수를 기준으로 잘 구성된 확률 표본과 유사한 하위 표본을 추출함으로써, 대표성을 높일 수 있다.
PSM은 매칭된 표본이 동일한 크기를 가지므로 이후의 비교 분석이나 통계 모형 적용이 용이하다는 장점이 있다. 그러나 두 집단 간 성향 점수 분포가 크게 다를 경우, 매칭이 불가능하거나, 탈락 사례가 많을 수도 있다.
(2) 성향 점수 가중치 (Propensity Score Weighting, PSW)
성향 점수 가중치는 각 사례가 특정 집단에 속할 확률(즉 성향 점수)을 바탕으로 가중치를 부여하여 표본 전체의 분포를 보정하는 방법이다. 일반적으로 성향 점수의 값에 따라 사례를 다섯 개의 구간(또는 분위수)으로 나누고, 이 구간별로 표본이 균형 있게 분포되도록 가중치를 부여한다.
인과 추론에서의 활용: 처치 여부 외의 오차요인의 영향을 동일하게 함으로써 인과효과를 추정한다.
대표성 확보에서의 활용: 실제 모집단(예: 서울시민 전체)의 성향 점수 분포에 맞추어, 표본의 구성 비율을 조정함으로써 모집단 대표성을 높인다. 아래 그림은 성향점수 분포가 다른 두 집단에 가중치를 적용하여 분포가 동일하도록 만든다는 것을 보여준다. 가중치를 부여할 때는 각 집단을 성향점수의 급간으로 예컨대 5개 급간으로 구분한 다음 각 급간에 속한 사례의 비율이 두 집단이 동일하도록 가중치를 부여하면 된다.
PSW는 PSM에 비해 매칭 불가능한 사례를 제외하지 않기 때문에 전체 표본을 활용할 수 있으며, 성향 점수 분포에 차이가 있는 경우에도 보다 유연하게 분석을 수행할 수 있다.
이러한 방법을 통해 성향 점수는 공변량 통제, 대표성 확보, 인과 추정 등 다양한 목적으로 활용될 수 있다.
6. 성향 점수 방법의 장점과 한계
성향 점수를 활용한 가중 방법은 기존의 다변량 회귀분석에서 개별 통제 변수를 모두 고려하는 방식에 비해, 여러 공변량을 하나의 수치로 요약하여 비교할 수 있기 때문에 해석과 적용이 간편하다. 따라서 분석 설계가 간단하고, 추후의 통계모형 구성도 비교적 수월하다.
하지만 이러한 방식이 실제로 집단 간의 차이를 얼마나 잘 통제해주는가는, 성향 점수 산출에 사용된 변수들의 적절성에 달려 있다. 즉, 성향 점수 그 자체가 마법적인 통제 수단이라기보다, 여기에 어떤 변수들이 포함되었고, 그 변수들이 실제로 집단 차이를 설명하는 데 얼마나 효과적인가가 중요하다. 변수의 선택은 연구자의 이론과 직관에 따라 결정된다.
예컨대, 2000년 미국 대통령 선거에서 해리스 인터랙티브는 인터넷 기반의 비확률 표본을 가지고 전화조사보다 더 정확한 예측을 내놓은 적이 있다. 이때 성향 점수를 이용한 가중 방식이 사용되었으며, 이후 10여 년간 이 방식은 여론조사에서 매우 널리 활용되었다. 그러나 이후 연구에서는 성향 가중 방식이 항상 높은 통제 효과를 제공하지는 않는다는 점이 밝혀졌다. 특히 변수 구성의 적절성이 낮은 경우에는 실제 차이를 제대로 보정하지 못할 수 있다.
또한 성향 점수 방법을 사용할 때, 실제로 통제가 잘 되었는지의 여부를 외부에서 검증하기 어렵다는 문제가 있다. 선거처럼 정답이 있는 경우에는 예측력이 검증되지만, 대부분의 사회과학 연구에서는 그러한 기준이 없기 때문에 통제되었다고 가정하고 해석하는 경우가 많다. 따라서 가능하다면 제3의 방법으로 통제 효과를 점검한 뒤 사용하는 것이 바람직하다.
7. GPT를 이용한 PSM 분석과 PSW
GPT는 성향 점수 산출과 분석을 수행할 수 있다. PSM이던 PSW던 일단 성향점수를 구해야 한다. 성향점수 산정을 위한 집단구분 변수를 지정하고, 성향점수를 구해서 성향점수로 저장하라고 한다.
그런 다음 그 성향점수를 기준으로 매칭되는 집단을 구성하라고 하면 된다. 일단 PSM 집단이 구성되면, 두 집단간 정책효과 차이는 F 검증등의 방법을 이용해서 보면 된다.
GPT 지시문
- 정책대상 여부를 기준으로 성향점수를 산출해 다오.
- 성향점수를 기준으로 정책대상 집단과 대응되는 통제집단을 구성하시오.
- 정책대상 집단과 통제집단간에 예컨대 건강효과를 비교하시오.
'데이터 분석방법' 카테고리의 다른 글
정책 효과 분석을 위한 DID(이중차분) 분석: 챗지피티를 활용한 실행과 해석 (2) | 2025.04.11 |
---|---|
통계적 통제란 무엇인가? (0) | 2025.03.28 |
사회과학에서의 인과적 영향: 매개변수와 조절변수의 역할 (헤이즈 PROCESS Macro 활용) (0) | 2025.03.20 |
혼란 변수(Confounding Variables) 통제: 인과관계 분석의 핵심 (0) | 2025.03.14 |
두 변수 간 관계분석: 집단 간 차이, 상관도, 동등성 검증 (5) | 2025.03.13 |