전체 글 60

ChatGPT ADA를 활용한 로지스틱 분석: 활용법, 한계, 해석 요청까지

목차데이터 준비와 정보 전달전처리와 가정 검토분석 실행과 모델 구성결과 해석과 후속 분석로지스틱 회귀는 종속변수가 0 또는 1인 이항형일 때 사용하는 대표적인 분석 기법이다. 예측이나 분류는 물론, 사회과학에서는 독립변수가 종속변수에 미치는 영향을 파악할 때 주로 사용된다. GPT ADA는 이러한 로지스틱 회귀를 수행할 수 있으며, 사용자가 데이터를 업로드하고 분석 목적을 설명하면 구성해준다. 그러나 단순히 “이 데이터를 분석해줘”라고만 요청하면 GPT는 일반적이고 표준적인 분석만 수행하며, 분석자의 의도나 맥락을 반영하지 못할 수 있고,  검증력, 재현성, 해석의 명확성이 낮아진다. 반대로 분석 흐름을 잘 구조화하면 GPT는 정확한 결과를 얻을 수 있다. 이 글은 로지스틱 회귀 분석을 수행할 때 GPT..

불변 독립변수의 오류: 인식의 차이를 현실의 차이로 해석할 수 있는가?

변수 간 인과관계를 분석하려면, 기본적으로 독립변수가 변해야 한다. 독립변수가 변화함에 따라 종속변수가 어떻게 달라지는지를 보는 것이 연구의 출발점이기 때문이다.  독립변수가 변화하지 않으면, 그것이 종속변수에 영향을 미쳤는지 알아내기 어렵다. 연구중에는 실제로는 독립변수가 변화하지 않았음에도 그 효과를 분석하는 연구가 다수 존재한다. 대표적인 예는 다음과 같다. 예컨대 “정주단지의 물리적 환경이 주민 만족도에 미치는 영향”을 분석한 연구를 보자. 연구 대상은 동일한 정주단지에 거주하는 주민들이며, 종속변수는 주민의 생활 만족도이다. 연구자는 독립변수로 물리적 환경을 설정하고, 그것에 대한 주민 개인의 평가를 수집하였다. 그러나 이 경우 실제로는 물리적 환경 자체는 하나이며 변화가 없다. 변화한 것은  ..

통계적 통제란 무엇인가?

이 블로그의 다른 글 「사회과학에서 인과관계 분석: 혼란변수 통제」 에서는 인과 추론의 기본 개념과 함께 혼란변수를 통제하는 필요성에 대해 소개했다. 이번 글에서는 통계적 통제(statistical control)가 어떤 방식으로 이루어지는지 그리고  분석 과정에서 무엇을 유의해야 하는지를 조금 더 구체적으로 살펴본다.통계적 통제란?통계적 통제는 독립변수 외에, 종속변수에 영향을 줄 수 있는 다른 변수들의 영향력을 통계적으로 제거하는 것을 말한다.이 과정을 통해 관심 있는 독립변수가 종속변수에 미치는 '순수한 영향'을 추정하려는 것이다. 예를 들어 ‘경력’이 ‘소득’에 영향을 주는지를 분석할 때, 동시에 ‘성별’도 소득에 영향을 미친다면, 이 변수는 혼란변수(confounding variable)가 된다..

요인 부하치 해석 기준

관찰된 여러 변수가 실제로는 소수의 잠재적 요인들을 나타내 준다고 보고, 그러한 요인들을 찾아내는 분석이다. 따라서 각각의 변수가 어떤 잠재요인과 관련되어 있는가를 부하치로 통해서 판단하게 된다. 그런데 이 기준에 따라 요인분석결과에 대한 해석이 달라질 수 있기 때문에 중요하다.  여기서 요인 부하치는 요인분석에서 각 변수(문항)가 잠재적 요인과 얼마나 관련이 있는지를 나타내는 지표다.   부하치가 높을수록 해당 변수가 특정 요인을 잘 설명하고 있다는 것을 의미하며, 그 변수가 해당요인을 순수하게 (pure) 측정한다는 것을 나타낸다. 요인분석 결과를 해석할 때 어느 정도의 부하치를 기준으로 해야 하는가는 연구자의 판단이기는 하나,  Tabachnick and Fidell(2019)는 .32이상이면 해석..

크론바흐 알파(Cronbach's Alpha) 해석 기준

크론바흐 알파가 어느 정도면 측정 신뢰도가 있는 것으로 보고, 분석의 다음 단계로 넘어가도 될까? 많은 연구에서 '소외도', '만족도', '공동체 의식' 과 같은 개념들을 측정할 때 신뢰도를 높이기 위해 여러 문항을 사용하는 경우가 많다. 이 때, 측정의 신뢰도를 크론바흐 알파 값을 통해서 제시한다. 그러면 알파 값이 얼마 이상이어야 하는가? - 크론바흐 알파란 크론바흐 알파(Cronbach's alpha)는 여러 문항(질문)으로 구성된 척도가 하나의 개념(construct)을 얼마나 일관되게 측정하고 있는지를 평가하는 내적 일관성 지표다. 값은 0~1 사이이며, 값이 클수록 문항 간 일관성이 높다는 것을 나타낸다. - 해석 기준 알파값의 해석에 대해서 Nunnally (1994)는 두 가..

단기 귀인 오류: 인과시차를 무시한 분석

연구에서는 관찰된 현상을 설명할 수 있는 잠재적 원인 즉 독립변수를 찾아내고 검증해서  인과관계를 밝히게 된다.  그런데  이 과정에서  원인이 과거에 발생했음에도 현재 또는 직전 시점으로  귀인하는 경우가 있다.이러한 오류는 ‘단기 귀인 오류(short-term attribution bias)’라고 부를 수 있겠다.  어떤 독립변수가 종속변수에 영향을 미치기까지 일정 시간이 필요한 경우가 있는데,  이를 무시하면 분석의 타당성이 저해된다.   ‘인과시차(causal lag)’를 무시하는 오류라고 할 수 있겠다.   사례: ODA 정책자문 분석 연구예를 들어, 다음과 같은 연구가 있다. ODA(공적개발원조, Official Development Assistance) 중 정책자문 형태의 지원에 영향을 주는..

더빈-왓슨(Durbin-Watson) 검증에 대한 오해: 시계열 분석 도구의 잘못된 적용

회귀 분석 논문들 중 일부는 단면조사 데이터를 대상으로 더빈-왓슨(Durbin-Watson, DW) 검증을 실시하고,  d값이 2에 가깝다는 이유로 “해당 변수로 회귀 분석을 수행해도 된다”고 해석한다.  이러한 해석은 d 가 의미하는 바를 제대로 이해하지 못한 데서 비롯된 것이다.d 계수는 시계열 데이터에만 적용 가능d 계수는 시간의 흐름에 따라 반복 측정된 데이터에서 오차항 간 자기상관이 존재하는지를 알기 위해 사용된다. 즉, 이전 시점의 오차가 현재 오차에 영향을 주는지를 판단하는 지표다.  단면조사 데이터는 모든 사례가 동일한 시점에서 수집되므로, 사례 간에는 시간적 순서도, 자기상관도 존재하지 않는다. 따라서 DW 계수를 사용하는 것 자체가 무의미하며,그 값을 근거로 회귀 분석의 적절성을 판단하..

베이스레이트 오류: 왜 전 국민을 검사하지 않았을까?

코로나19 팬데믹 당시, “왜 모든 사람에게 검사를 하지 않지?”라고 의문을 가진 분들이 있다. 모두 검사하면 안심도 되고, 조기 발견에도 도움이 될 것 같았기 때문이다. 하지만 방역 당국은 확진자 접촉 여부나 증상 유무 등 일정한 기준을 충족한 사람들만 검사 대상으로 하였다. 물론, 검사 시약이나 인력 등 자원의 제한도 이유였다. 그러나 그 이면에는 낮은 유병률(low base rate)을 가진 질병을 검사할 때 생기는 ‘위양성(false positive)’ 문제도 함께 고려되었을 가능성이 크다. 검사에는 일반적으로 두 방향의 오류가 존재한다. 위양성 (False Positive): 실제로는 감염되지 않았는데 양성으로 판정되는 경우위음성 (False Negative): 실제로는 감염되었지만 음성으로 판..

부분과 전체가 다르게 말할 때: 심프슨(Simpson's Paradox)의 역설과 혼란변수 통제

전체 집단에서의 분석 결과가 하위 집단별 분석 결과와 정반대로 나타나는 경우가 있다. 이를 심프슨의 역설이라고 한다. 하위 집단별 분포가 차이가 있는데, 분석 과정에서 이런  혼란변수(confounding variable)를 통제하지 않았을 때 발생한다. 예를 들어, 연구소별로 보면 근무기간이 길수록 보수가 높아지는 경향이 나타났다고 하자. 그런데 연구단지 전체를 대상으로 분석하면 오히려 근무기간이 길수록 보수가 낮아지는 결과가 나올 수 있다. 이처럼 전체 집단의 경향과 하위 집단의 경향이 상반되게 나타나는 현상이 심프슨의 역설이다.왜 이런 일이 일어날까? 그 이유는 하위 집단 간의 구조적 차이 때문이다. 아래 예시 표를 보자.예시 표: 연구소별 근무기간과 보수 수준연구소                  ..

통계적으로 유의하지 않게 나왔을 때: 분석의 검증력을 검토해야

데이터 분석에서는 종종 이론적 예측과 다른 결과가 나올 수 있다. 그 이유는 이론이 틀렸기 때문일 수도 있지만, 분석의 검증력이 부족해서 실제 효과를 제대로 찾아내지 못했기 때문일 수도 있다.검증력(power)은 실제로 존재하는 차이나 관계가 있을 때, 이를 발견해 낼 수 있는 능력을 말한다.  검증력이 약하면, 실제로 효과가 있더라도 통계적으로 유의하게 나오지 않을 수 있다.  이론이 옳더라도, 데이터 분석이 그것을 입증해주지 못하는 것이다.  그래서 분석의 결론을 내리기 앞서, 분석이 충분한 검증력을 확보하고 있었는지를 살펴보아야 한다.  다음은 검증력을 높일 수 있는 다섯 가지 방법이다.  1. 유의수준  조정일반적으로 사용되는 유의수준(α)은 0.05이지만, 연구 목적에 따라 0.1로 완화할 수도..