4. 다항 로지스틱 회귀 예시
로지스틱 회귀는 이진형 종속변수에 주로 사용되지만, 종속변수가 세 개 이상의 범주를 가지거나 순서가 없는 범주형일 경우에는 다항 로지스틱 회귀(multinomial logistic regression)를 사용할 수 있다.
소비자들이 A, B, C 중 어떤 브랜드를 선택하는지를 분석하고자 할 경우, 다항 로지스틱 회귀를 사용하여 B 또는 C 브랜드를 선택할 가능성을 A 브랜드에 대한 상대적 오즈비로 추정할 수 있다. 이 때 분석 결과가 아래와 같다고 가정하자:
비교 대상 | 독립변수 | 계수(β) | 오즈비(exp(β)) | p-value | 해석 |
B vs A | 소득 | 0.182 | 1.20 | 0.028 | 소득이 높을수록 B 브랜드를 선택할 가능성이 증가함 |
B vs A | 나이 | 0.021 | 1.02 | 0.204 | 나이는 B 브랜드 선택과 유의한 관련 없음 |
C vs A | 소득 | -0.030 | 0.97 | 0.172 | 소득은 C 브랜드 선택과 유의한 관련 없음 |
C vs A | 나이 | -0.051 | 0.95 | 0.043 | 나이가 많을수록 C 브랜드를 선택할 가능성이 감소함 |
B 브랜드의 경우, 소득이 1단위 증가할 때 기준 범주에 비해B를 선택할 상대적인 오즈가 1.2배 증가하며, 이는 통계적으로 유의미하다. 반면, 나이는 B 브랜드 선택에 영향을 미치지 않았다.
C 브랜드의 경우, 소득은 유의하지 않았고, 나이는 많을수록 선택이 줄어드는 경향을 보여 오즈비가 0.95로 나타났다. 이는 나이 증가가 C 브랜드를 선택할 가능성을 낮춘다는 것을 보여준다.
이처럼 다항 로지스틱 회귀에서는 각 범주별로 독립변수들의 효과가 다르게 나타날 수 있다.
모델 적합도의 해석은 앞서 살펴본 로지스틱의 경우와 같다.
5. 순서형 로지스틱 회귀 예시
만족도나 선호도와 같이 순서가 있는 범주형 변수를 종속변수로 설정할 경우에는 순서형 로지스틱 회귀(ordinal logistic regression)가 적절하다. 예를 들어, 고객 만족도를 1(매우 불만족)에서 5(매우 만족)까지 다섯 단계로 측정한 후, 민원처리시간과 친절도가 이에 어떤 영향을 미치는지 분석한 결과가 다음과 같았다고 가정하자.
독립변수 | 계수(β) | 오즈비(exp(β)) | p-value | 해석 |
대기시간 | -0.162 | 0.85 | 0.037 | 대기시간이 길수록 만족도가 낮아짐 |
친절도 | 0.405 | 1.50 | 0.012 | 친절도가 높을수록 만족도가 높아짐 |
이 결과에 따르면, 대기시간이 길수록 고객의 만족도는 낮아질 가능성이 커지며 이는 통계적으로 유의미하다(p < 0.05). 반면, 직원 친절도가 높을수록 만족도가 높을 가능성은 증가한다.
6. 예측 정확도와 혼동행렬의 해석
로지스틱 회귀분석 결과는 단지 계수 해석에 그치지 않고, 얼마나 정확하게 결과를 예측하는지도 중요하다. 이를 알 수 있는 것이 혼동행렬(confusion matrix)이다. 혼동행렬은 실제값과 예측값의 나타내며, 예측의 품질을 판단하는 데 사용된다.
예측의 품질은 주로 정확도(accuracy), 민감도(sensitivity), 특이도(specificity)의 세 가지 지표로 평가된다.
정확도(Accuracy)는 전체 중에서 얼마나 많은 사례를 정확히 예측했는지를 나타낸다.
민감도(Sensitivity)는 실제 1인 것을 1로 잘 예측한 비율이며, 놓치지 않고 발견하는 정도이다. 검증력을 나타내며 2종오류와 반대된다.
특이도(Specificity)는 실제 0인 것 중에서 0으로 잘 예측한 비율이다. 1종오류와 반대된다.
예를 들어 다음과 같은 혼동행렬이 있다고 하자:
실제값 \ 예측값 | 예측 = 1 | 예측 = 0 |
Y = 1 | 80 | 20 |
Y = 0 | 30 | 70 |
•
정확도(Accuracy) = (80 + 70) / (80 + 70 + 20 + 30) = 150 / 200 = 75%
민감도(Sensitivity) = 80 / (80 + 20) = 80 / 100 = 80%
특이도(Specificity) = 70 / (70 + 30) = 70 / 100 = 70%
정확도는 전반적인 예측 성능을 요약하며, 민감도와 특이도는 각각 다른 종류의 오류를 보여준다. 예컨대 긍정 사례가 매우 드문 경우 예컨대 1%인 경우, 무조건 부정이라고 예측해도 99%는 정확할 수 있다. 따라서 이럴 경우 정확도를 보는 것은 의미가 없다. 오히려 민감도 지표가 중요하다. 한편 위와 같은 경우 민감도를 높이려면 모든 경우에 1로 하면 된다. 그러면 민감도는 100%가 된다. 대신에 특이도는 0%가 된다. 따라서 예측의 품질을 보기 위해서는 어느 한 지표가 아니라 세 지표를 모두 같이 보아야 한다.
7. ROC 곡선과 AUC 해석
로지스틱 회귀모형의 예측력은 ROC 곡선(Receiver Operating Characteristic Curve)과 AUC (Area Under the Curve)지표로도 나타낼 수 있다. ROC 곡선은 민감도(Sensitivity, 참을 참으로 맞춘 비율)와 1-특이도(1 - Specificity, 거짓을 참으로 예측한 비율)를 좌표축으로 하여, 임계값(threshold)을 변화시킬 때 모델의 예측 성능이 어떻게 달라지는지를 시각적으로 보여준다.
x축: 1 - 특이도 (False Positive Rate)
y축: 민감도 (True Positive Rate)
임계값이 변화함에 따라 예측값을 1 또는 0으로 분류하는 기준이 달라지므로, ROC 곡선은 이러한 변화 전반에 걸쳐 모델이 얼마나 잘 구분하는지를 보여준다. 예컨대 아래와 같이 그려질 수 있다.
AUC (Area Under the Curve)는 ROC 곡선 아래 면적을 의미하며, 모델의 전체 분류 성능을 0과 1 사이의 값으로 요약한 것이다. AUC = 0.5는 무작위로 예측했을 때 나타나는 것이고, AUC = 1.0은 완전한 예측이 된다. AUC ≥ 0.7이상이면 일반적으로 양호한 모델로 간주할 수 있다.
8. Cut-off 조정
로지스틱 회귀는 기본적으로 예측 확률이 0.5 이상이면 '1'로, 그 미만이면 '0'으로 분류한다. 그러나 임계값(cut-off)을 0.4 또는 0.6 등으로 조정하면 아래 그림에서 보듯이 민감도와 특이도가 달라진다.
Cut-off를 낮추면 → 민감도는 올라가고 특이도는 낮아진다. (검증력은 높아지지만 1종오류는 증가)
Cut-off를 높이면 → 특이도는 올라가고 민감도는 낮아진다. (1종오류는 낮아지지만 검증력은 떨어진다)
따라서 실제 응용에서는 문제의 특성에 따라cut-off를 조정하여 민감도 또는 특이도 중의 어느 하나를 우선시할 수 있다. 예를 들어, 질병 검출에서는 민감도를 높이는 것이 우선일 수 있으므로 cut-off를 낮게 설정하고, 범죄자 식별과 같이 위양성의 위험이 큰 경우에는 특이도를 우선시하여 cut-off를 높일 수도 있다.
8. . GPT와 분석 및 수행
로지스틱 회귀를 실제 데이터에 적용하는 것 자체는 선형회귀보다 더 어렵지는 않다. 단지 패키지나 분석함수를 로지스틱으로 선택하면 된다. 다만 해석이 선형보다 조심스럽게 해야 한다는 점을 주의해야 한다. 직관적이지 않기 때문에 주의해야 한다는 점이다.
GPT는 로지스틱의 분석 및 해석에서 모두 사용할 수 있다. 앞서 선형의 경우도 그렇지만 지시가 간결하고 명확한 것이 중요하다. 그리고 필요한 것을 정확하게 제시해야 한다. 특히 독립변수의 영향력에 초점을 두는지, 아니면 전체 모델 적합도가 중요한 것인지 아니면 예측성과가 중요한 것인지에 따라 해석이 달라지고, 산출물의 제시방법과 해석이 다 달라진다. 따라서 이러한 점을 명시해 주어야 한다. 예컨대 다음과 같은 방식으로 분석을 요청할 수 있다:
분석 요청 예시 1: 종속변수: 창업여부 (Start) 독립변수: 성별 (Gender), 연령 (Age), 소득 (Income) 성별은 남자=1, 여자=2이며, 창업여부는 창업=1, 아님=0이다. 창업에 연령과 소득 중에서 어느 것이 중요한지 알고 싶은데, 성별은 통제하고 싶다. 해석 요청: 로지스틱 결과를 해석하되, 기존의 연구에서는 소득의 영향이 별로 없었다는 연구들이 있었다. 유사 연구를 찾아서 비교해 주기 바란다. 산출물 요청: 결과표는 APA 스타일(β값, OR, p값 포함)로 요약해 줄 것 시각화는 OR의 막대그래프 형태로 함께 제시할 것 변수별 해석은 실무적 의미를 강조할 것 |
분석 요청 예시 2: 종속변수: 고객의 재구매 여부 (Repurchase) 독립변수: 제품 만족도 (Satisfaction), 브랜드 충성도 (Loyalty), 할인 인지 여부 (Discount_Aware) 만족도와 충성도는 5점 척도로 측정되며, 할인 인지는 예/아니오로 기록되어 있음 고객이 재구매를 결정하는 데 있어 어떤 요인이 가장 중요한지 확인하고 싶다. 해석 요청 브랜드 충성도와 만족도 중 어떤 요인이 더 강력한 설명력을 가지는지를 비교해 주고, 할인 인지가 있는 고객과 그렇지 않은 고객의 예측 확률 차이를 구체적으로 해석해 주기 바란다. 산출물 요청: 변수별 계수와 오즈비, 신뢰구간을 포함한 결과표 변수별 ROC curve 또는 효과 비교 그래프 결과 해석은 소비자 행동의 실제 맥락에 맞게 요약 |
'회귀분석' 카테고리의 다른 글
로지스틱 회귀분석 1 : 이진형(binary) 종속변수 (2) | 2025.04.10 |
---|---|
회귀분석 계통도 0 - 하나의 가계도, 다양한 자손들 (0) | 2025.04.06 |
변수의 로그 변환과 제곱근 변환- '큰 수'를 현실적으로 만들기 (0) | 2025.04.06 |
회귀분석 계통도 6- 베이지안 회귀 - 사전 지식과 소표본 (0) | 2025.04.06 |
회귀모형 계통도 5: 유연한 비선형 회귀- GAM, 스플라인 회귀 (0) | 2025.04.06 |