GPT 데이터 분석

설문지에서 변수라벨 자동 추출하기: 카스텀 ChatGPT 활용 실험기

skcho 2026. 1. 2. 11:08

설문 데이터를 다루는 실무에서, 문항별 변수라벨을 부여하는 작업은 꼭 필요하지만 상당히 번거롭다.  변수명을 설정하고, 해석 가능한 라벨을 붙이고, 응답유형이나 누락코드 정보를 함께 기록하는 일은 문항 수가 많아질수록 부담이  크다.

특히 AI를 활용해 설문 응답을 분석하려면, 데이터 파일만 주면 안되고, 라벨을 부여해서 주어야 한다. 그렇지 않으면 AI가 해석하지를 못한다.  설문 문항을 추출하는 방법은 여러 가지가 있겠지만  그동안 만들어 놓은 카스텀 지피티 중에서 두 종을 이용해 실험해 보았다:

 

1. 비교 카스텀 지피티

   qcmeta는 여러 변수 정보를 정리해서 메타데이터 파일로 만들 목적으로 설계된 것이고, 정밀문항추출은  설문지의 원문을 그대로 추출하기 위한 것이다.  설문에서 변수라벨을 만들 때 어려운 점은 설문 문항이 길어서 그대로 라벨로 사용하기에 적합치 않다는 것이다. 그리고 설문이 많거나 구조가 복잡하면 제대로 추출하지 못하는 경우가 많다.  여러 지피티 중에서 다음 두 종이 가장 나을 것 같아 실험해 보았다.   우선 다음 두 카스텀 지피티에 문항 약 100개정도 되는 설문을 올리고 메타데이터 즉 변수정보를 추출하라고 했다. 


 qcmeta vs 정밀문항추출

 

 ✅ [도구1] qcmeta  
링크: https://chatgpt.com/g/g-692c14b1fb6081919c10886a7ccf2cdd-qcmeta-gpt

- 기능: 설문지에서 변수정보 추출 → 변수명·변수라벨·응답유형·값라벨 등 메타데이터 생성  
- 출력: `qcmeta_draft.csv` 형식  
- 특징:  
  - 원문 문항에서 변수라벨용 축약문 생성  
  - 영어 변수명 자동 생성  
  - 응답유형 (scale, single, multiple) 자동 분류  
  - 응답값 매핑 제공

 

  ✅ [도구2] 정밀문항추출  
링크: https://chatgpt.com/g/g-6890d378ceb08191ab29b9408453be71-jeongmil-munhangcucul-precesion-questionnaire-extractor

- 기능: 문항의 논리적 구조·의미 단위를 세밀하게 분해해 항목화  
- 출력: `extracted_questions.csv` 형식  
- 특징:  
  - 설문 문항을 원문 그대로 추출 
  - 설문 목적의미나 세부 구조 추출에 강점  
  - 분석보다는 “질문 의미 단위 추출”에 적합

결과:  두 도구 모두 메타데이터를 잘 생성해 주었다.   그런데  메타데이터의 내용에는 차이가 없었지만 세부적으로 차이가 나타난 부분은 라벨의 길이다.    qcmeta는 적절한 길이로 문항을 축약해서 라벨을 만들어 주고 내용 요약도 비교적 정확했다.  그리고 영어 변수명도 자동으로 생성해서 부여한다.  반면 정밀문항 추출은 설문의 원문을 그대로 이용했다.  다른 부분은 그리고 영문변수명도 제안하지 않았다.

 

한편 설문 문항 300개 그리고 설문구조가 무척 복잡한 (조건 분기, 2차, 3차 하위 문항 등) 설문을 주었는데  그래도 이 복잡한 설문을 정확하게 파악해서 변수와 변수라벨을 추출했다. 다만 변수라벨의 축약이 그다지 자연스럽지 않았다. 내용을 축약한 경우도 있지만 간혹 문항을 기계적으로 잘라내기도 했다.   설문 자체는 pdf로 제공했다.   연구자가 조금 다듬으면 될 것으로 보인다.  

 

즉 qcmeta는 메타 정보 추출기로 실용성이 비교적 높다고 본다. 굳이 설문이 아니고 다른 형태 예컨대 엑셀의 결과파일, 컴퓨터 코드 등 어느 것이든 메타정보가 포함된 곳에서 추출해 낸다.  

 

 

 이렇게 추출된 라벨정보를 이용해서 코드를 작성해 보았다.  qcmeta로 생성한 메타데이터를 GPT 도구인 [DataPrepCodeGen](https://chatgpt.com/g/g-69396281e0188191be94814202314ee2-dataprepcodegen)에 전달하면 아래와 같은 코드를 자동으로 생성한다:


- SPSS용 syntax**
  - `VARIABLE LABELS`, `VALUE LABELS`, `MISSING VALUES` 등
  - 다중응답 변수는 0/1 더미로 가정
- SAS용 format block**
  - `proc format` 블록으로 변환
  - 설문구조에 따라 값 매핑
- STATA용 코드도 가능**

이러한 자동화는 수작업 오류를 줄이고, 반복적 작업을 획기적으로 줄이는 데 효과적입니다.

 
 
## 🏷️ 색인어(Tag)

- #설문지분석
- #변수라벨자동화
- #GPT활용사례
- #qcmeta
- #정밀문항추출
- #데이터프렙
- #SPSS코딩
- #SAS코드자동화
- #설문자동화
- #AI조사분석