GPT 데이터 분석

GPT 통계분석 1 - GPT ADA에 데이터 올리기

skcho 2025. 4. 8. 21:25

 

※ 본 문서의 내용은 필자의 GPT 사용 경험에 기반하고 있으며, GPT ADA의 실제 작동은 사용자의 프롬프트, 이전 대화 맥락, 버전 및 랜덤 요소에 따라 달라질 수 있다. 따라서 동일한 입력에도 항상 같은 결과가 생성되지는 않는다.

 

GPT를 이용해 분석하려면 데이터 외에  분석정보 즉 변수정보와 분석목적 그리고 분석방법을 알려줘야 한다. 데이터가 작고 간단히 분석을 마칠 수 있으면, 데이터는 CSV 파일로 올리고, 분석정보는 채팅창에서 입력해도 된다.  하지만 변수가 많거나 분석을 반복해야 하는 경우에는 분석 정보도 파일로 올리는 것이 좋다.  채팅창으로 입력한 정보를 GPT가 기억하지 않기 때문에 세션이 바뀌거나 길어지면, 반복해야 하기 때문이다. 

 

GPT에게 데이터와 분석정보를 주는 순서는 (1) 변수 정보 (2) 분석목적과 분석방법 (3) 데이터의 순서로 하는 것이 효율적이다.  여기서 분석방법을 지정하지 않아도 GPT가 선택해서 하지만, 명시하는게 좋다.

 

1. 변수명 규칙

 

GPT는 Python을 사용해서 분석한다. 파이썬에서는 변수명이 규칙을 어기면 에러가 날 수 있기 때문에 변수명을 다음과 같이 정리하는 것이 좋다.

  • 변수명은 영어로 작성한다. 한글로 작성해도 별 문제는 없지만 경우에 따라 에러가 발생할 수도 있다.
  • 변수명에 마침표(.)는 사용하지 않는다. 예: x2.4 (X) → x2_4 (O)
  • 대소문자는 구분된다. age와 Age는 서로 다른 변수로 인식된다.

이미 받은 파일이 복잡한 변수명을 포함하고 있다면, 별도의 엑셀 열에 새 변수명을 지정해 주고 GPT에게 그 열을 사용하라고 하면 된다.

 

2. 변수 설명 파일 구성

 

변수 수가 많거나 복잡할 때는 아래와 같은 형식으로 엑셀 파일을 만들어서 함께 업로드하면 GPT가 오해 없이 이해할 수 있다. 실제 분석에 사용할 변수에는 '사용여부'를 표시한다.

 

기존변수명       새변수명      변수라벨      응답값        응답값라벨                                       수준   결측값 가중치  사용여부

income income_level 가구총소득 1,2,3,4,5 1=100만 미만, 2=100~199, ..., 5=500이상 서열형 9 없음 yes
edu.lev edu_level 교육수준 1~4 1=초졸, 2=중졸, 3=고졸, 4=대졸 서열형 9 없음 yes
gender gender 성별 1,2 1=남성, 2=여성 명목형 9 없음 yes
지역(구분) region_code 지역구분 1~7 1=서울, 2=경기, ..., 7=기타 명목형 없음 없음 yes
job.status job_status 고용상태 1~4 1=정규직, 2=비정규직, 3=자영업, 4=무직 명목형 9 없음 no

 

 

3. 데이터가 너무 클 때

 

전체 데이터 중의 특정 변수만 사용할 수 있다. 이럴 때는:

  • 전체 데이터 파일은 그대로 올리고,
  • 변수 정보 파일에서 사용할 변수에만 '사용여부 = yes'를 표시하거나,
  • 채팅창에서 "이 변수들만 써라"라고 명확하게 지시한다.

사용할 변수만 추출해서 데이터파일을 따로 구성할 수도 있지만, 번거롭기도 하고, 나중에 변수를 추가할 때 다시 파일을 만들어야 한다. 파일을 손대지 말고, 사용할 변수에 표시해 주는 것이 효율적이다.

GPT는 자연어를 이해하므로 "이 분석에서는 교육수준, 소득, 성별만 사용" 같은 지시도 정확하게 처리할 수 있다.

또한, 독립변수 및 종속변수는 채팅창에서 입력해도 되고, 변수 정보 파일 내에 별도 열로 지정해 두어도 된다.

 

4. GPT가 제대로 이해했는지 확인하는 방법

 

데이터와 설명 파일을 올린 뒤, GPT에게 다음처럼 요청한다:

"이 파일에서 네가 이해한 변수 정보들을 엑셀로 정리해줘."

그러면 GPT는 자신이 인식한 변수명, 라벨, 수준 등의 정보를 엑셀 형식으로 출력해 줄 수 있다. 이를 검토하면 된다.    

 

이 글은 출간 예정인 『GPT를 이용한 사회과학 데이터 분석방법: 회귀분석편』의 일부 내용을 바탕으로 작성되었습니다.