챗 지피티에게 통계 분석을 시켜보니: 가능성과 한계

요청 사항 (분석 관련)

챗 지피티에게 통계 분석을 시켜보니: 가능성과 한계

skcho 2025. 3. 25. 23:58

동일한 데이터에 대해 직접 파이썬 코드를 작성해 분석을 진행한 적이 있다. 동시에 그 데이터를 GPT에게 주고 분석을 시켜보았다. 결과는 거의 같았다. 나는 여러 번 데이터 오류를 수정하고 나서 분석을 마무리했고, GPT 역시 몇 차례 오류를 감지해 스스로 수정해가며 작업을 완료했다. 이 분석은 위치 데이터를 이용해 거리 계산을 하고, 특이한 케이스를 골라 해당 케이스가 속한 그룹을 지도에 표시하는 작업이다. 이 글은 그 경험을 비롯해 지금까지 내가 느낀 GPT의 분석 역량에 대한 것이다. 개인적인 관찰과 제한된 사례에 기반하고 있으며, GPT가 달라진 것이라기보다는 내 인식이 달라진 것이다.

ChatGPT의 등장으로, 많은 사람들이 "이제는 통계 패키지를 배우지 않아도 되지 않을까요?"라고 묻는다. GPT는 분석과 결과 해석을 해 준다. 그것도 잘 해 준다. 과거에는 함수 이름을 외우고 매뉴얼을 뒤지며 옵션을 찾던 시절이 있었다면, 이제는 GPT에게 요청만 하면 된다. 바로 얼마 전까지만 해도 GPT의 통계분석 능력을 그다지 신뢰하지 않았지만, 이제는 GPT의 코딩과 실행 능력을 인정하지 않을 수 없다.

GPT 분석으로 달라질 점들

이제 인간 분석자가 코딩을 직접하고 실행하지 않아도 될 것 같다. GPT가 파이썬을 직접 실행할 수 있으니, 파이썬에서 할 수 있는 것은 GPT가 모두 할 수 있다고 보면 된다.

GPT는 분석과정에서 많은 선택을 하는데, 그 선택이 모두 타당한지는 확실하지 않다. 실제로는 일반적인 책이나 관행을 따라 선택한다고 하지만, 이 부분은 하나하나 확인하지 않으면 알 수 없다. 중요한 것은 이러한 선택의 기준 등이 문서화되어 있지 않다는 점이다. GPT도 어떤 기준을 따르고 있는지 명확히 설명하지 못할 가능성이 크다.

또한 GPT는 능력이 있어도 사용자가 명확히 요청하지 않으면 능동적으로 하지 않는 일이 많다. 이는 GPT가 분석 결과를 능동적으로 검토하거나, 다른 방법과의 비교를 제안하지 않는 이유이기도 하다. 결국 GPT는 분석을 "할 수 있음"에도 불구하고, 요청이 없으면 하지 않기 때문에, 연구자에 따라 GPT 분석 결과의 품질이 달라질 수 있다. 상한선이 어디까지인지, 어느 정도까지 능력을 발휘할 수 있는지도 결국 사용자의 지시의 정교함에 달려 있다.

그렇다고 GPT가 단지 기계적으로만 작동하는 것도 아니다. GPT는 데이터만 본다는 한계가 있음에도 불구하고, 변수명을 보고 그 의미를 유추하고, 라벨을 통해 변수의 측정 수준(예: 소득은 등간척도)을 이해할 수 있다. 심지어 설문지를 입력하면 문항 구조와 조건까지 파악한다. 그러나 이 역시 사용자가 요청하지 않으면 GPT는 적극적으로 결합하여 사용하지 않는다. GPT는 일반적이고 보편적인 선택을 한다. 연구자의 분석 목적에 가장 잘 맞는 방법을 선택하기보다는 통상적인 분석을 수행하는 경향이 있다. 그러나 GPT에게 필요한 정보와 조건이 주면 더 잘 작동한다. GPT 분석이 맥락에 맞지 않거나 분석 방법 선택이 적절하지 않게 느껴지는 이유는 GPT의 능력 부족이라기보다는, 우리가 아직 GPT의 역량을 충분히 활용하는 방법을 모르기 때문일지도 모른다. .

가장 중요한 한계는 GPT가 자신이 수행한 분석이 과연 적절했는지를 스스로 검토하지 않는다는 점이다. 더 적절한 대안적 분석 방법이 있는지, 혹은 다른 방식으로 분석했을 때 결과가 어떻게 달라지는지를 비교해보아야 하는데, GPT는 이러한 재검토와 비교 평가를 하지 않는다. 즉, 분석 결과를 하나 내고 나면, 그것이 최선인지 아닌지를 판단하지 않는다.

이런 면에서 GPT가 전체 분석을 담당한다기 보다 분석의 한 단계를 자동화해주는 도구로 생각하는 것이 적절하다.

그렇지만 이것만으로도 연구자에게는 큰 차이를 가져온다. 수 많은 에러와 반복작업에서 벗어날 수 있고, 매뉴얼을 뒤적이는 수고도 하지 않아도 되고, 실수로 무엇인가를 건너 뛰는 일도 없게 된다.

표준적인 분석을 수행해 가면서 적절하게 분석 방식을 선택하고, 그에 따라 해석을 해 준다는 점에서 GPT는 분석하는 사람의 부담을 현저하게 줄여준다. GPT가 분석한 결과를 보면서, 이제는 인간이 코딩할 필요가 없는 시대가 곧 올 것 같다는 생각이 들기도 한다.

그럼에도 불구하고 분석자는 다음과 같은 핵심 역량을 갖추고 있어야 한다

분석 목적 설정과 기법 선택: 데이터의 구조와 분석 목적에 따라 적절한 통계 기법을 선택해야 한다. GPT는 연구의 목적과 데이터 분석의 배경을 모른다. 비록 데이터의 특성을 보고 적절한 분석 방법을 선택하긴 하지만, 이는 제한된 범위 내의 결정이다. 분석자가 모르는데, GPT가 알아서 해 주는 것은 거의 없는 것 같다.
데이터 전처리와 변수 구성: 결측값 처리, 이상값 제거, 변수 통합 및 파생 변수 생성 등은 분석자의 판단이 필요한 영역이다. 기계적으로 처리할 수 있는 영역이 아니다. GPT에게 알아서 하라고 포괄적으로 맡기기는 어렵다. 전처리는 일반적인 절차가 있기보다, 데이터와 분석 목적 등 많은 사항들을 고려해야 한다.
명확한 요청 작성 능력: GPT에 자연어로 요청할 때, 모호한 표현은 오해를 낳을 수 있다. 정확하게 필요한 조건을 알려주어야 원하는 결과를 얻을 수 있다.

내가 GPT를 사용하면서 개인적으로 강하게 느낀 점 중 하나는, GPT가 마치 "자기실현적 예언(self-fulfilling prophecy)"처럼 작동한다는 점이다. 능력이 있다고 믿고 자세히 요청하면 정말 복잡한 일도 잘 수행하는 반면, 간단한 지시만 하면 기본적인 수준에서만 반응한다. GPT는 더 많은 것을 알고 있고, 할 수 있는 것이 많지만, 사용자가 기대하지 않으면 그런 능력을 드러내지 않는다. 사용하는 사람이 어떻게 다루냐에 따라 그 능력이 달라진다. 분석 결과를 과거의 연구나 국가 통계와 비교할 수도 있고, 보완적 지표를 생성하거나 대체 가능한 분석을 제안할 수도 있다

'요청 사항 (분석 관련)' 카테고리의 다른 글

요인 부하치 해석 기준 (0)	2025.03.28
크론바흐 알파(Cronbach's Alpha) 해석 기준 (0)	2025.03.28
통계적으로 유의하지 않게 나왔을 때: 분석의 검증력을 검토해야 (2)	2025.03.24
회귀분석, 어떻게 선택할까? - 종속변수에 따른 회귀모형 선택법 (0)	2025.03.24
회귀분석에서 다공선성 파악 및 대처 방법 (0)	2025.03.21

현재글챗 지피티에게 통계 분석을 시켜보니: 가능성과 한계

skcho 님의 블로그

skcho 님의 블로그 입니다.

군중의 지혜, gpt ada, 통계적 통제, SPSS, 시저 암살, 안토니 연설, gpt 데이터 분석, 포아송 회귀, 동등성 검증, 로지스틱 회귀분석, 공공정책과 데이터, 로지스틱 혼동행렬, JASP, GLM, 회귀분석, equivalence test, I Have A Dream, 로지스틱 회귀, gpt 통계분석, 인과 분석,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

skcho 님의 블로그