연구를 시작하는 당신에게 – GPT 시대, 연구문제 설정의 첫걸음
연구를 위해 데이터에 관심있는 분들이 점점 더 많아지고 있다. 특히 GPT와 같은 도구의 등장은 데이터를 다루는 일의 문턱을 크게 낮추었다. 과거에는 통계 기법과 코딩 능력이 연구자의 핵심 역량으로 여겨졌다면, 이제는 연구의 목적을 정확히 설정하고, 적절한 데이터를 구하고, 도구에게 정확하게 지시할 수 있는 언어 감각이 훨씬 더 중요해졌다.
이 글은 그러한 변화 속에서 연구를 시작하려는 분들을 위해 작성한 짧은 안내글이다. 연구의 두 가지 기본 목적—설명과 예측—을 구분하고, 각각 어떤 태도와 접근이 필요한지 간단히 정리한다. 복잡한 수식이나 기법보다, “무엇을 알고 싶은가”라는 질문을 어떻게 구성할지를 중심으로 설명한다.
필자는 40년 넘게 연구와 교육을 해 오면서, 도구가 발전할수록 오히려 문제를 명확히 설정하는 능력의 중요성이 커진다는 것을 절감했다. 이 글이 연구의 첫걸음을 내딛는 데 작은 이정표가 되기를 바란다.
⟪1⟫ 연구의 두 가지 목적: 설명과 예측
연구 혹은 데이터 분석의 목적은 다양하지만, 크게 보면 두 가지 방향으로 나눌 수 있다. 하나는 설명(explanation)이고, 다른 하나는 예측(prediction)이다. 설명이란 어떤 현상이 왜 발생했는지를 밝히려는 시도다. 예를 들어 어떤 나라의 경제가 빠르게 성장하고 있다면, 그 원인이 국민의 근면성인지, 천연자원인지, 혹은 지정학적 요인인지 밝히려는 것이 설명이다. 반면 예측은 아직 관찰되지 않은 상태를 다른 변수들을 통해 추정하려는 것이다. 예를 들어 미래의 채무 불이행 가능성, 질병 감염 여부, 수급 대상 여부 등을 미리 파악하는 데 관심이 있다면, 그것은 예측이다.
사회과학 분야에서 흔히 수행되는 연구는 대부분 설명을 목표로 한다. 어떤 현상의 발생 원인을 찾기 위해 다양한 후보 요인을 비교하고, 데이터로 이를 검증한다. 이 과정에서 핵심이 되는 것은 관심 있는 요인의 순수한 영향을 얼마나 잘 구분해낼 수 있는가이다. 예컨대 어떤 선수가 국가대표로 선발되었을 때, 그 배경이 실력 때문인지, 출신 학교나 지역 때문인지를 분리해 내는 것처럼 말이다. 데이터 분석은 바로 이러한 ‘배경’의 영향을 제거하고, 핵심 요인의 효과만을 추출하는 과정이라 할 수 있다.
배경의 영향을 구분해 내기 위해서는 우선 그 배경이 되는 변수들이 데이터 안에 포함되어 있어야 한다. 아무리 좋은 기법을 사용하더라도, 데이터에 포함되지 않은 요인의 영향을 제거할 수는 없다. 따라서 연구자의 첫 번째 과제는 자신이 관심을 두는 요인에 어떤 배경들이 영향을 줄 수 있는지를 가늠하고, 그 변수들이 포함된 데이터를 확보하는 일이다.
⟪2⟫ GPT 시대의 변화: 데이터 분석의 자동화
이전까지는 연구자가 다양한 통계 기법을 학습하고, 상황에 따라 적절히 적용하며, 그에 맞는 코드를 직접 작성하는 것이 중요한 역량으로 여겨졌다. 그러나 GPT의 등장 이후, 이 풍경은 근본적으로 바뀌었다. 이제는 연구 목적이 분명하고, 적합한 데이터를 확보하기만 하면, GPT가 대부분의 분석 과정을 처리해 줄 수 있다. 복잡한 수식이나 코드 작성도 더 이상 장벽이 아니다. 이는 연구자의 부담을 줄여 주고, 연구자의 역량을 더욱 확대시킬 수도 있다.
GPT는 이렇게 매우 유능한 도구이지만, 사용자가 명확한 지시를 내리지 않으면 손쉬운 방법을 선택하거나 부적절한 기법을 적용할 가능성이 있다. 상황에 적합한 최적의 방법을 선택하려면, 최소한 관련 기법의 이름과 주요 개념 은 알고 있어야 한다. 다시 말해, 이제 연구자는 직접 계산을 할 필요는 없지만, GPT가 올바르게 계산하도록 정확한 언어로 지시할 수 있어야 한다. 이 지시어의 대부분은 통계와 분석에서 흔히 쓰이는 기본 용어다. 다행히 이러한 용어는 GPT에게 직접 물어보는 것만으로도 충분히 익힐 수 있으며, 별도의 전문 교육 없이도 빠르게 접근할 수 있다.
⟪3⟫ 기법의 성격과 구분: 배경을 분리하는 능력
연구 목적이 설명이라면, 가장 중요한 것은 배경의 영향을 얼마나 잘 분리해 낼 수 있는가이다. 이 점에서 가장 강력한 능력을 갖춘 기법은 회귀 분석 계열이다. 일반적인 선형 회귀는 물론이고, 포아송 회귀, 음이항 회귀처럼 ‘회귀’라는 이름이 붙은 기법들은 대부분 이 기능이 강하다. 이들은 여러 변수들이 동시에 영향을 미치는 상황에서, 특정 요인의 독립적 효과를 통계적으로 분리해내는 데 적합하다.
반면, 공변량 통제 개념을 일부 반영하는 변량분석(ANOVA) 계열은 배경의 영향을 어느 정도 조절할 수 있지만, 그 기능은 상대적으로 제한적이다. 집단 간 차이를 비교하는 데 주로 쓰이는 이들 기법은 회귀 분석만큼 유연하지 않다. 두 변수 간의 관계만을 보는 단순 통계 기법들—예를 들어 t-검정, 상관 분석, 비모수 검정 등—은 대부분 배경을 분리해 내는 기능이 없다. 교차분석은 널리 사용되지만, 배경이 복잡한 상황에서 그 유용성은 낮아진다. 이론적으로는 다차원 교차표로 확장할 수 있지만, 현실적으로는 해석이 어렵고 적용도 제한적이다.
한편, 애초에 배경의 차이를 없애는 방식으로 접근하는 기법들도 있다. 대표적인 것이 실험 설계다. 조건이 동일한 집단을 구성하여 비교함으로써 배경 요인 자체를 차단하는 것이다. 이와 유사하게 설계된 준실험 방법들—차이의 차이(DID), 회귀불연속(RD), 성향점수매칭(PSM) 등—은 실험과 관찰연구 사이에 위치하며, 비교적 설계가 엄격한 편이다. 이들은 통계적 기법이 아니라, 설계 단계에서 배경을 제어하는 전략이라고 볼 수 있다.
설명 중심 기법들과 달리, 예측에 특화된 기법들은 주로 기계학습(machine learning) 영역에서 발전해 왔다. 의사결정 트리, 랜덤 포레스트, 서포트 벡터 머신, 신경망 등은 복잡한 변수 간의 비선형 관계를 포착하고, 정확도를 높이는 데 강점을 지닌다. 그러나 이들 기법은 대부분 결과가 어떻게 도출되었는지를 설명하기 어려운 ‘블랙박스 모델’에 가깝다. 따라서 변수 간의 인과 구조나 메커니즘에 관심이 있는 설명형 연구에는 적합하지 않다. 반대로 전통적인 통계 기법들—특히 t-검정, 상관분석 등—은 해석은 용이하나 예측 성능은 낮다. 그 중 회귀분석만은 상대적으로 예외적이다. 회귀는 설명력과 예측력을 동시에 갖춘 몇 안 되는 기법이며, 최근에는 머신러닝 계열에서도 회귀 기법이 예측 도구로 적극 활용되고 있다. 또한 의사결정 트리는 그 구조가 시각화 가능하기 때문에, 비교적 설명 가능한 예측 기법으로 활용되기도 한다.
⟪4⟫ 좋은 연구의 조건: 데이터와 소통의 힘
필자의 경험에 비추어 보면, 좋은 연구를 위한 가장 어려운 일은 복잡한 기법을 습득하는 것이 아니라, 적절한 데이터를 확보하는 일이다. 이론적 틀이나 분석 코드는 GPT나 검색엔진을 활용하면 비교적 손쉽게 접근할 수 있다. 그러나 데이터는 그렇지 않다. 데이터가 많아진다고 하지만 내가 관심있는 현상과 관련된 배경에 관한 정보를 같이 가지고 있는 데이터를 찾는 것은 여전히 어렵다. 공개된 정보만으로는 원하는 분석을 수행하기 어려운 경우도 많다. 따라서 연구자는 무엇보다 먼저 좋은 데이터셋을 찾는 능력을 갖추어야 한다.
또한 이제 연구자는 GPT와 같은 도구와 의미 있는 소통을 할 수 있어야 한다. 이는 단순한 질문이 아니라, 자신의 문제의식을 구조화하여 언어로 표현하는 능력이다. 과거에는 방대한 문헌을 읽고, 복잡한 코드를 다루는 능력이 강조되었다면, 이제는 데이터의 맥락을 이해하고, GPT에게 정확한 분석 요구를 전달하는 능력이 훨씬 더 중요해졌다. 좋은 연구는 좋은 질문에서 시작되고, 그 질문은 곧 좋은 설명이자 요청이어야 한다. 도구가 발전할수록 연구자의 고유한 판단력과 언어 능력은 더욱 중심으로 올라온다.
※ 이 글에서는 ‘혼란변수(confounding variable)’나 ‘통제(control)’ 등의 통계 용어 대신, 이해를 돕기 위해 모두 ‘배경’이라는 표현으로 통일했다. 용어의 정확성보다는 맥락의 직관을 전달하는 데 목적이 있다. 필자는 교육과 연구를 병행해 오면서, 개념을 더 많은 이들과 나누기 위해 용어의 문턱을 낮추는 일이 오히려 학문에 도움이 된다는 점을 경험해 왔다.
'데이터 리터러시' 카테고리의 다른 글
| ChatGPT용 데이터 설명서 (메타데이터) 만들기 (0) | 2025.09.26 |
|---|---|
| 데이터 분석의 자동 전 처리: 커스텀 ChatGPT 활용 (0) | 2025.09.26 |
| 데이터셋의 출발점: 관찰단위와 분석단위 (0) | 2025.09.26 |
| 변수와 데이터: 기본 개념 이해하기 (0) | 2025.09.25 |
| 챗지피티에게 지시를 잘 전달해야: (0) | 2025.09.05 |