데이터셋은 반드시 개인 단위 자료만을 뜻하지 않는다. 요약통계도 관찰단위<!doctype html>
📖 데이터셋, 관찰단위, 그리고 분석단위
데이터셋을 다루려면 가장 먼저 관찰단위(observation unit)와 분석단위(unit of analysis)를 구분해야 한다. 두 개념은 비슷해 보이지만 같을 수도 있고, 다를 수도 있다. 이 차이를 분명히 이해하지 못하면 데이터셋을 잘못 정의하거나 분석을 엉뚱하게 진행할 위험이 크다.
1. 데이터셋은 어떻게 구성되는가
데이터셋은 표(table)로 되어 있다.
- 표의 행(row) 하나는 하나의 관찰단위다.
- 표의 열(column) 하나는 그 단위에서 측정된 변수다.
예를 들어 개인 설문조사 데이터에서는 한 행이 한 사람, 성별·연령·소득 같은 정보가 열에 담긴다. 이렇게 행마다 동일한 관찰단위가 쌓여야 비로소 데이터셋이 된다.
2. 관찰단위는 다양할 수 있다
관찰단위가 반드시 개인일 필요는 없다. 연구 목적에 따라 다른 단위가 될 수 있다.
- 개인 단위: 한 사람의 성별, 연령, 학력, 소득
- 가구 단위: 한 가구의 총소득, 가족 수, 주거 형태
- 기업 단위: 개별 기업의 매출, 종업원 수, 업종
- 국가 단위: 한 나라의 GDP, 출산율, 실업률
예를 들어 OECD 국가들의 GDP와 출산율을 모아 놓은 자료라면, 관찰단위는 ‘국가’가 된다.
3. 분석단위와 관찰단위
분석단위는 실제로 분석을 수행하는 수준이다.
- 대체로 관찰단위와 분석단위는 일치한다.
- 개인 단위 데이터를 모아 개인 차이를 분석한다.
- 국가 단위 데이터를 모아 국가 간 차이를 비교한다.
- 그러나 항상 같을 필요는 없다.
- 개인들에게 소득을 묻고 난 뒤, 그것을 합산해 가구 단위 소득을 만들 수 있다.
- 이 경우 관찰단위는 개인이지만, 분석단위는 가구다.
- 또 가구 소득을 사용해 개인의 소비 행동을 설명할 수도 있다.
즉, 분석단위는 관찰단위와 다를 수 있지만, 관찰단위에서 분석단위로 합리적으로 집계될 수 있어야 한다.
4. 연구문제와 데이터의 단위 일치
연구문제와 데이터의 단위가 맞지 않으면 잘못된 결론에 빠질 수 있다. 이를 생태학적 오류(ecological fallacy)라고 한다.
- 예: “출산율이 낮은 지역은 집값이 높다 → 그러므로 집값이 높은 개인은 아이를 적게 낳는다.”
- 실제로는 지역 단위의 상관관계를 개인 단위 인과로 오해한 것이다.
따라서 연구문제를 세울 때는 내가 어떤 분석단위를 필요로 하는지를 먼저 정해야 한다. 그리고 내가 가진 데이터의 관찰단위가 그 분석단위와 맞는지 확인해야 한다.
5. 데이터셋의 기본 원칙
- 데이터셋의 각 행은 반드시 동일한 단위에서 구성되어야 한다.
- 한 행은 개인, 다른 행은 국가라면 데이터셋이라 할 수 없다.
- 서로 다른 단위의 자료를 합치려면, 반드시 공통된 분석단위로 변환하거나 집계해야 한다.
- 분석이 의미 있으려면 관찰단위별로 변수가 충분히 있어야 하고, 케이스 수도 확보되어야 한다.
- 예를 들어 시군 단위 자료라면 최소 수십 개 이상의 시군이 있어야 회귀나 상관 분석이 신뢰를 얻을 수 있다.
6. 정리
- 데이터셋은 개인뿐 아니라 가구, 기업, 국가 등 다양한 관찰단위로 구성될 수 있다.
- 분석단위는 관찰단위와 같을 수도, 다를 수도 있다. 다를 경우 관찰단위에서 합리적으로 집계될 수 있어야 한다.
- 연구문제와 분석단위가 일치해야 하며, 그렇지 않으면 잘못된 결론(생태학적 오류)에 빠질 수 있다.
- 무엇보다 중요한 것은 데이터셋의 각 행이 동일한 단위로 이루어져야 한다는 점이다. 이것이 데이터 분석의 출발점이다
'데이터 리터러시' 카테고리의 다른 글
| ChatGPT용 데이터 설명서 (메타데이터) 만들기 (0) | 2025.09.26 |
|---|---|
| 데이터 분석의 자동 전 처리: 커스텀 ChatGPT 활용 (0) | 2025.09.26 |
| 변수와 데이터: 기본 개념 이해하기 (0) | 2025.09.25 |
| 챗지피티에게 지시를 잘 전달해야: (0) | 2025.09.05 |
| AI에게 일시키는 법: 메타워크의 시대 (0) | 2025.09.05 |