데이터 리터러시

데이터셋의 출발점: 관찰단위와 분석단위

skcho 2025. 9. 26. 00:01

 

데이터셋은 반드시 개인 단위 자료만을 뜻하지 않는다. 요약통계도 관찰단위<!doctype html>

📖 데이터셋, 관찰단위, 그리고 분석단위

데이터셋을 다루려면 가장 먼저 관찰단위(observation unit)분석단위(unit of analysis)를 구분해야 한다. 두 개념은 비슷해 보이지만 같을 수도 있고, 다를 수도 있다. 이 차이를 분명히 이해하지 못하면 데이터셋을 잘못 정의하거나 분석을 엉뚱하게 진행할 위험이 크다.


1. 데이터셋은 어떻게 구성되는가

데이터셋은 표(table)로 되어 있다.

  • 표의 행(row) 하나는 하나의 관찰단위다.
  • 표의 열(column) 하나는 그 단위에서 측정된 변수다.

예를 들어 개인 설문조사 데이터에서는 한 행이 한 사람, 성별·연령·소득 같은 정보가 열에 담긴다. 이렇게 행마다 동일한 관찰단위가 쌓여야 비로소 데이터셋이 된다.


2. 관찰단위는 다양할 수 있다

관찰단위가 반드시 개인일 필요는 없다. 연구 목적에 따라 다른 단위가 될 수 있다.

  • 개인 단위: 한 사람의 성별, 연령, 학력, 소득
  • 가구 단위: 한 가구의 총소득, 가족 수, 주거 형태
  • 기업 단위: 개별 기업의 매출, 종업원 수, 업종
  • 국가 단위: 한 나라의 GDP, 출산율, 실업률

예를 들어 OECD 국가들의 GDP와 출산율을 모아 놓은 자료라면, 관찰단위는 ‘국가’가 된다.


3. 분석단위와 관찰단위

분석단위는 실제로 분석을 수행하는 수준이다.

  • 대체로 관찰단위와 분석단위는 일치한다.
    • 개인 단위 데이터를 모아 개인 차이를 분석한다.
    • 국가 단위 데이터를 모아 국가 간 차이를 비교한다.
  • 그러나 항상 같을 필요는 없다.
    • 개인들에게 소득을 묻고 난 뒤, 그것을 합산해 가구 단위 소득을 만들 수 있다.
    • 이 경우 관찰단위는 개인이지만, 분석단위는 가구다.
    • 또 가구 소득을 사용해 개인의 소비 행동을 설명할 수도 있다.

즉, 분석단위는 관찰단위와 다를 수 있지만, 관찰단위에서 분석단위로 합리적으로 집계될 수 있어야 한다.


4. 연구문제와 데이터의 단위 일치

연구문제와 데이터의 단위가 맞지 않으면 잘못된 결론에 빠질 수 있다. 이를 생태학적 오류(ecological fallacy)라고 한다.

  • 예: “출산율이 낮은 지역은 집값이 높다 → 그러므로 집값이 높은 개인은 아이를 적게 낳는다.”
  • 실제로는 지역 단위의 상관관계를 개인 단위 인과로 오해한 것이다.

따라서 연구문제를 세울 때는 내가 어떤 분석단위를 필요로 하는지를 먼저 정해야 한다. 그리고 내가 가진 데이터의 관찰단위가 그 분석단위와 맞는지 확인해야 한다.


5. 데이터셋의 기본 원칙

  • 데이터셋의 각 행은 반드시 동일한 단위에서 구성되어야 한다.
    • 한 행은 개인, 다른 행은 국가라면 데이터셋이라 할 수 없다.
  • 서로 다른 단위의 자료를 합치려면, 반드시 공통된 분석단위로 변환하거나 집계해야 한다.
  • 분석이 의미 있으려면 관찰단위별로 변수가 충분히 있어야 하고, 케이스 수도 확보되어야 한다.
    • 예를 들어 시군 단위 자료라면 최소 수십 개 이상의 시군이 있어야 회귀나 상관 분석이 신뢰를 얻을 수 있다.

6. 정리

  • 데이터셋은 개인뿐 아니라 가구, 기업, 국가 등 다양한 관찰단위로 구성될 수 있다.
  • 분석단위는 관찰단위와 같을 수도, 다를 수도 있다. 다를 경우 관찰단위에서 합리적으로 집계될 수 있어야 한다.
  • 연구문제와 분석단위가 일치해야 하며, 그렇지 않으면 잘못된 결론(생태학적 오류)에 빠질 수 있다.
  • 무엇보다 중요한 것은 데이터셋의 각 행이 동일한 단위로 이루어져야 한다는 점이다. 이것이 데이터 분석의 출발점이다