데이터 리터러시

가로형 데이터와 세로형 데이터

skcho 2025. 3. 7. 15:09

데이터는 관찰하고자 하는 대상의 여러 속성을 측정하여 모아놓은 것이다. 이 때 각 열 (칼럼, column)이 속성들을 나타낸다. 열에 있는 성별’, ‘연령’, ‘여행 기간’, ‘깨끗하다’, ‘역사적이다’, ‘아름답다’, ‘친절하다와 같은 속성들을 전통적으로는 변수(variable)라고 했지만, 머신러닝 등에서는 특성(feature), 속성 (attribute)라고 하기도 한다. 그리고 행(row)은 관찰 대상별로 만들게 된다. 001,002, 003과 같은 번호를 부여해서 응답한 사람을 나타낸다. 이러한 방식이 보편적으로 사용된다.

 

1. 동경(東京)에 대한 인식조사 데이터 (가상)

 

id 성별 연령 여행기간 깨끗하다 역사적이다 아름답다 친철하다
001 41 11   1   1
002 24 4   1 1 1
003 35 6 1   1 1
004 33 20     1 1

 

2. 동경(東京)에 대한 인식조사 요약표 (가상)

 

  깨끗하다 역사적이다 아름답다 친절하다
남자 43 27 24 74
여자 37 30 85 25
20-40 13 12 52 50
40-60 27 13 35 30
60세 이상 40 32 22 19

 

 

 

이렇게 데이터를 만들어 놓으면 사람들이 이것을 보고 데이터에 있는 패턴을 쉽게 파악하기 어렵다. 지금은 간단하게 만들었지만 열과 행이 많아지면 파악하기 힘들다. 사람이 보기에는 표2와 같은 형태가 훨씬 알아보기 쉽다. 여자들이 남자들보다 동경을 아름답다고 평가하고 있고, 반면에 남자들은 친절하다고 느끼는 경우가 많다. 연령 별로는 40세 미만에서 친철하다, 아름답다는 경우가 많다. 이런 패턴을 쉽게 알아볼 수 있다. 그래서 데이터를 분석한 결과는 보통 표2처럼 요약표 형태로 정리되어 제공된다. 다만 컴퓨터를 이용해 분석하고자 하면 표1과 같은 형태로 만들어야 한다. 데이터 분석프로그램은 이러한 형식으로 주어야 분석을 할 수 있다.

 

그런데 도시에 대한 평가를 또 다른 도시에 대해서 했다고 하자. 이 경우 이것을 표1에 이어서 나란히 놓을 수도 있다. 즉 같은 사람이 평가한 것은 같은 행으로 배치한 것이다. 만약 세 번째 도시 네 번째 도시에 대해서도 평가했으면 같은 방식으로 데이터를 만들 수 있다.

 

3. 세계 50개 도시에 대한 인식조사 가로형 데이터 (가상)

id

성별

연령

동경

방콕

마닐라
깨끗 역사 아름 친절 깨끗 역사 아름 친절 깨끗 역사 아름 친절
1 41 11   1   1   1     1 1  
2 55   1     1              
3 24 4           1     1    
4 65     1   1     1        
6 35 6             1   1    
7 45     1       1   1      
8 33 20              

 
1    
9 64   1 1   1              

 

그런데 세계 50개 도시에 대해서 물어보고, 만약 모르는 도시는 응답하지 않도록 했다면 이 데이터의 칼럼 수는 50* 10=500개가 된다. 응답자에 따라 다르겠지만 대부분의 응답자가 3-4개의 도시만 갔다면 대부분은 빈칸이 될 것이다. 이렇게 만들면 무엇보다 빈칸이 너무 많고, 엑셀을 사용해 본 분들은 알겠지만 금방 메모리가 다 차서 속도가 느려질 것이다. 그래서 별로 효율적이지 않다.

만약 가로로 하지 않고 세로로 하면 훨씬 쉬워진다. 예컨대 아래와 같이 하는 것이다.

 

4. 세계 50개 도시에 대한 세로형 데이터 (가상)

 

id 성별 연령 도시 평가
001 34 동경 1   1 1
001 34 마닐라 1   1  
001 34 방콕   1 1 1
002 24 동경 1 1 1  

 

 

이 경우는 훨씬 데이터 규모가 줄어든다. 가지 않은 도시에 대해서는 행을 삭제하면 된다. 이렇게 데이터를 구성하는 방식을 세로형 데이터(long format)라고 하고, 3처럼 옆으로 배열하는 것을 가로형(wide format)이라고 한다. 텍스트나 이미지의 속성을 추출한 데이터나 개인 소비자의 구매목록 같은 경우도 이처럼 세로형으로 만들게 된다.

가로형과 세로형은 본질적으로 정보량이 동일하므로, 한 형태에서 다른 형태로 변환이 가능하다. 예를 들어,

R에서는 pivot_longer() 또는 pivot_wider() 함수,

SPSS에서는 casestovars 또는 varstocases 명령어

를 사용하여 가로형에서 세로형으로 그리고 세로형에서 가로형으로 데이터를 변환할 수 있다.

 

일반적으로 데이터는 세로형으로 저장하는 것이  좋다.  그러나 분석 목적에 따라 형식을 달리하는 것이 편리할 수 있다. 정보량은 어느 형식이나 같지만 데이터를 통해 할 수 있는 분석은 달라진다.  예컨대  피험자내 분산분석 (Within Subject ANOVA)의 경우는 가로형으로,  2단계회귀분석 (2-stage Regression) 은 세로형으로 데이터를 만드는 것이 편합니다.

가로형 데이터(Wide Format)

같은 사람이 여러 도시를 평가한 데이터를 비교할 때  

세로형 데이터(Long Format)

응답자의 다양한 특성과 평가 간의 관계를 분석할 때 

필요에 따라 언제든지 데이터를 변환할 수 있으므로,  내가 하고자 하는 분석이 어떤 데이터 형식을 필요로 하는지를 살펴보면 됩니다.