데이터는 관찰하고자 하는 대상의 여러 속성을 측정하여 모아놓은 것이다. 이 때 각 열 (칼럼, column)이 속성들을 나타낸다. 열에 있는 ‘성별’, ‘연령’, ‘여행 기간’, ‘깨끗하다’, ‘역사적이다’, ‘아름답다’, ‘친절하다’와 같은 속성들을 전통적으로는 변수(variable)라고 했지만, 머신러닝 등에서는 특성(feature), 속성 (attribute)라고 하기도 한다. 그리고 행(row)은 관찰 대상별로 만들게 된다. 001,002, 003과 같은 번호를 부여해서 응답한 사람을 나타낸다. 이러한 방식이 보편적으로 사용된다. 표1. 동경(東京)에 대한 인식조사 데이터 (가상) id성별연령여행기간깨끗하다역사적이다아름답다친철하다001남4111 1 1002여24 4 111003남35 61 110..