데이터를 활용하려면 도구를 이용해야 한다. 도구 중에는 코딩 능력이 필요한 것도 있고, 그렇지 않고 GUI(그래픽 사용자 인터페이스) 환경에서 모든 것을 할 수 있도록 한 것까지 다양하다.
그렇다면 어떤 도구를 선택해야 하나? 최근 데이터 분석 도구들은 점점 더 강력해지고 사용하기 쉬워지고 있다. 그래서 도구 선택에 너무 고심할 필요가 없다. 이미 사용하고 있는 것이 있다면 그것을 사용하면 되고 그런 것이 없다면 내 용도에 맞는 것 중에서 골라 쓰면 된다. 과거와 달리 도구 사용이 무척 쉬워져서 언제든 새 도구로 바꿀 수 있기 때문이다.
데이터 처리 및 변형의 편리성을 보아야
그러면 어떤 것이 내 용도에 맞을까? 도구를 고를 때는 본인이 어떤 유형의 데이터를 어느 정도 사용하는지를 고려하는 게 좋겠다. 데이터 도구는 여러 용도로 쓰이지만, 그 중 데이터 분석이 가장 쉽다. 그래서 설령 해당 도구를 처음 사용하더라도 인공지능에게 물어보던지, 아니면 인터넷을 검색해서 찾아보면 내가 원하는 분석을 바로 할 수 있다. 문제는 분석할 수 있도록 데이터를 만들어서 해당 도구에 입력하는 게 어렵다는 점이다.
데이터 처리 및 변형을 충분히 필요한 만큼 할 수 있으면서도, 그 과정이 간편하고 직관적이면 좋다. 즉 기능은 충분히 강력해야 하지만, 동시에 사용이 어려운 복잡함이 없는 도구가 필요하다. 이 두 가지 요소는 서로 반대되는 요구사항인 만큼, 그 균형을 잘 맞추는 것이 중요하다. 소득을 여러 급간으로 나누기도 하고, 특정 조건에 맞는 사례만을 골라서 분석할 수도 있다. 또 지점 간의 거리를 GPS 좌표를 이용해 계산할 때도 있다. 다수의 문항으로 질문한 내용을 종합해서 하나의 점수로 바꾸어야 할 때도 있다. 이러한 계산을 쉽고 빠르게 그리고 오류 없이 하는 게 중요하다. 도구를 고를 때는 이런 작업이 얼마나 필요한지 생각해서 그에 맞는 것을 선택하는 것이 좋다.
R의 경우 이러한 작업을 정교하게 할 수 있다. 사회과학 연구자들이 통상 수행하는 데이터 처리 및 변형을 하는데 불편함이 없을것 같다. 용도별로 다양한 함수가 제공되고, 또 벡터 단위로 데이터를 선택해서 변형하고 재결합하는 것도 편하게 할 수 있다. 다만 작업을 코드로 해야 하고, 결과도 코드를 이용해서 보아야 한다. 비슷한 기능을 가지면서 미묘한 차이가 있는 함수들도 많다. 그런 만큼 세밀한 데이터 변형도 가능하지만 변경 결과가 의도한 대로 이루어졌는지 확인해야 한다. 중요한 명령어들을 기억할 수 있을 정도로 자주 사용한다면 R을 선택하는 것도 좋은 선택이 될 수 있다.
그런데 R의 다양한 함수나 처리 명령을 늘 기억할 정도로 데이터를 자주 사용하지 않는다면 SPSS 등과 같은 패키지를 사용하는 것이 더 좋다. SPSS의 경우 GUI에서 작업할 수도 있지만, R처럼 명령어를 이용해서 대규모의 반복 작업을 효율적으로 할 수 있다. 그러면서 명령어나 사용 방식을 잊으면 메뉴를 사용할 수 있다. 컴퓨터에 지시한 것이 내 뜻대로 되었는지 아니면 이상한 결과를 가져왔는지를 손쉽게 확인할 수 있다. R과는 달리 한글사용이 자유롭다. 그리고 데이터조작을 위한 함수 등이 R만큼은 다양하지는 않아도 사회과학 데이터를 다루는 데는 충분한 편이다.
전문적으로 데이터를 분석하지 않고 연구용으로 데이터를 사용한다면 SPSS보다 데이터 관리가 다소 기능이 부족한 편이지만 편리성이 더 높은 JAMOVI를 선택하는 것도 좋다. JAMOVI는 R을 GUI환경에서 이용할 수 있도록 하는 도구인데 무료다. 메뉴로만 작업을 하는데 아무것도 배우지 않은 사람도 바로 사용할 수 있을 정도로 GUI 구성이 좋다. 명령어를 사용하지 않아서 대규모 작업이나 반복 작업을 하기에는 불편하다. 그렇지만 연구자가 소규모 데이터를 다루는 경우라면 충분하다. 대학원생이나 대부분의 사회과학 연구자에게는 JAMOVI도 좋은 선택이 된다.
만약 엑셀로 데이터 관리하는 것이 편하다고 생각하는 사람은 JASP를 고르는 것도 좋다. JASP도 R GUI인데, JAMOVI와 매우 유사하다. 메뉴를 이용해서 데이터 변형을 할 수 있다. 그런데 JAMOVI와 달리 외부 데이터 파일과 실시간 동기화가 된다. 예컨대 엑셀 파일의 데이터를 읽어온 다음, 데이터를 변형할 필요가 생기면 원래의 엑셀 파일에서 데이터를 변경하면 된다. 그러면 이미 읽어온 JASP안의 데이터도 같이 변경된다. 데이터 변경을 한꺼번에 다 할 수 있으면 좋지만 실제로는 분석해 가면서 추가로 할 때도 있다. 그럴 때 데이터를 다시 불러오지 않고 원래 파일을 변경해도 된다. 즉 익숙하지 않은 JASP안의 데이터 조작 기능이 아니라 자신이 사용하는 소프트웨어를 사용할 수 있다. 이 외에도 BlueSky Statistics도 있는데 이것의 무료 버전도 JASP나 JAMOVI와 유사한 R GUI다. 그러면서 데이터 조작 기능은 많다.
데이터 관리의 관점에서 이처럼 분석 도구를 선택한 다음, 분석은 그 도구를 이용해서 하면 된다. 어느 분석 도구를 사용하던 사회과학 데이터 분석은 대부분 불편 없이 할 수 있다. 도구에 따라 약간의 차이가 있지만 중요한 분석 방법은 대부분 제공하고 있다. JAMOVI가 머신러닝, 강건통계(Robust), 의학 실험데이터 등의 분석에 필요한 도구들을 더 제공하고 있고, JASP는 베이지안 통계가 잘 구현되어 있다. 또한 효과 크기(effect size)를 이용해 분석하는 것도 쉽다. SPSS는 사회과학 분야의 다양한 데이터와 분석기법을 사용할 수 있지만, 강건통계나 머신러닝 알고리즘이 JASP나 JAMOVI 등에 비해 부족한 편이다. 대신 다양한 유형의 회귀분석이 가능하다. 특히 범주형 회귀분석 (Categorial regression)은 범주형 종속변수를 분석할 때 유용하고, 최적 구간화(Optimal Binning)도 범위가 넓은 연속형 변수를 구간으로 나누는데 편리하게 사용할 수 있다. 이 외에 데이터 사전처리를 위한 기능이 R-GUI보다 많이 제공된다. BlueSky Statistics도 SPSS만큼은 아니지만 상당히 많은 분석방법을 제공한다.
동일한 기법이 세 가지 도구에서 다 가능하다면, JASP와 JAMOVI가 편하다. 모든 메뉴가 한 화면에 있고, 결과가 즉각적으로 화면에 나온다. 그것도 사회과학 분야 논문작성의 표준인 APA 스타일에 맞추어져 있어서 복사해서 바로 논문에 넣으면 된다. 메뉴구성이나 결과물의 활용 편리성은 R GUI가 SPSS보다 편리하게 되어 있다. 다만 데이터가 클 경우에는 원활하지 않을 수 있다. 필자 경험에서 케이스 수가 몇 만 정도 되는 데이터는 분석이 중단된 경험이 있었지만 몇 천 건의 데이터에서는 없었다.
만약 도구를 선택해 사용하고 있는데, 내가 필요로 하는 분석방법을 제공해 주지 않는다면 불편하지 않을까? 그렇지 않다. 데이터를 다른 도구로 옮겨서 분석하면 된다. 분석 자체는 사용하지 않는 도구라 해도 어렵지 않기 때문이다. JASP와 JAMOVI 등 R GUI는 사용해 본 적이 없더라도 바로 사용할 수 있다. 설치도 내려받아서 실행하기만 하면 된다. 설치가 까다롭지도 않다. 그래서 필요할 때 설치해서 사용하면 된다. SPSS도 쉬운 편이다. 즉 분석은 통계 패키지이든 R GUI든 어렵지 않다. R도 GPT나 인터넷 검색을 통해 필요한 명령어를 만들 수 있다. 즉 데이터 관리만 아니라면 R도 여러 가지 기능이나 명령문에 익숙하지 않아도 할 수 있다. JAMOVI와 SPSS는 자체 내에서 R을 이용한 분석이 가능하게 하였다. 사용해 보니 아직은 편하지 않다. 데이터를 옮겨서 R Studio에서 실행하는 것이 더 편하다. 그렇지만 멀지 않아 이런 불편함은 해소될 것으로 보인다. 어느 것을 도구를 사용하더라도 데이터만 잘 준비되면 분석 자체는 큰 불편은 없다고 본다.
그래프와 챠트를 그릴 때는 JAMOVI가 JASP보다 많은 기능을 제공한다. 분석하면서 그 결과나 과정을 보여주는 그래프는 대부분의 통계패키지나 R GUI에서 잘 제공하는 편이다. JASP과 JAMOVI의 경우 편하게 그릴 수는 있으나 다소 제한이 있고, SPSS가 다양한 그래프를 유연하게 메뉴와 명령문 형식을 혼합해서 그릴 수 있다. 다만 메뉴만으로는 그래프를 섬세하게 다듬기는 어렵고 명령어를 사용하는데, 다른 분석기능을 사용할 때 보다는 노력이 요구된다. R의 경우는 명령어를 이용해 그래프를 그린다. 그래서 SPSS보다 당연히 더 노력이 요구된다. 인공지능이나 웹에서 검색하려고 해도 분석과 달리 검색이 쉽지 않다. 내가 원하는 그래프의 모양을 텍스트로 표현하기가 어렵기 때문이다. 결국 일반적인 그래프가 아니라 자신이 생각하는 방식으로 그래프를 사용하고자 하면 ggplot-2와 같은 패키지를 잘 이용할 줄 알아야 한다. 진입 장벽이 있다.
분석된 요약표를 이용해서 그래프를 그리는 것은 엑셀로 하는 것이 편하다. 통계 패키지나 R GUI는 마이크로 데이터 즉 세로형 데이터 파일을 가지고 그래프를 그리는 것이지 요약된 형태의 표로 그리는 것은 불편하다. 엑셀은 요약표를 이용해서 바로 그릴 수 있기 때문에 편리하다. 그렇지만 엑셀 그래프는 사용자가 그래프의 형태나 그리는 방식을 잘 선택해야 한다. 엑셀이 알아서 그려주는 그래프는 그래프 작성 원칙에서 바람직하지 않은 경우가 많다. 다른 통계 패키지는 그려주는 대로 이용해도 큰 문제가 없는데 엑셀은 그렇지 않다. 이런 점만 주의하면 엑셀의 경우 각종 팁이나 방법들이 인터넷 등을 통해 찾을 수 있어서 사용하는 데 어려움은 없다. 다만 그래프 그릴 때 엑셀 기능에 익숙하지 않으면 시간이 걸린다.
앞서 말했듯이 도구들은 나날이 쉬워지고 강력해지고 있다. 게다가 인공지능들의 코딩 능력도 발달하고 있다. 새로운 그래프 형식들이 제공되고 있다. 예컨대 엑셀은 몇 년 전부터 스파크라인(sparkline) 그래프를 메뉴에서 선택할 수 있도록 한다. 그래서 도구 선택에 너무 많이 고민할 필요는 없다. 데이터 분석을 전문으로 하지 않을 경우에는 도구 자체를 익히는 데 현재 필요한 수준 이상으로 할 필요는 없다고 본다. 새로운 분석기법 등은 패키지나 R GUI에서 바로 제공되지는 않는다. 그래서 새로운 기법을 이용하려면, 또는 본인이 개발한 방법을 이용하려면 R이나 파이선을 사용해야 한다. 그러나 분석방법 자체를 개발하는 것이 아니라면 그리고 자료분석 방법 자체를 개발하는 목적이 아니라면 잘 검증된 분석기법을 패키지나 R GUI를 통해서 사용해도 대부분은 충분하다. 장기적으로는 분석도구가 중요하겠지만, 단기적으로는 데이터의 품질과 그것을 해석할 수 있는 분야 전문성이 더 중요하다고 본다.
'데이터 리터러시' 카테고리의 다른 글
유의도 검증의 한계: 효과 크기를 같이 보아야 (2) | 2025.03.14 |
---|---|
학술연구 데이터의 새로운 패러다임: 리포지토리 활용의 중요성 (2) | 2025.03.08 |
데이터 에러: 표본이 커도 줄어들지 않는 에러가 있다 (0) | 2025.03.07 |
데이터 에러: 표집오차(sampling error)를 먼저 보자 (0) | 2025.03.07 |
가로형 데이터와 세로형 데이터 (0) | 2025.03.07 |