데이터 리터러시

학술연구 데이터의 새로운 패러다임: 리포지토리 활용의 중요성

skcho 2025. 3. 8. 01:46

학술연구에서 신뢰할 수 있는 데이터를 찾는 것은 연구의 타당성 확보에 매우 중요하다. 연구자는 연구 목적에 맞는 데이터를 직접 수집하거나 기존 데이터를 활용해야 하는데, 공공기관에서 생산한 국가 승인 통계는 통계청 마이크로데이터 서비스( https://mdis.kostat.go.kr/index.do 에서 제공된다. 또한, 연구기관이나 정부 기관이 자체적으로 데이터를 공개하기도 한다. 그러나 이러한 공공 데이터만으로 연구에 필요한 모든 정보를 확보할 수는 없다. 특히, 특정한 연구 주제에 맞는 세부 데이터를 검색하는 것은 쉽지 않다.

 

이러한 문제를 해결하는데 데이터 기탁소(Data Repository)가 중요한 역할을 한다. 데이터 기탁소는 데이터 생산자나 연구자가 생성한 연구자료와 데이터를 수집하여 다른 사용자들이 활용할 수 있도록 제공하는 플랫폼으로서 개방과학(Open Science)를 추구하는데, 개방과학은 연구 데이터, 논문, 방법론을 공개하여 지식의 확산과 연구자 간의 협업을 촉진하는 일종의 실천 운동이다. 기탁소는 데이터를 단순하게 저장하는 것에 그치지 않고, 메타데이터를 제공하며, 데이터의 완결성을 검토하고 품질을 점검하는 기능도 수행한다. 연구자는 기탁소를 활용함으로써 필요한 데이터를 효율적으로 확보할 수 있다.

 

20253월 현재, 전 세계적으로 3,300개 이상의 데이터 기탁소가 운영되고 있으며, 연구자는 분야별·지역별로 적합한 기탁소를 찾아 활용할 수 있다. 데이터 기탁소를 종합적으로 검색할 수 있는 곳으로는 대표적인 기탁소 등록기관인 re3data (https://www.re3data.org/)가 있다. 여기서 특정 분야나 지역에 어떤 기탁소가 있는지 찾아볼 수 있다.

 

데이터 기탁소는 다음과 같은 기능을 한다.

- 데이터의 완결성 점검: 기탁소는 데이터를 수집할 때 메타데이터를 점검하고, 데이터파일 상태를 확인한다. 연구자가 데이터 생산기관이나 개별 연구자로부터 데이터를 직접 제공받는 경우 일부 정보가 누락 되거나 불완전할 가능성이 있으나, 기탁된 데이터는 이러한 문제가 상대적으로 적다.

 

- 다양한 데이터 형식 제공: 기탁소는 데이터를 기탁받은 형식만으로 제공하는 곳도 있지만, 여러 사람이 접근할 수 있도록 형식을 변환하여 제공하기도 한다. 예를 들어, 하바드 데이터버스(Harvard Dataverse)의 경우 연구자가 SPSSSTATA 형식으로 기탁한 데이터에서 ASCII 데이터와 메타데이터를 추출하여 특정 소프트웨어가 없이도 이용할 수 있게 한다.

 

- 문항 단위 검색 및 기초 분석 기능: 데이터셋 전체를 내려받지 않더라도, 기탁소에 따라 문항 단위 검색, 기초 통계량 및 교차분석을 제공하는 기능이 포함되어 있다. 이를 통해 연구자는 데이터가 이용 목적에 적합한지 사전에 검토할 수 있다.

연구 성과 연계: 일부 기탁소는 해당 데이터를 활용한 논문 목록을 제공하여, 연구자가 특정 데이터 셋이 학계에서 어떻게 활용되고 있는지를 확인할 수 있도록 한다.

 

데이터 기탁소는 연구자들이 데이터를 확보할 수 있는 중요한 곳이기 때문에 해외의 주요 대학들은 교수와 연구자들을 위해 기탁소를 안내하고 있다. 이들 대학들이 소개하는 기탁소는 대학마다 다르지만 대체로 다음 기탁소들이 공통적으로 소개된다.

 

 

<1> 미국의 주요 대학에서 안내되는 기탁소

기탁소명 특징 비용 비고
ICPSR - 사회과학분야
- 기탁 과정 몇 개월 소요
- curating service 제공
유료 Michigan 대학
OpenICPSR은 무료로 기탁이 가능하다

Harvard Dataverse - 모든 분야
- 기탁 과정 신속 (1-2주 이내)
- curating service 제공 (/무료)
- 별도의 collection 구성 가능
- 용량 제한 (1T)
- 장기적 지속가능성 높음
무료 기탁자에 대한 서비스가 다양하고 신속하다


데이터에서 직접 정보를 추출해 다양한 형식으로 이용자에게 제공한다.
UK Data Service - EWCS 기탁처
- 영국 및 EU 지역
  서버 속도가 느린 편이다
승인을 받아야 이용할 수 있다
       
Dryad - 과학/의학 분야 유료  
Zenodo - curation 없음 무료  
Mendeley Data - curation 없음    
open science framework 용량 제한 무료  

*여러 대학 안내문을 종합한 것이며, 특징 등 부가 정보는 필자가 추가하였다.  아래 KOSSDA는 한국에서 생산된 데이터들이 많이 있다.

KOSSDA - 기탁 과정 몇 개월 소요
- curating service 제공
- 국내 이용자 친숙
무료 서울대학교 사회과학자료원 

 

 

최근 데이터 기탁이 학술연구의 필수 조건으로 인식되고 있고, 이에 따라 데이터 기탁을 필수로 하는 학술지가 증가하고 있다. 향후에는 기탁되지 않은 데이터를 활용한 논문은 저명 학술지에 게재하는 것이 어려워질 것으로 전망된다. 데이터 기탁을 의무로 하는 학술지 중 일부를 열거하면 다음 표와 같다.

 

<2> 데이터 기탁 의무화 학술지

1 Public Policy and Administration
https://journals.sagepub.com/author-instructions/PPA#%23researchdata
2 American Economic Association
https://www.openicpsr.org/openicpsr/aea
3 IJPOR
https://academic.oup.com/ijpor/pages/General_Instructions
4 Public Opinion Quarterly
https://academic.oup.com/poq/pages/general_instructions
5 Journal of Economic History
https://www.openicpsr.org/openicpsr/jeh

 

 

기탁소 중에는 한 곳에서 다른 기탁소 데이터를 검색할 수 있도록 지원하는 곳도 있어, 연구자가 효율적으로 데이터를 탐색할 수 있다. 앞으로 데이터 공유 및 기탁의 중요성은 더욱 커질 것으로 예상된다. 기탁소를 적극 활용하여 학술연구에 필요한 데이터를 확보하자.