공공정책과 데이터 5

데이터 분석도구: 내 용도에 맞는 것을 선택하자

데이터를 활용하려면 도구를 이용해야 한다. 도구 중에는 코딩 능력이 필요한 것도 있고, 그렇지 않고 GUI(그래픽 사용자 인터페이스) 환경에서 모든 것을 할 수 있도록 한 것까지 다양하다. 그렇다면 어떤 도구를 선택해야 하나? 최근 데이터 분석 도구들은 점점 더 강력해지고 사용하기 쉬워지고 있다. 그래서 도구 선택에 너무 고심할 필요가 없다. 이미 사용하고 있는 것이 있다면 그것을 사용하면 되고 그런 것이 없다면 내 용도에 맞는 것 중에서 골라 쓰면 된다. 과거와 달리 도구 사용이 무척 쉬워져서 언제든 새 도구로 바꿀 수 있기 때문이다. 데이터 처리 및 변형의 편리성을 보아야  그러면 어떤 것이 내 용도에 맞을까? 도구를 고를 때는 본인이 어떤 유형의 데이터를 어느 정도 사용하는지를 고려하는 게 좋겠다..

데이터 에러: 표본이 커도 줄어들지 않는 에러가 있다

포함률 오차 (Coverage Error)데이터는 현상에 대한 관찰 결과를 모아놓은 것이다. 그런데 그 현상의 일부분에 대해서만 데이터가 있다면 비록 그 크기가 크더라도 에러가 발생한다. 이런 것을 포함률 오차(Coverage Error)라고 한다. 예컨대 한국 20세 이상 성인들의 인터넷 사용 정도를 연구하면서 네이버 사용자들 대상으로 표본을 추출했다면 네이버를 이용하지 않는 사람들은 표본에 포함되지 않는다. 이 경우 데이터가 100만 200만 사례를 포함한다고 해도 여전히 에러가 발생한다. 이런 성격의 에러는 표본이 커진다고 해서 줄어들지는 않는다. 즉 표집을 위한 표집틀이 실제 모집단을 충분히 포함하지 않을 때 또는 모집단에 해당되지 않는 요소들을 많이 포함하고 있을 때 발생한다.   예컨대 한국의..

데이터 에러: 표집오차(sampling error)를 먼저 보자

데이터에서 에러라고 하면 실제값과 데이터에 표시된 값의 차이를 말한다. 우리는 실제값을 모르기 때문에 에러가 얼마인지 정확히 알 수는 없다. 다만 설문지와 표집 방법 등 조사 방법을 보고 발생할 수 있는 에러의 종류와 크기를 추정할 수 있다. 데이터가 공개될 때는 이러한 수집 방법 등 관련된 정보가 소위 메타데이터라고 해서 같이 제공된다. 메타데이터란 데이터에 관한 데이터라고 해서 데이터를 이해하고 사용하는 데 필요한 모든 정보다. 데이터와 같이 제공되는 보고서, 이용자 가이드 등에 수록되어 있다.  데이터가 갖는 에러는 여러 가지가 있는데 그중에 표집오차가 있다. 표집오차란 우리가 알고자 하는 대상 전체를 대상으로 조사되지 않고 표본을 통해서 조사될 때 나온다. 당연히 일부만 가지고 전체에 대해서 말하..

데이터를 활용하는 전문가가 되는 길

데이터를 이해하고 분석하는 능력은 데이터 주도(Data-Driven) 시대에서 각자의 전문성을 한 단계 높여줄 강력한 도구가 될 것이다. 그러나 데이터는 매우 다양하다. 전통적인 숫자로 된 데이터부터 텍스트, 이미지 등 많은 형태의 데이터가 있으며, 데이터의 형태에 따라 전용 도구들도 개발되어 있고, 분석기법도 다양하다. 이 모든 것을 다 알 수는 없다. 나한테 필요한 기술만 익히면 되는데, 무엇을 해야 할 지 선택하는 것도 쉽지 않다. 이용해 보지 않았고, 또 잘 모르기 때문에 무엇이 필요한지조차 파악하기 어렵다. 1. 분석 도구보다 데이터 이해력이 먼저다  우선 성급하게 분석 도구를 배우려 하지 말고, 데이터를 판단하고 분석 결과를 이해하는 능력부터 키우는 것이 중요하다. 나쁜 데이터에서 좋은 정보가..

데이터 시대의 필수 역량: 데이터 문해력 (데이터 리터러시)을 갖추자

데이터 홍수 속에서 길을 잃지 않으려면  우리는 지금 데이터 홍수 시대를 살아가고 있다. 통계청에서 발표하는 국가 통계만 해도 1,300종이 넘고, 공공데이터 포털에서는 7만 5천 건에 달하는 데이터 파일이 제공된다. 데이터를 전문적으로 기탁 받아 이용자가 활용할 수 있도록 지원하는 데이터 기탁소 (data repository)는 2025년 3월 기준 전 세계에 2,300 곳이 넘는다. 게다가 스마트폰, 소셜 미디어, 각종 센서를 통해 방대한 데이터가 끊임없이 쌓이고 있다.   그러나 데이터 자체는 원석(原石)과 같다. 아무리 많은 데이터를 가지고 있어도, 내가 그 데이터 안에서 의미 있는 정보를 추출하지 않으면 아무런 가치가 없다. 데이터는 가지고 있는 것이 중요한 것이 아니라 어떤 정보를 추출할 수 ..