데이터를 이해하고 분석하는 능력은 데이터 주도(Data-Driven) 시대에서 각자의 전문성을 한 단계 높여줄 강력한 도구가 될 것이다. 그러나 데이터는 매우 다양하다. 전통적인 숫자로 된 데이터부터 텍스트, 이미지 등 많은 형태의 데이터가 있으며, 데이터의 형태에 따라 전용 도구들도 개발되어 있고, 분석기법도 다양하다. 이 모든 것을 다 알 수는 없다. 나한테 필요한 기술만 익히면 되는데, 무엇을 해야 할 지 선택하는 것도 쉽지 않다. 이용해 보지 않았고, 또 잘 모르기 때문에 무엇이 필요한지조차 파악하기 어렵다.
1. 분석 도구보다 데이터 이해력이 먼저다
우선 성급하게 분석 도구를 배우려 하지 말고, 데이터를 판단하고 분석 결과를 이해하는 능력부터 키우는 것이 중요하다. 나쁜 데이터에서 좋은 정보가 나오기 쉽지 않다. 분석기술로 데이터 품질을 좋게 만들 수 있는 것은 아니다. 데이터를 평가하거나 분석 결과를 해석하는 것은 분석하는 것만큼 코딩이나 기술이 필요한 것은 아니다. 그리고 데이터는 내가 직접 분석해야만 하는 것은 아니다. 그리고 분석기술이 좋다고 해서 데이터를 평가할 수 있는 안목이 생기는 것도 아니다.
둘째, 데이터 활용 과정에서 발생하는 오류들도 알아둘 필요가 있다. 예컨대 환자들의 병원 만족도를 조사해서 사용하면서 병원들이 과잉 진료를 하는 경향이 나타났다고 한다. 즉 환자 만족도를 조사하는 것 자체가 병원들의 진료행위에 영향을 주는데, 그것이 반드시 긍정적인 것만은 아니라는 것이다. 또 데이터의 수집이나 활용 과정에서 윤리적인 문제가 발생할 수도 있다.
따라서 데이터를 사용이 원래 의도한 효과를 거두려면, 데이터의 수집과 분석 그리고 해석만 잘한다고 것만으로는 부족하다는 것이다. 그래서 먼저 이러한 것을 판단할 역량을 키우는 것이 중요하다.
2. 기본 원칙과 알고리즘을 익히자
두 번째로 데이터 분석의 중요 알고리즘과 기본 원칙들을 알아두는 것이 중요하다. 이를 위해 많은 기법을 모두 이해할 필요는 없다. 그리고 고도의 통계학지식이 필요하지도 않다. 그리고 이것을 알아두는 데 많이 시간이 걸리지 않는다. 관심을 가지고 몇 시간만 집중하면 기본적인 원칙을 이해할 수 있다. 그런데 이것을 아는 것과 모르는 것은 차이가 크다.
데이터 분석의 기본적인 원칙과 주요 기법과 알고리즘을 이해하고 나면 비록 직접 분석하지는 못할지라도 어떤 데이터를 어떻게 활용해야 하는지에 대해서 판단을 내릴 수 있게 된다. 즉 데이터 활용 감각을 가질 수 있다. 이것이 데이터를 직접 분석하는 기술보다 훨씬 더 중요하고 기초적이다.
3. 분석 도구를 선택해 활용하자
세 번째로 이렇게 하고 나서 분석 도구를 선택해서 활용하기 시작해야 한다. 물론 분석을 직접 하지 못해도 좋지만, 자신이 직접 할 줄 알면 섬세하게 원하는 정보를 추출할 수 있고, 또 분석 전문가와 협업할 때 의사소통이 원활하게 된다. 물론 인공지능을 활용할 때도 더 세밀하게 제어할 수 있다. 분석 도구를 배운다고 해서 직접 데이터를 다 분석해야 하는 것은 아니다. 직접 분석해 보는 것이 효과적인 학습 방법이 되기도 한다. 필요한 데이터 분석은 전문가에게 맡길지라도 데이터의 특성이나 결과를 해석할 때 분석해 본 경험이 많은 도움이 된다.
앞서 말한 두 가지는 공부하기 위해 기술이 필요한 것은 아니다. 다만 분석을 직접 해 보기 위해서는 적절한 분석 도구를 골라야 한다. 하루가 다르게 쉽게 사용할 수 있으면서도 분석력이 뛰어난 도구들이 개발되고 있다. 그래서 너무 먼 미래를 보고 선택할 필요 없이 현재의 필요성을 보고 선택하는 것이 좋을 듯하다. 가용한 도구 중에서 용도 무엇보다 사용 빈도를 고려해서 선택하는 것을 권하고 싶다. 도구는 내가 하고 싶은 일을 잘 하도록 도와주는 것이다. 따라서 도구 자체에 너무 많은 시간과 자원을 투입하는 것은 합리적이지 않다. 직업이 데이터 과학 분야에 일하는 사람이 아니라면 데이터 분석은 나의 전문성을 높여주는 도구지 데이터 분석 자체가 목적은 아니다. 그럼에도 도구의 선택은 중요하고 그래서 먼저 사용해 본 사람들의 도움을 받을 수도 있다. 그런데 대부분 자기가 주로 사용하는 도구에 대해서만 잘 아는 것이지 사용하지 않는 도구에 대해서는 정확하게 판단할 수 없다. 직접 사용도 해 보고, 전문가의 의견도 들어보아야 한다. 도구를 잘 고르면 학습 효율도 높을 뿐만 아니라 무엇보다 데이터 활용이 즐겁게 된다.
4. 데이터 시각화를 익히자
마지막으로, 데이터 시각화에 대해서 잘 알아둘 필요가 있다. 특히 시각적으로 표현된 정보를 이해하고 판단할 줄 아는 능력이 필요하다. 시각 정보는 글이나 표로 작성된 정보보다 쉽게 그 의미를 이해할 수 있지만 그만큼 잘못 이해할 가능성도 높기 때문이다. 제공자가 의도적으로 편향된 정보를 제공하는 때에 더욱 그렇다.
시각화 역량을 갖추면 데이터의 이해와 활용에 도움이 된다. 특히 분석하고 해석한 결과를 다른 사람에게 제시하는 데 효과적이다. 데이터 분석 도구들은 대부분 그래프 기능을 갖추고 있어서 자연스럽게 시각화를 어느 정도 할 수는 있다. 또 그래프를 이용하면 데이터의 특성을 쉽게 파악할 수도 있다. 통계기법으로 분석하는 것 보다 그래프로 분석하는 게 더 쉽다. 이런 목적의 시각화 도구는 통계분석 도구들이 갖추고 있다.
이 외에도 알아두면 데이터의 활용에 도움이 될 도구와 지식들이 많이 있다. 그렇지만 사용하지 않으면 사라진다. 가까운 시점에서 사용할 가능성이 있는 도구와 기법 중심으로 익혀나가는 것을 권한다.
'데이터 리터러시' 카테고리의 다른 글
데이터 분석도구: 내 용도에 맞는 것을 선택하자 (0) | 2025.03.07 |
---|---|
데이터 에러: 표본이 커도 줄어들지 않는 에러가 있다 (0) | 2025.03.07 |
데이터 에러: 표집오차(sampling error)를 먼저 보자 (0) | 2025.03.07 |
가로형 데이터와 세로형 데이터 (0) | 2025.03.07 |
데이터 시대의 필수 역량: 데이터 문해력 (데이터 리터러시)을 갖추자 (0) | 2025.03.07 |