우리는 데이터 홍수 시대에 살고 있다.
사회 문제에 대한 ‘객관적 근거’로서 통계 분석 결과가 제공된다. 데이터와 통계 분석에 대한 신뢰는 근대과학 형성과 관련이 깊다. 근대과학은 관측 데이터, 또는 실험을 통해 생산한 데이터를 분석해 복잡다단한 현상을 지배하는 일반 법칙을 찾아냈다. 과학 법칙은 양적 데이터에 기반하므로 객관적이고, 현상을 예측할 수 있으므로 믿을 만하다. 통계학 발전에 따라 과학 데이터보다 불규칙하고 무질서해 보이는 사회 현상 관련 데이터 또는 인간 관련 데이터를 분석할 수 있게 됐다. 통계분석을 도입하면서 사회 현상에 관한 연구는 객관적이고 예측할 수 있는 법칙으로 구성된 사회‘과학’이 됐다.
통계적 접근의 유용성을 대중에 확실히 보여 준 예 가운데 하나는 런던의 콜레라 환자 통계다. 19세기에만 여러 차례 콜레라 대유행이 발생해 많은 사람이 죽었다. 1854년 런던에 또다시 콜레라가 대규모로 발생했다. 의사 존 스노는 런던의 지역별 환자 발생 분포를 조사했고, 특정 지역에 환자가 집중 발생한 것을 발견했다. 콜레라 감염 원인이 물이라는 가설을 적용해 분석한 결과 그 지역에만 공급된 템스강의 오염된 물이 원인임을 밝혔다. 그는 해당 회사 물 공급을 중지시켜 콜레라 환자 추가 발생을 막을 수 있었다.
정보기술(IT) 발전에 힘입어 활용 가능한 데이터 종류와 범위, 그리고 통계분석 방법이 놀랄 만큼 발전했다. 사람들이 일상에서 임의로 만들어 내는 엄청난 양의 콘텐츠조차 그냥 콘텐츠 더미가 아니라 분석 가능하고 유용한 빅데이터가 됐다. 데이터 시대라고 할 만하다.
그런데 우리는 데이터 시대를 살아갈 준비가 됐을까? 산업혁명기에 경제가 성장하고 신문, 잡지, 책 등 대중이 정보를 얻는 수단으로서 인쇄물이 폭발적으로 증가했을 때 읽고 쓰는 능력은 모두에게 필요한 소양이 됐다. 마찬가지로 데이터 폭발 시대를 살고 있는 우리는 기초 소양으로서 데이터를 읽고 이해하는 능력, 즉 데이터 문해력이 필요하다. 데이터 문해력은 데이터 분석 결과를 보고 그 의미를 파악하는 능력에서 시작한다.
예를 들어 보자. 지난 몇 주간 선거 관련 여론조사 결과 보도에서 ‘전국 성인남녀 1002명, 무선전화 연결, 응답률 20.3%, 신뢰수준 95%, 표본오차±3.1%P’ 같은 문구를 자주 만났다. 데이터 문해력을 가진 사람은 이를 보고 같은 조사를 100번 하면 5번 정도는 다른 결과가 나올 수 있고, 실제 지지율은 조사 결과값 ± 표본오차의 구간에 있다는 것을 알 수 있다. 만일 표본조사 결과에 기반해 중요한 의사결정을 한다면 문해력 있는 경우 이러한 특성을 고려할 것이고 더 신중한 태도를 보일 것이다.
이제 데이터 문해력은 인쇄 시대의 문자 해독 능력과 마찬가지로 기초 소양이 됐다. 통계학을 깊게 공부해야 데이터 문해력이 생기는 것은 아니다. 그러나 확률과 통계, 데이터 과학에 대한 기초 교육은 중요하다. 우리의 중등교육 과정 또는 대학의 교양교육에서 이 영역을 코딩이나 글쓰기만큼 기초 소양으로 간주하고 있는지는 의문이다.
이은경 전북대 과학학과 교수
사회 문제에 대한 ‘객관적 근거’로서 통계 분석 결과가 제공된다. 데이터와 통계 분석에 대한 신뢰는 근대과학 형성과 관련이 깊다. 근대과학은 관측 데이터, 또는 실험을 통해 생산한 데이터를 분석해 복잡다단한 현상을 지배하는 일반 법칙을 찾아냈다. 과학 법칙은 양적 데이터에 기반하므로 객관적이고, 현상을 예측할 수 있으므로 믿을 만하다. 통계학 발전에 따라 과학 데이터보다 불규칙하고 무질서해 보이는 사회 현상 관련 데이터 또는 인간 관련 데이터를 분석할 수 있게 됐다. 통계분석을 도입하면서 사회 현상에 관한 연구는 객관적이고 예측할 수 있는 법칙으로 구성된 사회‘과학’이 됐다.
통계적 접근의 유용성을 대중에 확실히 보여 준 예 가운데 하나는 런던의 콜레라 환자 통계다. 19세기에만 여러 차례 콜레라 대유행이 발생해 많은 사람이 죽었다. 1854년 런던에 또다시 콜레라가 대규모로 발생했다. 의사 존 스노는 런던의 지역별 환자 발생 분포를 조사했고, 특정 지역에 환자가 집중 발생한 것을 발견했다. 콜레라 감염 원인이 물이라는 가설을 적용해 분석한 결과 그 지역에만 공급된 템스강의 오염된 물이 원인임을 밝혔다. 그는 해당 회사 물 공급을 중지시켜 콜레라 환자 추가 발생을 막을 수 있었다.
정보기술(IT) 발전에 힘입어 활용 가능한 데이터 종류와 범위, 그리고 통계분석 방법이 놀랄 만큼 발전했다. 사람들이 일상에서 임의로 만들어 내는 엄청난 양의 콘텐츠조차 그냥 콘텐츠 더미가 아니라 분석 가능하고 유용한 빅데이터가 됐다. 데이터 시대라고 할 만하다.
그런데 우리는 데이터 시대를 살아갈 준비가 됐을까? 산업혁명기에 경제가 성장하고 신문, 잡지, 책 등 대중이 정보를 얻는 수단으로서 인쇄물이 폭발적으로 증가했을 때 읽고 쓰는 능력은 모두에게 필요한 소양이 됐다. 마찬가지로 데이터 폭발 시대를 살고 있는 우리는 기초 소양으로서 데이터를 읽고 이해하는 능력, 즉 데이터 문해력이 필요하다. 데이터 문해력은 데이터 분석 결과를 보고 그 의미를 파악하는 능력에서 시작한다.
예를 들어 보자. 지난 몇 주간 선거 관련 여론조사 결과 보도에서 ‘전국 성인남녀 1002명, 무선전화 연결, 응답률 20.3%, 신뢰수준 95%, 표본오차±3.1%P’ 같은 문구를 자주 만났다. 데이터 문해력을 가진 사람은 이를 보고 같은 조사를 100번 하면 5번 정도는 다른 결과가 나올 수 있고, 실제 지지율은 조사 결과값 ± 표본오차의 구간에 있다는 것을 알 수 있다. 만일 표본조사 결과에 기반해 중요한 의사결정을 한다면 문해력 있는 경우 이러한 특성을 고려할 것이고 더 신중한 태도를 보일 것이다.
이제 데이터 문해력은 인쇄 시대의 문자 해독 능력과 마찬가지로 기초 소양이 됐다. 통계학을 깊게 공부해야 데이터 문해력이 생기는 것은 아니다. 그러나 확률과 통계, 데이터 과학에 대한 기초 교육은 중요하다. 우리의 중등교육 과정 또는 대학의 교양교육에서 이 영역을 코딩이나 글쓰기만큼 기초 소양으로 간주하고 있는지는 의문이다.
이은경 전북대 과학학과 교수
이은경 전북대 과학학과 교수
2024-04-12 30면
Copyright ⓒ 서울신문. All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지