[인사이트] 김소영 기자 = 2021년 하반기 사이언스북스 신간으로 출간되는 'R 통계의 정석'은 김종엽 교수가 빅 데이터 연구의 권위자로서, 빅 데이터의 올바른 활용을 위해 선결되어야만 하는 프로그래밍 언어 R의 사용법을 자신의 유튜브 채널에서 3년간 강의한 내용과, 건양 대학교 의과 대학 학생들에게 진행한 수업 내용을 책으로 엮은 결과물이다.
2020년 3월 세계 보건 기구(WHO)의 첫 선언 이후 전 세계적 범유행 2년 차에 접어든 코로나19. 델타, 뮤 변이와 돌파 감염의 존재로 백신 접종만으로는 집단 면역 달성이 불가능하다는 사실이 명확해진 지금, 전염병과 공존하는 '위드 코로나'를 넘어 '비욘드 코로나'로 가기 위한 인류의 무기 중 하나로 떠오르는 존재가 있으니 바로 빅 데이터이다.
빅 데이터란 '빅 데이터 프로세싱'을 편의상 줄여 쓰는 말로, 과거에는 알 수 없었던 매우 사소한 정보까지도 디지털로 모두 기록되는 정보화 시대에서 폭증하는 방대한 데이터를 관리하고 분석해서 유용하게 사용하는 기술을 의미한다.
이 빅 데이터 기술을 전염병 방역 및 확진자 진단과 접목할 경우, 휴대전화 이용 정보와 통신사 기지국 정보 등을 파악해 5분 간격으로 인구 밀집 지역을 예측하고 감염 요인을 선제적으로 차단하는 시스템이나 가슴 엑스선 촬영만으로 코로나19 감염 여부를 80퍼센트의 정확도로 신속하게 진단할 수 있는 기술이 가능해진다.
비단 방역과 진단뿐만 아니라, 전염병 치료의 차원에서도 확진자 데이터를 이용한 사망 위험 예측 모델로 제한된 의료 자원을 효율적으로 관리하거나 백신 개발의 과학적 근거로 쓰이는 등, 메디컬 빅 데이터의 활용도는 가히 무궁무진하다고 할 수 있다.
컴퓨터에 익숙하지 않은 의과 대학생을 대상으로 한 이 수업에서, 그는 작업 전 원자료를 정리하고 오류를 줄이는 과정부터 R에 데이터를 불러오는 방법, R을 활용해 그래프를 생성하고 상관 분석, 푸아송 분석, 생존 분석 같은 각종 분석을 하는 방법까지 메디컬 빅 데이터 연구에 필요한 모든 과정을 총 17개의 강의에 녹여냈다.