default_top_notch
default_setNet1_2

빅데이터 분석 핵심은 ‘데이터 사이언스’

기사승인 2020.09.14  12:49:18

공유
default_news_ad1

빅데이터와 소셜 네트워크의 부상 등으로 데이터 사이언스에 대한 관심이 증가했다. 최근 코로나19 팬데믹 현상을 막기 위해 세계 곳곳에서까지 활용되고 있는 데이터 사이언스에 대해 알아보자.

데이터 사이언스란
 데이터 사이언스는 대용량 데이터로부터 지식과 디지털 해결책을 얻기 위해 과학적 방법론, 알고리즘 등을 동원하는 포괄적인 융합 분야다.
 이 분야의 가장 큰 특징은 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 둔다는 점이다. 데이터 과학자는 이 점을 이용해 빅데이터를 정제·분석하는 일을 한다.

데이터 사이언스 업무
 데이터 사이언스를 이용해 해결책을 얻고 싶다면 전문적인 체계를 갖춰야 한다. 기본적인 데이터 사이언스의 작업 흐름은 데이터를 수집하고 이를 이해하는 과정, 추상화 과정을 거친다. 이후 다양한 데이터를 활용한 군집화, 이상 탐지, 연관 규칙 마이닝, 예측 등과 같은 표준적인 데이터 업무를 거쳐 결과를 산출한다.
 최종작업에서는 사람이 최종 소비자가 되는 보고서/대시보드와 기계가 최종 소비자가 되는 API/코드 형태로 도출하는 과정을 거친다.

각각의 업무를 수행하는 데이터 사이언스 팀
 데이터 사이언스 팀은 크게 4가지 역할로 나눌 수 있다. 먼저 데이터를 저장하고 관리하는 역할의 데이터 엔지니어, 탐색적 데이터를 분석하는 데이터 분석가, 통계학 기반 실험과 통계 모형을 개발을 중점적으로 하는 데이터 과학자, 기계학습모형 개발의 기계학습데이터 과학자로 나뉜다.


바이러스를 추적하는 데이터 사이언스 프로젝트
 현재 데이터 사이언스 프로젝트는 기존 데이터 사이언스와 다르다. 과학자들이 코로나19의 해결 방안을 모색하기 위해 데이터 사이언스를 활용하면서 본래의 성격을 바꾸고 있기 때문이다. 과거 데이터 사이언스 시스템의 경우 코로나19 감염자, 사망자, 병적인 상태 등을 중심으로 데이터를 수집해 왔다. 즉 수집한 데이터를 분류해 그 차이점을 찾아내고 각 분야에서 대처 방안을 찾아 나가는 방식이다.
 최근 진행되고 있는 데이터 사이언스 프로젝트는 포괄적 데이터 사이언스 시스템이다. 분석 대상은 바이러스를 구성하고 있는 단백질에서부터 사람들의 움직임, 교통체증 등까지 광범위하다. 또한 감염 및 의료, 방역 상황 등의 빅데이터를 활용한 정책 수립, 바이러스와 관련된 과학자들의 연구 활동, 그리고 의료계의 환자 진단과 치료 등을 최종목표로 두고 있다.

최수빈 수습기자 gc5994@daum.net

<저작권자 © 가천대신문 무단전재 및 재배포금지>
default_news_ad4
default_side_ad1

인기기사

default_side_ad2

포토

1 2 3
set_P1
default_side_ad3

섹션별 인기기사 및 최근기사

default_setNet2
default_bottom
#top
default_bottom_notch