sema 웹진

스마트 기기의 보급이 늘어나면서 누구나 하나 이상의 화면을 가지고 다니는 요즘 상황을 ‘엔스크린(N-Screen)의 시대’라 한다. 거실에서 TV를 볼 때도 온 가족이 대형 화면에만 집중하는 것이 아니라 각자 스마트폰과 태블릿을 들고 있다. 오늘 새로 등장한 저 신인 배우의 이름이 무엇인지, 디자인이 예쁜 저 목걸이는 어디서 살 수 있는지, 이 다음에 방영되는 프로그램은 무엇인지, 다른 시청자들은 방금 전 드라마 속 사건에 대해 어떻게 생각하는지 검색하기 바쁘다.

‘N스크린’은 N명의 사람이 있다면 당연히 N개 이상의 화면이 모이고 각자 자기의 전용 화면을 쳐다본다는 뜻이다. 이제는 운동경기에도 엔스크린이 유행하고 있다. 딴 짓을 하는 것이 아니라 운영진이 적극적으로 권장하기 때문에 사용한다. 10월 17일부터 26일까지 싱가포르에서 진행된 여자 테니스 경기에서도 관객들은 선수들의 격한 움직임 사이마다 각자의 스마트폰을 들여다보느라 바빴다. 여자테니스협회가 공개한 애플리케이션 ‘WTA Finals(여자 프로테니스 파이널스)’ 때문이다.

인류의 생활에 흥미를 더해주는 빅데이터 기술
독일 빅데이터 솔루션 업체 에스에이피(SAP)가 개발한 이 앱은 경기와 관련된 각종 뉴스와 정보 그리고 선수별 정보와 통계를 제공한다. 관객들은 경기별로 티켓을 구매할 수 있고 실시간 여론조사 결과도 확인 가능하다. 무엇보다 방금 지나간 공의 움직임을 컴퓨터 그래픽으로 표시해서 속도와 방향을 추적할 수 있다. ‘버추얼 리플레이(Virtual Replay)’ 기능 덕분이다. 공을 받아친 위치도 실시간으로 일일이 표시해준다. TV 중계에서도 필드의 상황이 전광판이나 화면에 전달될 때까지 시간차가 있는데, 이번 싱가포르 경기에서는 잠깐의 지연도 없이 각종 정보가 관중석의 스마트폰으로 전달됐다.

기술의 핵심은 ‘하나(HANA)’ 플랫폼이다. 선수들의 테니스 라켓에 붙어 있는 센서의 움직임을 경기장 곳곳에 설치된 10대의 특수 카메라 호크아이(Hawk-Eye)가 추적해 좌표와 움직임을 알아내고 클라우드 서버로 전송한다. 이렇게 모인 방대한 양의 데이터 중에서 쓸모 있는 정보만을 골라내 분석하고 3D 방식으로 시각화한다. 이른바 ‘빅데이터(Big Data)’ 기술이다.

빅데이터 분석 기술을 스포츠 분야에 적용시킨 ‘하나’는 15년 전 우리나라에서 개발되었다. 당시 차상균 서울대 교수가 설립한 벤처 ‘팀(TIM)’을 2005년 SAP가 인수한 것이다. 덕분에 빅데이터 솔루션 분야에서 승승장구하고 있는 SAP의 사례를 보며 경쟁기업들도 기술 개발에 박차를 가하고 있다.

스포츠 경기의 관람 방식까지 바꿔놓은 ‘빅데이터’는 어떠한 기술일까. 처리해야 할 데이터의 양이 얼마나 되기에 ‘빅’이라는 이름을 붙인 것일까.

컴퓨터에 저장되는 파일의 크기를 가늠할 때는 ‘바이트(Byte)’라는 단위를 사용한다. 알파벳 한 글자가 1바이트이며 한글이나 한자는 2바이트를 차지한다. 바이트가 1천 개 모이면 킬로바이트(KB)가 된다. 짧은 글을 문서 파일로 저장하면 크기가 수십에서 수백 킬로바이트가 된다. 킬로바이트의 1천 배는 메가바이트(MB)다. 일반 이메일에 첨부할 수 있는 분량이 20메가바이트다.

메가바이트의 1천 배는 기가바이트(GB), 다시 1천 배가 커지면 테라바이트(TB)가 된다. 휴대용 USB 메모리의 용량은 기가바이트 단위이고 개인용 컴퓨터에 들어 있는 하드디스크는 테라바이트 단위다. 그렇다면 1천 테라바이트 즉 페타바이트(PB)짜리 하드디스크도 있을까. 기술적으로는 제작이 가능하지만 비용의 문제 때문에 여러 개의 테라바이트 하드디스크를 연결해 사용한다.

그만큼의 데이터 공간이 필요할까 싶겠지만 세계 각국에서 서비스를 제공하는 글로벌 기업이라면 이야기가 달라진다. 인터넷에서 오가는 글로벌 데이터의 양은 2000년대 들어 엑사바이트(EB)를 넘어섰다. 페타바이트의 1천 배다. 2010년에는 그보다 1천 배 많은 제타바이트(ZB)를 돌파했다. 개인용으로 쓰이는 1테라바이트 용량의 하드디스크를 1조 개나 모아야 하는 어마어마한 크기다. 10년이 더 흐르면 다시 1천 배를 곱한 요타바이트(YB)의 시대가 열릴 것으로 전망된다.

2014년 현재 전 세계를 오가는 데이터의 양은 5제타바이트에 육박할 것으로 추산된다. 기존의 컴퓨터 기술로는 단시간 내에 처리할 수 없을 만큼 방대한 수치다. 이렇듯 거대 데이터를 처리해 유의미한 정보를 추출하기 위해 개발된 것이 ‘빅데이터’ 기술이다. 빅데이터는 수많은 사용자가 남긴 기록이니만큼 특정한 기준을 들이대서 분석한다면 유용한 정보를 얻어낼 수 있다. 이 과정을 ‘데이터 마이닝(Data Mining)’이라 부르기도 한다. 광물이나 보석처럼 분석대상의 안쪽으로 깊게 파들어 가서 귀중한 것을 캐낸다는 의미다.

빅데이터 기술의 조건이 되는 4개의 브이(V)
데이터 마이닝을 비롯한 빅데이터 분석 기술이 효과를 발휘하는 조건으로 흔히들 4개의 브이(V)를 꼽는다.
첫째는 규모(Volume)다. 현재 빅데이터 분야에서 사용되는 데이터의 양은 평균 1테라바이트에서 1페타바이트 사이다. 그러나 시간이 흐를수록 처리해야 하는 데이터도 그만큼 빠르게 성장할 것으로 예측된다.

둘째는 다양성(Variety)이다. 빅데이터 분석에 사용되는 데이터의 종류가 그만큼 많다는 의미다. 글자로 이루어진 텍스트 데이터뿐만 아니라 소리, 음악 등의 사운드 데이터 그리고 그래픽, 사진, 동영상 등의 영상 데이터가 추가된다. 각종 센서에서 수집된 위치와 움직임도 빼놓을 수 없다. 데이터의 형태는 이제 단순한 계산법으로는 다룰 수 없을 정도로 다각화되고 있다.

셋째는 속도(Velocity)다. 빠르게 분석할 수 없다면 빅데이터라는 이름도 소용이 없다. 결과값이 산출되지 않아 마냥 기다려야 한다면 그만큼 결정이 늦어지고 대처능력도 떨어지게 된다. 기존의 데이터를 분석하는 동안에도 새로운 데이터가 끝없이 밀려드는 세상이다. 트위터를 통해 하루에 오가는 단문의 수만 해도 5억 건에 달한다. 다량의 데이터를 신속하게 분석하는 것은 빅데이터 기술의 필수조건이다.

넷째는 정확성(Velocity)이다. 분석 결과가 정확하지 않다면 아무리 노력해봐야 별 의미가 없다. 물론 어느 상황에서든 불확실성을 완전히 제거하는 것은 어렵지만 데이터를 만들어낸 사람들의 상황을 정확히 반영할수록 신뢰도가 높아지고 기술이 유용해지는 것은 당연하다. 앞의 3가지 조건은 지속적으로 충족되고 있지만 정확성만큼은 획기적으로 높이기가 힘들다.

‘인터스텔라’와 ‘그래비티’처럼 우주여행을 소재로 한 영화가 인기를 얻고 있지만 실제 기술이 그보다 더디게 발전하는 것도 정확성이라는 조건 때문이다. 우주에서는 아주 작은 계산 오류만으로도 치명적인 결과를 초래하기 때문에 현란한 기능을 가진 최신 컴퓨터가 아닌 느리더라도 정확한 방식으로 작동하는 구형 컴퓨터를 탑재한다.

감성 기반의 데이터는 숫자로 표현되는 계산식과는 전혀 다른 방식으로 분석해야 한다. 인간의 감정은 복잡미묘하기 때문에 더하고 곱하고 나누는 기존의 방법으로는 유의미한 정보를 추출해낼 수가 없다. 컴퓨터 과학이나 전산학의 범위를 넘어서 언어학, 사회학, 심리학 등 타 학문과 적극적으로 융합하고 연계해야만 효율을 높이고 해결책을 찾을 수 있을 것이다.

위와 같은 4개의 조건을 모두 만족시켜야만 빅데이터 기술이 완성된다. 데이터의 선별과 정보 처리의 방식뿐만 아니라 결과에 대한 분석까지 어느 하나 쉬운 것이 없다. 그러나 급변하는 현대사회의 원인이자 현상이 되는 수많은 영향 요소들을 빅데이터 기술을 통해 제대로 분석해낸다면 인류는 전에 없던 거대한 힘을 가지게 된다. 일상생활이나 산업현장에서의 발전은 당연하고 자연과 우주에 이르기까지 온갖 분야에서 흥미진진한 일들을 겪게 될 것이다. 빅데이터 기술을 ‘미래의 창’이라 부르는 이유다

글 : 임동욱 사이언스타임즈 기자