트렌드> 생활 속 빅데이터

빅데이터(bigdata)란 무엇인가
인터넷을 필두로 한 디지털 시대가 열리면서 과거에는 존재하지 않았던 많은 양의 정보들이 생겨났다. 특히 모든 사람이 각종 모바일 기기를 온종일 사용할 수 있게 되면서 정보의 양은 어마어마하게 방대해졌다. 하지만 여기서 말하는 정보는 우리가 인터넷을 통해 얻고 있는 정보들을 말하는 것이 아니다. 자료 검색, 쇼핑, 금융 거래, 교육, SNS 등 우리가 인터넷으로 하는 모든 일들의 흔적들이 만들어낸 정보를 말하는 것이다. 수많은 사람이 만들어내는 이러한 정보들은 빅데이터를 만드는 가장 기본적인 재료가 된다. 물론 ‘진주가 서 말이라도 꿰어야 보배’라는 말처럼 그저 많은 정보를 수집했다고 해서 이를 빅데이터라고 부르지는 않는다. 보통 빅데이터를 정의할 때 3V라는 용어를 사용하는데 이는 데이터의 규모(Volume), 다양성(Variety), 속도(Velocity)를 뜻한다. 결국, 빅데이터는 ‘다양한 대용량의 정보들을 효과적으로 분석하여 가치를 만들어내는 기술’이라고 말할 수 있다. 

 

빅데이터의 활용

빅데이터에 대한 사람들의 관심이 쏟아지기 시작한 것은 2012년, 미국 대선에서 재선에 성공한 버락 오바마의 선거 캠프가 빅데이터를 적극적으로 활용했다는 것이 알려지면서부터다. 오바마 측은 대선이 있기 2년 전부터 빅데이터 분석팀을 결성하고 각종 시뮬레이션 작업을 거듭하며 대선을 준비했다. 이들은 오바마를 지지하는 사람, 지지하지 않는 사람, 지지후보를 결정하지 않은 사람 그리고 투표하러 갈 사람, 투표하러 가지 않을 사람 등 다양한 방식으로 유권자를 구분했을 뿐만 아니라 유권자가 구독하는 잡지나 즐겨 마시는 음료수까지 분석하여 선거 운동에 활용했다. 이를 통해 유권자들은 오바마 캠프로부터 개인의 성향을 고려한 ‘맞춤형 이메일’을 받게 되었다. 아이가 있는 여성은 오바마의 보육 및 교육 정책, 노인은 노인 복지 및 의료 정책, 환경에 관심이 있는 사람은 환경 정책에 관한 설명이 주를 차지하고 있는 지지 호소 이메일을 받은 것이다. 오바마 캠프는 이런 ‘유권자 맞춤형 선거 전략’을 통해 기존보다 네 배나 많은 기부금을 모았을 뿐만 아니라 박빙이 될 것이라는 전문가들의 예측을 깨고 대선에서 압도적인 승리를 거두게 되었다.  

같은 해 겨울에 미국에서 독감으로 인한 사망자가 100명을 넘어서자 몇몇 지역에서 비상사태를 선포했다. 그리고 미국 질병관리예방센터 CDC는 122개 도시의 사망자를 조사하여 전체 사망자 중 7.3%가 감기와 폐렴으로 사망한 것을 파악하게 된다. 이는 질병의 유행이 시작되는 기준인 7.2%를 초과한 수치로 공식적으로 독감이 유행하고 있다는 것을 알려주는 것이다. 그러나 CDC의 조사와 보고에 앞서 인터넷 검색 업체인 ‘구글’에서는 이미 독감이 유행하고 있다는 것을 파악했으며 확산 경로까지 예측했다는 것이 알려졌다. 2008년부터 선보인 구글의 ‘독감 트렌드(Google Flu Trends)’ 서비스가 미국에 독감이 유행할 것을 예측한 것이다. 이는 구글 사용자들의 독감 관련 검색어 입력 빈도를 지역, 시기별로 파악해 독감을 예측하는 시스템으로 CDC보다 2주 정도 빠르게 독감을 파악할 수 있는 것으로 나타났다. 

우리나라에서도 빅데이터 시스템을 도입하여 국가 정책이나 기업 마케팅에 활용하는 일이 늘어났다. 최근 서울시에서 도입한 심야버스의 노선은 서울시를 1,250개의 6각형 셀로 나누어 심야에 통화가 가장 많이 발생하는 지역을 파악하고 기존의 버스 노선과 비교 분석하여 만들어진 것이다. 빅데이터에 가장 예민하게 반응하고 있는 소셜 커머스 업계에서는 사용자의 구매 이력, 장바구니 담기, 상품 클릭 이력, 유사 이용자 패턴 등을 분석하여 관련 제품을 실시간으로 추천, 판매 효과를 높이고 있다. 
2년 전, 한 편의점 브랜드에서 판매되기 시작한 빅사이즈 요구르트도 빅데이터의 분석 결과가 낳은 상품이다. 지난 3년간의 음료 매출 데이터를 통해 요구르트의 주 구매층이 2, 30대 여성이라는 점, 한 번에 여러 개를 사서 한꺼번에 마시는 사람이 많다는 점에 착안, 일반 요구르트의 5개에 가까운 270mL짜리 빅사이즈 요구르트를 생산하기로 한 것이다. 제조업체에서는 상품성이 떨어진다고 우려했지만 한 달도 안 되어 매장 내 발효유 제품 판매 1위에 오르는 기염을 토했고 그 순위는 지금까지도 유지되고 있다. 
 

내 정보가 수집 된다

 

고등학생 딸이 있는 가정에 한 대형 슈퍼마켓의 우편물이 날아왔다. 그것을 본 아버지는 그 회사에 전화를 걸어 심하게 항의했다. 딸의 이름으로 도착한 우편물에는 유아용품 쿠폰이 들어있었기 때문이다. 아버지는 고등학생 딸의 임신을 부추기는 것이냐며 불쾌해했고 전화를 받은 직원은 미안하다고 사과했지만, 며칠 후 아버지는 다시 그 회사에 전화를 걸어 정중하게 사과했다. 자신의 딸이 임신했다는 사실을 알게 되었던 것이다. 한지붕 아래 사는 부모보다 슈퍼마켓이 먼저 딸의 임신을 알게 된 것은 그녀가 임신한 여성들이 주로 사용하는 물건들을 사들였기 때문이다. 미국에서 실제로 있었던 이 사례는 빅데이터가 어떻게 사용될 수 있는지를 단적으로 보여준다. 사람들의 행동 패턴이나 관심사를 파악하여 상품 개발이나 마케팅에 활용될 수 있지만 반대로 개인정보와 사생활이 필요 이상으로 노출될 위험도 존재하고 있는 것이다. 특히 주민등록번호만 알면 사실상 모든 정보가 노출되다시피하는 우리나라의 경우는 이에 대한 대비가 더욱 철저히 이루어져야 할 것이다.  

인터넷 검색을 하고, SNS에 접속하고, 쇼핑을 하고, 동영상을 보고, 은행 거래를 하는 등 다양한 일들이 인터넷을 통해 가능해지면서 이젠 집 밖에 나가지 않아도 무엇이든 할 수 있는 세상이 되었다고 말하는 사람들이 있다. 그러나 반대로 누군가는 집안에 머무르고 있는 내가 무엇을 하고 있는지를 인터넷을 통해 들여다보는 것이 가능해졌다는 의미도 된다. 그래서 사람들은 종종 조지 오웰의 ‘1984’에 등장하는 절대 권력의 감시체계인 ‘빅브라더’와 ‘빅데이터’를 비교하기도 한다. 어마어마한 정보가 누구의 손에서 어떻게 사용되느냐에 따라 개인은 물론 우리 사회까지 큰 타격을 받을 수 있기 때문이다. 이에 많은 이들이 빅데이터가 가져올 많은 이점을 거론하기에 앞서 이를 활용하는 방법과 목적에 대한 논의가 선행되어야 한다고 주장하고 있다. 또한, 빅데이터의 수치에 압도되어 우리 자신을 정형화시켜 판단하는 일이 벌어지지 않도록 경계하는 현명함을 잃지 않도록 해야 할 것이다.  

<월간탁구 2016년 6월호 게재>

저작권자 © 더 핑퐁 무단전재 및 재배포 금지