박경만 한서대학교 교수.
박경만 한서대학교 교수.

4차산업혁명을 앞둔 시대, 소셜미디어가 동맥이라면 데이터는 ‘피’(血)와 같다. 특히 대량(volume)의 빠른 속도(velocity)로 유통되는 다양한 형태(variety)의 데이터 모형, ‘빅데이터’가 모바일 혁명의 생존 도구로 회자된다. 20년 전 미국의 애널리스트 더그 래니가 처음 만든 용어이기도 하다. 특히 스마트폰이나 태블릿PC 등 모바일 기기가 소셜미디어 세계를 주도하며 데이터는 무한 증식을 반복하고 있다. 빅데이터 전문가들에 의하면 지구촌 디지털 데이터의 약 70%가 모바일 기기에 의한 소셜미디어 등을 통해 사용자가 생성한 정보다. 

페이스북이나 유튜브의 공식통계에 따르면 매일 500년 분량의 유튜브 동영상이 페이스북을 통해 생성되며, 1분마다 700개 이상의 유튜브 동영상이 트위터에서 공유된다. 그리곤 매일 2억5천만 건 이상의 트윗이 발생한다. 페이스북의 경우 매일 2억장 이상의 사진이 업로드된다. 그 용량 또한 ‘빅’(Big)에 걸맞은 수준이다. 기존의 대수학 개념으론 상상키 어려운 규모의 데이터가 지구촌 곳곳에서 생성되고 있는 것이다. 2010년 전세계에서 생성 내지 복제된 디지털 데이터가 제타바이트, 즉 1조 기가 바이트를 넘어섰고, 이듬해에 그 두 배에 이르렀다고 하니, 10년이 지난 현재는 수 천 배의 요타바이트(YB) 수준으로 추정될 만도 하다.

한편으론 그런 무한 증식이 갖는 부정적 측면도 크다. 자칫 소통을 왜곡시키고, 가짜정보나 프라이버시를 침해하는 내용들을 무작위로 확산시키기도 한다. 빅데이터를 생성하는 알고리즘도 문제다. 아무리 공정하다고 여겨지는 모형들에도 특정 인간의 특정 의도와 이념이 투영된다. 심지어는 개발자 뜻에 따라 왜곡된 모형이 그대로 통용되고, 신뢰성있는 데이터가 고의로 배제되기도 한다. 단지 자신에게 필요한 가정들을 검증없이 재생산하고, 그 가정들을 확인하고 강화하는 데이터만 정형화하는 것이다. 수학자 캐시 오닐은 이에 대해 “그 결과는 추악한 예측모형”이라고 했다. 나아가선 “제도적 불공평에 의해 강화되며, 송․수신하고픈 주파수 대역 이외의 것들은 걸러버리는 확증편향(confirmation bias)으로 얼룩진 알고리즘만 양산한다.”며 이른바 ‘대량살상수학무기’의 폐해를 지적하기도 했다. 

그럼에도 불구하고 빅데이터와 이를 위한 데이터 채굴, 즉 ‘데이터 마이닝’(Data Mining) 역량은 모바일 혁명기의 경제 주체에겐 필살기나 다름없다. 모바일 기기를 통해 유통된 수많은 정보들, 그 자체만으론 한낱 파편화된, 찰나적 기호일 뿐이다. 그러나 이것들이 데이터 처리 과정을 거치는 순간, ‘의미’를 갖게된다. 의미론(semantics)적 가치를 지닌 생성과 창조의 재료로 거듭나는 것이다. 트윗과 페이스북의 무수한 낱개의 ‘팩트’가 재가공, 분석되면서, 이는 새로운 생명력을 갖는 데이터가 된다. 중요한 의사 결정 정보로 제공되고, 정부와 기업, 산업의 기능이나 유전자를 바꿔놓는 것이다.

날것의 ‘팩트’ 중엔 계량화가 쉬운 수치나 숫자도 많겠지만, 텍스트화된 비정형 데이터가 그 보다 더 많은 비중을 차지한다. 그래서 ‘데이터 마이닝’이 관건이 된다. 날것의 가공되지 않은 것들(‘잉걸’)에 숨겨진 진짜 의미를 캐는 것이다. 즉 재화와 서비스, 또 다른 부가가치를 생성 내지 생산할 수 있는 정보로 재구성하고 재생하는 것이다. 그래서 무한증식되고 있는 데이터를 누가 얼마나 알차게 분류하고 해석하며, 재단하느냐가 기업 경영과 정부 운용의 치명적 조건이 되곤 한다. 

구글과 아마존은 전 세계 소셜미디어에 범람하는 데이터의 광맥을 캐내는 일에 있어서도 역시 최고다. 타의 추종을 불허하는 데이터 마이닝 시스템을 갖추고 있는 것이다. 다만 둘 사이엔 차이가 있다. 구글은 수많은 로봇 프로그램을 활용, 인터넷의 바다를 떠도는 데이터를 긁어(Crawling) 모은다. 이에 비해 아마존은 세계 최대의 온라인 서점에 기반을 둔 기업답게 ‘기록하는’(Logging) 방법을 구사한다. 책이나 상품을 구매하는 소비자가 입력한 정보나 구매한 상품, 책의 종류 등을 빠짐없이 기록해두고 분석한다. 이는 트윗이나 페이스북 같은 기업들도 비슷하다. 친구들과 소통하기 위해 남긴 활동 자체를 기록으로 보존하고, 분석함으로써 기업 경쟁력의 원천으로 삼는 것이다.

소셜미디어를 통해 무한 증식되는 온갖 데이터를 어떻게 잘 번역하고 재창조해낼 것인가?  4차산업혁명기를 앞둔 산업 주체들의 경쟁력은 결국 이 대목에서 결정된다. 무한대의 ‘팩트’를 놓고, 그 의미를 정확히 조준하고 분석, 추출하는 능력이 산업세계의 승부를 가른다고 할까. 다시 말해 날것의 가공되지 않은 것들의 산업 생태적 의미를 캐내는 ‘데이터 마이닝’ 능력이 생사를 결정하는 것이다. 이는 장차 기업과 산업을 지배할, 하이퍼텍스트한 의사결정 구도의 승자가 되는 길이다. 나아가선 모바일 혁명기의 주체가 되는 무기도 된다.

박경만<한서대 교수>
 

저작권자 © 애플경제 무단전재 및 재배포 금지