‘공공데이터’ 개방, 민간 널리 활용, 첨단 알고리즘으로 유용한 정보 구축․공유

데이터 마이닝을 통해 산업 현장과 사회간접자본 등에 적극 활용하는 움직임은 특히 공공데이터 분야에서 두드러지고 있다. 특히 공공데이터를 활용한 창업 및 일자리 창출과 관련 산업 활성화의 사례가 적지 않다. 공공데이터를 활용한 아이디어만 있으면 사업화와 창업으로 이어질 수 있도록 지원하는 공간을 전국 각지에 만들고 있다. 
▲ 창업과 일자리 창출=현재 서울 숙명여자대학교 창업보육센터를 비롯, 부산 해운대 센텀기술창업타운, 강원 창조경제혁신센터, 대전 창조경제혁신센터, ‘오픈스퀘어-D 대구’ 등이 있다. 이들 지역에선 빅데이터를 활용하여 컨설팅·교육·입주공간 등 창업 단계별로 종합 프로그램을 제공하고 있다.
그 중 ‘오픈스퀘어-D 대구’의 경우 영남권 일대 공공데이터 기업 창업을 도모하고, 일자리‧경제창출 효과를 기대한다는 취지다. ‘open Square D’라는 이름 자체가 공공데이터를 활용한 창의적 아이디어가 모이는 열린 공간이란 뜻의 데이터(Data), 꿈(Dream), 디자인(Design) 등을 의미한다. 수많은 아이디어가 데이터로 구체화 되고 결실을 맺는다는 뜻이기도 하다. 이곳에선 공공데이터를 활용한 혁신적인 아이디어만 있으면 누구나 입주공간·데이터 제공, 교육·컨설팅, 투자유치 등 체계적인 창업 및 사업화 지원을 받을 수 있다. 

데이터 기반 창업을 바탕으로 자율주행, 스마트 그리드, 지능형 CCTV 등 데이터가 핵심인 4차 산업 관련 기업 집적지로서 다양한 시너지를 창출할 것으로 기대하고 있다.
▲ 농업 선진화…‘팜맵’ 활용=농업 분야에서도 빅데이터를 기반으로 한 데이터 마이닝은 매우 중요한 역할을 하고 있다. 농림축산식품부와 농촌진흥청은 전국 농경지 전자지도, 이른바 ‘팜맵‘을 기반으로 농업기상정보, 병해충발생 정보, 토양분석 정보를 ’공공데이터포털(data.go.kr)‘을 통해 개방하고 있다. 
‘팜맵’은 전국 농경지 약 1,300만 건에 대한 면적 및 속성 정보 등에 대한 데이터 마이닝을 통해 전자지도로 구축한 것이다. 전국 농경지에 대한 모집단으로 공공기관 및 연구기관에 제공·활용하기도 한다. ‘팜맵’을 기반으로 농업기상정보, 토양분석정보, 병해충 발생정보 등이 연계되어 작물재배의 알맞은 땅 선정, 작물종류 변경 분석 등 농경지 공간정보 간 융・복합 분석이 가능하다.
공공데이터포털 누리집에 개방된 정보는 원시 자료를 바로 자료화 할 수 있도록 시스템과  연계(오픈 API 방식)하거나, 대용량파일(csv, shp 등 다양한 파일 형식)로 제공하고 있다. 이 정보를 활용한 각종 서비스, 게임·앱 개발 등 민간 콘텐츠를 제작하여 사업화 하는데도 이용할 수 있다. 개방되는 정보를 활용할 경우 농경지를 중심으로 하는 공공기관의 농업행정 업무뿐만 아니라, 정밀 무인 항공방제와 같은 신규 사업 창출도 가능하다. 학계・연구기관의 농업・농촌 분야 연구, 농업인들의 농업 소득 및 생산성 향상에도 기여하고 있다.
정부는 ‘팜맵’을 기반으로 한 관련 정보 발굴, 정보의 융・복합 개방 및 융합 부호 표준화 등도 추진할 계획이다.

▲ 산단 ‘스마트 공유플랫폼’=산업단지의 빅데이터를 바탕으로 정보를 공유하는 ‘산업단지 공유경제’도 본격적으로 활성화될 전망이다. 산업통상자원부에 따르면 금년부터 산업단지에서 각 기업체별로 소유한 정보를 기반으로 구축한 스마트 공유플랫폼 모바일 시스템이 가동된다. 공식 명칭은 ‘스마트 산단’(Smart K-Factory, www.kicox.or.kr/kfactory)이다.
공유경제 서비스 플랫폼은 산업단지 내에서도 유휴자원 매칭 및 기업 간 거래 활성화, 근로자 편의 증진을 위한다는 목적에 주안점을 두고 있다. 산업단지 내 유휴자원을 발굴·매칭하여 자원 분배의 효율화를 기하고,및 기업 간 거래(B2B)를 활성화하며, 입주기업 근로자의 편의를 증진시킨다. 이를 통해 공유서비스를 이용하고, 사업·서비스 협업을 촉진하며, 공장 정보를 제공, 홍보를 지원한다. 수요층은 다양한 유형의 공유경제 서비스를 이용하고자 하는 제조기업 및 근로자, 산업단지 공공데이터를 기초로 사업모델을 발굴할 서비스 공급 기업들이다.  
산업통상자원부는 공유경제 서비스 플랫폼을 구축하기 위해 그간 시범사업, 공유서비스 모델을 발굴하는 등 데이터 마이닝의 전초 작업을 벌여왔다. 지난해는 스마트선도산단(반월시화, 창원산단)에서 입주기업 대상으로 생산품 제조 매칭 서비스를 시범 진행했다. 국내 약 25개 민간 공유서비스 기업이 참여하여 유휴자원 공유, 공동 기업활동, 산단정보 활용 촉진 등과 관련된 시스템, 즉 빅데이터를 구축해왔다. 산단형 카풀, 카쉐어링, 통근버스 플랫폼, 온라인 교육 등의 공유 시스템을 가동하고, 특허·지재권 등 컨설팅, SW, 공동 물류, 안전 모니터링 등 공동 기업활동을 벌였다. 산업부는 우선 기초단계에서는 유휴자원 공유 등을 활성화하고, 고도화단계에서는 민간 기업 참여 확대를 통해 자재 공동구매, 마케팅, 인력 공유 등 다양한 기능을 할 수 있는 수준에 도달할 전망이다.
▲빅데이터 통한 범죄 예측과 예방=범죄 예방에도 빅데이터는 요긴하게 활용된다. 데이터 마이닝을 통해 범죄 발생 위험지역을 예측하여 경찰관, 순찰차 등 치안자원을 미리 적재적소에 배치하는 인공지능 기반의 스마트 치안이 현실화될 전망이다.
실제로 정부는 민간 전문기업과 협업, 치안정책의 이른바 ‘스마트 치안’을 구현하기 위한 빅데이터 분석을 시도하고 있다. 예컨대 인천광역시 송도, 청라 등 신도심과 국제공항, 국가산업단지 등 복합적인 도시 환경이 공존하는 지역을 대상으로 이런 시도를 한 바 있다. 살인·강도·성폭력·절도·폭력(5종), 무질서 : 주취자·시비 등 관련 112 신고 10종 등 범죄 무질서  위험도 예측모델을 설계하고, 월, 일, 2시간 단위로 범죄·무질서 발생 위험지역을 예측하며, 범죄·무질서 발생에 영향을 미치는 주요 환경적 요인을 파악했다.
이를 위해 경찰청의 112신고·범죄통계 등의 치안데이터를 중심으로 소상공인시장진흥공단의 소상공인 데이터(8만건), 인천시의 항공사진(16.2GB), SK텔레콤의 유동인구(530만건)·신용카드 매출정보(521만건) 등 민간과 공공의 다양한 데이터를 결합하여 활용했다.
예를 들어 인천 지역을 가로 200m× 세로 200m 크기의 2만3천여 개 격자로 나누고, 무질서·범죄 건수 및 비율을 기반으로 격자를 자동으로 군집화한 SK텔레콤의 ‘K-means’ 알고리즘을 통해 5개의 군집으로 분류했다. 군집분석 결과, 범죄·무질서 발생 최상위 군집 지역은 주말과 심야 시간대에 112신고가 크게 증가하고, 유동인구는 매우 많지만 거주 인구는 적은  특징을 보였다. 또 신고·범죄 건수뿐만 아니라 환경적 요인을 결합하여 범죄 위험도 예측모델을 개발했으며, 이 과정에서 LSTM (Long Short Term Memory) 즉 시계열 데이터를 처리하기 위한 딥러닝 알고리즘과, 약한 예측 모델을 결합하여 예측도를 향상시키는 기계 학습 모델(그래디언트 부스팅) 기반의 ‘Catboost 알고리즘’을 활용했다. 이를 통해 지역별, 월·일·2시간 단위의 범죄 발생 건수를 예측하고 범죄·무질서 위험도를 5점 척도로 나타내는 방식이다.
이같은 빅데이터와 데이터 마이닝에 기반한 예측 모델을 현장에 적용한 결과 실제 범죄 예방에 효과가 있는 것으로 나타났다. 경찰청은 지난해 10월 14일부터 6주간 범죄 예측 결과를 기반으로 인천시의 16개 지역에 경찰관과 순찰차를 집중 배치했다. 그 결과 신고 건수는 전년도 같은 기간보다 23.7%, 범죄발생건수는 9.7% 감소했다. 경찰청은 범죄위험도 예측 모델은 향후 인천 지역을 대상으로 시범  운영 후 전국으로 확대할 계획이다.

▲산불 대응, 대기오염 감축=빅데이터로 미세먼지를 줄이거나, 산불을 예방할 수도 있다. 소방청은 주기적으로 발생하는 대형 산불에 효율적 대응하기 위해 빅데이터를 활용한 대책을 내놓고 있다. 즉, 산림인접지역의 화재 발생과 진화 패턴, 인구․상수도 등 각종 환경요인의 연관성 분석을 통해 ‘소방용수확보 취약지수’를 개발할 예정이다. 취약지수가 향후 소방시설물 설치 등 각종 화재 대응책의 도움이 될 것으로 보고 있다. 
국민연금공단은 창원시와 함께 ‘지역 내 개인소득·소비와 기업활동 빅데이터 분석’을 시도하고 있다. 인구현황, 개인 소득·소비, 기업 활동 등 지역 내 경제활동을 분석해 경제활동 요인 간 연관성을 확인할 계획이다. 이를 통해 경제활동 취약지수를 개발하고, 그 분석결과를 기반으로 지역 내 경제활동 위기 지역과 개선 정책을 마련할 계획이다. 
한국교통안전공단은 대구시와 함께 ‘디지털운행기록장치(DTG) 데이터를 활용한 도심지 대기오염 분석’을 시도하고 있다. 상업용 차량에 부착된 디지털운행기록장치를 통해 차량 운행 기록을 분석하는 방식이다. 차량 운행이 도심지 대기오염에 미치는 영향을 분석할 계획인데, 그 결과에 따라 교통과 대기오염 관련 대응책 마련과 보행자가 체감할 수 있는 대기오염 감축 정책을 시행할 예정이다.
▲외딴 섬, 응급환자에 도움=빅데이터를 통한 도서지역 응급환자 헬기이송 등 ‘골든 타임’을 놓치지 않게 하려는 노력도 이어지고 있다. 특히 외딴 섬 지역을 대상으로 정부는 이런 시도를 이어가고 있다.
최그 행정안전부 국가정보자원관리원(이하 ‘관리원’)은 도서지역의 의료불균형 문제를 해소하기 위해, 서해안 최북단인 백령도를 포함하여 인천시 유인도의 65.7%(23개)가 속해 있는 옹진군 응급환자 헬기이송과 관련한 빅데이터 분석을 시도했다. 과거 2년 간의 옹진군의 응급헬기 이송내역(385건)과 인계점‧계류장 위치정보(32건) 및 백령도‧인천 기상정보(35,040건) 등이 활용되었다. 
이를 바탕으로 닥터헬기 최적 장소선정, 핵심 도서지역 관리 등 도서지역 응급환자의 초기대응 강화방안을 도출하였다. 즉 닥터헬기의 배치병원과 계류장을 도서지역 인근으로 지정하여 운송거리를 단축하는 방안을 도출하고, 백령도의 거리와 기후를 고려한 병원선(船) 및 의료자원 투입, 그리고 응급이송이 집중되는 4개 섬(백령도, 덕적도, 연평도, 자월도)에 대한 핵심 도서지역 선정 및 집중관리 방안을 제안했다.

섬별 응급이송건수 : 2017~2018년
섬별 응급이송건수 : 2017~2018년

▲복지사각지대, 빅데이터로 해소=복지혜택을 당연히 받아야 함에도 불구하고, 제도적 허점이나 다른 불가피한 사정으로 복지사각지대에 처해지는 경우도 많다. 이를 해결하는데도 빅데이터는 요긴하게 활용될 전망이다.
정부는 최근 전문기관 및 일부 지자체와 함께 빅데이터 기반의 맞춤형 복지 서비스 분석을 시도햇다. 지자체로부터 제공받은 복지 데이터와 자체 확보한 공공 데이터를 바탕으로 한 것이다. 그 결과 복지현황 파악을 위한 복지공감(共感)지도를 제작하고, 복지기관 접근성 분석을 통한 취약지역 지원방안과 함께 위기가정의 신속한 지원을 위한 빅데이터 예측모델을 개발했다. 그 과정에서 과거 4년 간의 공적 복지급여 지급 내역, 민간 복지기관 지원 내역, 위기가정 지원 내역 등, 지자체 관내 인구통계(15개 행정구역별, 연령별), 안성시 버스노선도 및 운행시간 등의 광범위한 데이터 마이닝을 시도했다.
그 중 복지공감 지도는 공간분석(GIS)을 활용하여 지역 내 공공 및 민간 복지기관의 다양한 지원항목과 이를 필요로 하는 수급자(복지대상자, 독거노인, 장애인 등) 현황을 한눈에 확인할 수 있도록 구현한 것이다. 지도를 활용하면 복지혜택이 필요한 지역과 수급자를 빠르게 찾아낼 수 있으며 복지기관의 역할(생필품지원, 방문상담 등)을 최적화하고, 복지기관 설립 위치를 선정하는 등 폭넓게 적용할 수 있다. 
이와 함께 질병·부상 또는 실직 등의 사유로 한시적 지원대상이 되는 위기가정(긴급복지, 무한돌봄)이 기초수급대상이나 차상위 계층과 같은 지속적 지원 대상으로 이동할 가능성을 약 83.3%의 정확도로 예측하는 분석모델도 개발하였다.
이 모델은 기계학습 분야에서 널리 활용되는 ‘그래디언트 부스팅 머신’(GBM) 알고리즘을 활용한 것이다. 이는 약한 예측모델을 결합하여 예측도를 향상시키는 분석 기법이다. 이를 위해 안성시의 과거 3년간의 위기가정 지원내역을 학습시켰으며, 월소득, 세대구성, 질병부위 등 11개 항목을 주요 변수로 선정하여 위기가정을 신속하게 찾아낼 수 있도록 했다.

김예지 기자
 

저작권자 © 애플경제 무단전재 및 재배포 금지