OECD 제안 ‘개인정보보호 강화기술’ 4가지 도구에 주목
데이터 난독처리, 암호화된 개인정보 처리, 연합․분석, 데이터책임 도구

(사진=테크크런치)
(사진=테크크런치)

[애플경제 전윤미 기자] 개인정보를 보호하면서도 이를 유용하게 활용할 수는 없을까. 이는 모든 기업들이 원하는 ‘두 마리 토끼’나 다름없다. 전문가들도 이에 관한 다양한 대안을 제시해왔다. 그 중에서도 특히 OECD가 제안한 ‘개인정보보호 강화기술’(PET, Privacy-Enhanced Technology 혹은 Privacy-Enhancing Technology)은 가장 유효한 대안으로 주목받고 있다.

이는 생성AI를 비롯한 다양한 기술개발에서 개인정보 컴플라이언스가 가장 효용이 큰 자원이라는 인식에서 비롯된 것이다. 최근 개인정보 관련 정책기관이기도 한 한국인터넷진흥원도 “개인정보는 보편적인 국제적 규제이고 소비자의 요구사항이기도 하지만 기업 입장에서 개인정보는 보호의 대상인 동시에 최대한 효과적으로 활용해야 하는 자원이기도 하다”면서 “이에 개인정보를 보호하면서도 효용을 보장하는 ‘개인정보 보호 강화기술’의 적용과 활용이 확산되는 추세”라고 전했다.

이에 따르면 실제로 OECD는 구체적으로 PET의 범주를 네 가지로 짚으며, 그 효용성을 강조하고 있다. 즉 ▲ 데이터 난독 처리 도구, ▲ 암호화된 개인정보 처리, ▲ 연합 및 분석, ▲ 데이터 책임 도구 등이다.

“개인정보 식별성 감소시키는 수단들”

최근 관련된 연구보고서를 내놓은 한국인터넷진흥원의 송은지 선임연구원은 이에 대해 “PET는 개인정보를 보호하고 활용하는 데 유용한 기술로 대부분 개인정보 익명화 처리가 포함된다”면서 “PET의 대표적인 도구인 데이터 난독화나 암호화, 분석 방안 등은 모두 개인정보의 식별성을 감소시키는 수단”이라고 규정했다. 그러면서도 “모든 PET가 개인정보를 익명화하는 것은 아니며 PET를 통하지 않고도 익명화가 가능하다”고 그 특성을 명확히했다.

정보통신기획평가원을 통해 공개한 보고서에서 송 선임연구원이 인용한 바에 따르면 우선 ‘데이터 난독 처리’ 도구가 있다. 이는 노이즈를 추가하거나 상세 식별 정보를 제거함으로써 데이터를 바꾸어 데이터를 읽을 수 없게 만드는 것이다.

개인과 연결된 데이터에 무작위성을 부여하거나 노이즈를 적용, 재식별 가능성을 낮춘 ‘차분 프라이버시’가 있다. 또 ‘합성 데이터 생성(SDG)’, 즉 기존 지식을 사용해 완전히 새로운 데이터를 생성하는 방법도 있다. 아예 정보를 노출하지 않고 진실 여부를 검증하는 ‘영지식 증명’도 있다.

이는 그러나 “개인정보가 재식별되는 경우가 있기도 하며, 아직까지 기술의 수준과 역량이 부족한 것이 가장 큰 한계점이어서, 실용화 사례도 아직 적다.”는 지적이다.

“복호화 없이 암호화 상태에서 데이터 처리”

개인정보는 설사 암호화하더라도 정작 데이터를 처리하기 위해선 복호화해야 한다. 보안의 취약점이 따를 수 밖에 없다. 그러나 이젠 데이터를 활용하는 동안에도 암호화된 상태를 유지할 수 있을 만큼 기술이 발전하고 있다. 대표적인 것이 바로 ‘암호화된 개인정보 처리’ 도구다.

그 중엔 일반 텍스트를 공개하지 않고 암호화된 데이터를 연산하는 ‘동종 암호화(HE)’ 기법이 있다. 기존 암호화와는 다르게 암호화된 데이터에 대해 직접 계산을 수행할 수 있도록 설계된 수학적 알고리즘이다. ‘동종 암호화’를 적용하면 일반적인 암호 기법과 달리 연산 결과가 원 데이터의 연산 결과와 동일하게 산출된다.

또 기존의 공개키 인프라 대신에 개인키를 생성함으로써 발신자에서 수신자 방향의 메시지에 암호화를 적용하는 ‘신원 기반 암호화(IBE)’도 있다.

‘안전한 다자 연산(SMPC)’, 즉 분산 컴퓨팅을 수행하면서 정확성을 기하고, 최소한의 입력과 출력으로 학습하는 방법을 우선함으로써 연산 과정을 보호하기도 한다.

이와 함께 ‘신뢰받는 실행 환경’ 도구를 통해 데이터의 기밀성을 훼손하지 않고 암호화된 키와 민감 데이터를 평문으로 안전하게 접근할 수 있게 하는 방법도 있다.

그러나 ‘암호화 처리’도 단점이 있다는 지적이다. 암호화된 데이터를 연산하는 경우에 비해, 연산 비용이 많이 들어서 비효율적이다. 특히 “데이터가 유출되지 않는 것을 완전히 보장하지는 못한다”는게 문제다.

(사진=픽사베이)
(사진=픽사베이)

‘연합 및 분산 분석’으론 ‘연합학습(FL)’과 ‘분산 분석’ 등 2가지 도구가 있다. 그중 ‘연합학습’ 도구는 개별 엔드포인트가 기계 학습 모델 훈련에 참여하면서 학습 데이터를 기기에 유지하되, 요약 데이터만 중앙 데이터 저장소에 전송할 수 있도록 허용하는 것이다. 이는 작업자가 접근할 수 없는 데이터를 분석할 수 있도록 해주는게 장점이다. 작업자에게는 통계와 결과만 전달된다. 즉 원시 데이터가 전처리된 후, 처리자에게는 결과만 전달되고 유사 데이터와 결합된다. “따라서 데이터를 처리하는 과정에서 리스크가 상당 부분 줄어든다”는 것이다.

“완벽한 보호는 한계, 암호화된 기법 병행 바람직”

아예 기계 학습을 통해 프라이버시를 보호하는 ‘분산 분석’도구를 적용하기도 한다. 이는 여러 노드에 걸쳐 분석을 분산시키는 방식이다. 역시 데이터 처리자가 데이터에 직접 접근하는 것을 허용하지 않는다.

그럼에도 ‘연합 및 분산 분석’도 여전히 한계는 있다. 정보가 유출될 가능성이 있고, 안정적인 연결이 전제되어야 한다는 지적이다. 그래서 송 선임연구원은 “정보 유출의 문제를 해결하기 위해 암호화된 개인정보 처리 기법을 병행하는 것도 바람직하다”고 권했다.

‘데이터 책임 도구’ 중엔 말 그대로 데이터에 접근할 수 있는 시기에 대한 규칙을 설정하고 집행하는 ‘책임 시스템’ 도구가 있다. 또 정보주체에게 자신의 개인정보에 대한 통제권을 제공하는 ‘개인정보 관리 시스템’ 도구도 활용된다.

한편 글로벌 기업들은 이미 PET를 적극 활용하고 있는 것으로 알려졌다. 애플이 경우 ‘차분 프라이버시’ 메시지 앱을 검색어 추천에 적용하고 있다. 구글은 ‘연합학습] 키보드앱을 통해 개인정보를 안전하게 전송할 수 있도록 하고 있다.

메타 페이스북은 ‘다자간 계산’ 도구를 통해 광고와 마케팅에 활용할 개인정보를 수집하고 있다. IBM은 광고 식별자의 대안을 개발하기 위해 ‘PET 실무 그룹’을 운영하고 있기도 하다.

송 선임연구원은 그러나 “PET를 활용한다고 해서 완전한 안전을 보장하는 것은 아니며, 개인정보보호를 위한 규제를 기업들이 준수한다는 보장도 없”면서 “단지 이용자의 개인정보와 권리를 보호할 목적으로 활용하되, 규제와 법을 준수하는 방식 중의 하나일 뿐”이라고 선을 그었다.

저작권자 © 애플경제 무단전재 및 재배포 금지