ⓒ연합뉴스지난해 12월4일 데이터 3법에 반대하는 기자 회견이 열렸다.

침체된 경제도 일으키고 복잡한 사회문제도 풀고 난치성 질환의 정복도 가져올 수 있는 만병통치약, 그 이름은 빅데이터. 한국 사회는 그야말로 빅데이터 ‘앓이’ 중이다. 정부와 산업계는 한목소리로 빅데이터만이 우리를 구원해줄 수 있다고 외치는 중이다. 그렇게나 갈등하던 민주당과 자유한국당도 ‘데이터 3법’ 통과에는 모처럼 같은 목소리를 내고 있다.

데이터 3법은 개인정보보호법·정보통신망법·신용정보법 개정안을 일컫는데, 공통적으로 개인정보를 데이터로 활용할 수 있도록 허용하는 방안을 담고 있다. 개정안에 따르면 관련 기업이 사업 과정에서 획득한 개인정보를 개별 당사자 동의 없이 원래 수집 목적 이외에 사용하거나, 개인을 식별할 수 없도록 해 다른 기업에 판매할 수 있게 된다. 비식별화 방식의 안전성, 개인정보 유출과 악용에 대한 우려 때문에 시민사회에서는 반대의 목소리가 높다. 정부와 산업계, 그리고 이를 옹호하는 연구자들은 이러한 우려와 비판을 ‘러다이트 운동’ 정도로 취급한다. 기업에게도 양심이란 게 있다면 스스로의 지난 행적을 돌아보고 반성부터 하는 것이 먼저다.

심심하면 터져 나오는 ‘○○만명 개인정보 유출’ 뉴스, 집요하게 날아드는 광고 문자메시지와 전화, 웹브라우저 화면에 떠오르는 ‘신기한’ 맞춤형 광고에 익숙한 시민들에게 ‘우리가 잘할 테니 (묻지도 따지지도 말고) 믿어줘. 걱정 안 해도 돼’라는 말이 먹힐 리가 없지 않은가. 한국은 주민등록번호라는 개인별 고유 식별자 덕분에 데이터 연계를 통해 개인을 특정하거나 맞춤 정보를 생산하기 매우 적합한 환경이다. 뒤집어 이야기하면, 일단 어느 한 곳에서 정보가 유출되면 그 피해가 매우 광범위해질 수 있다. 이미 수차례 거의 전 국민 주민등록번호가 유출된 적이 있고, 중국 온라인 쇼핑몰에서는 한국 개인정보가 한 건당 10~20위안에 거래되고 있다.

페이스북 수집 정보가 정치 공작에 이용

물론 빅데이터가 가진 잠재력은 크다. 건강보험 자료와 진료 기록을 연계하여 예전에 발견하지 못했던 의약품의 부작용이나 효과를 판별할 수도 있고, 탑승객이 몰리는 시간이나 장소를 예측하여 대중교통 노선을 조절할 수도 있다. 문제는 현재 국내 빅데이터에 대한 논의가 사회적 편익보다는 개별 기업의 이윤을 극대화하는 ‘사유화’ 방식으로 이루어지고 있다는 점이다. 실제 데이터 3법 논의가 진행되는 와중에 온라인에서는 ‘관련주’ ‘테마주’ ‘수혜주’가 연관검색어로 떠올랐다. 기업들이 돈을 벌 수 있게 해주는 정보를 제공한 개인들에 대한 보호나 보상, 견제장치, 사회적 편익에 대해서는 진지한 논의가 없다. 기업이 잘되면 나라가 잘된다는 개발경제 시대의 논리가 4차 산업혁명 시대에도 유효한 셈이다.

잘 쓰면 사회적 편익을 높일 수 있지만 악용될 경우 빅데이터의 파괴력은 개인 프라이버시 침해는 물론 사회 근간을 흔들 수도 있다. 페이스북이 판매한 이용자의 개인정보를 활용해 ‘정치공작’에 개입했던 영국의 데이터 분석회사 ‘케임브리지 애널리티카’ 사례가 대표적이다. 이 사건은 2018년 케임브리지 애널리티카 전직 직원이 내부 고발자로 나서기 전까지 외부에서 그 실체를 제대로 알 수 없었다. 케임브리지 애널리티카는 페이스북을 통해 무료 성격진단 앱을 노출했고, 수십만 명이 재미 삼아 참여했다. 소셜 미디어에서 흔히 볼 수 있는 광경이다. 이 회사는 응답자들의 개인정보, 심지어 페이스북에 ‘친구’로 연결된 다른 사용자들의 정보까지 수집했다. 생일이나 성별 같은 공개 프로필, ‘좋아요’ 같은 정보뿐 아니라 뉴스피드나 타임라인 정보처럼 사람들의 정치 성향을 파악할 수 있는 정보까지 말이다. 이렇게 수집한 정보가 8000만 건 이상이었다.

ⓒAFP PHOTO영국의 데이터 분석회사 케임브리지 애널리티카는 페이스북을 통해 수집한 개인정보를 미국 대통령 선거 캠프와 거래했다. 위는 CEO인 알렉산더 닉스.

케임브리지 애널리티카는 이 고급 데이터를 선거 캠프와 거래했다. 이는 맞춤형 정치광고로 이어졌다. 이 회사는 2016년 미국 대통령 선거와 영국 브렉시트 국민투표를 비롯하여 여러 국가의 선거에 개입한 것으로 알려졌다. 한국 국가정보원의 댓글 공작에 비하면 세련되고도 무시무시하다. 추천이 거듭될수록 ‘더 센’ 콘텐츠가 노출되도록 해 사람들이 극단주의에 빠져들게 만드는 유튜브 알고리즘, 가짜 뉴스의 교묘한 확산을 촉진하는 인터넷 트롤의 존재는 현재 세계 곳곳에서 민주주의와 사회의 지속가능성을 뒤흔드는 실질적 위협이 되고 있다. 빅데이터라는 절대반지를 기업에만 맡겨둘 수 없는 이유이다.

반면 국내에서 근거 기반 정책을 만들어내는 데 도움이 되는 공공정보 활용은 여전히 부족하다. 먼저 해외 사례를 보자. 2008년 영국 런던 건강관측소는 2002~ 2006년 동네 수준 사망 자료를 분석해 지하철 노선도의 지하철역마다 평균수명을 표기했다. 결과는 많은 이들을 놀라게 했다. 이를테면 주빌리 라인의 웨스트민스터역에서 동쪽으로 한 정거장을 이동할 때마다 남성 평균수명이 1년씩 줄어드는 것을 확인할 수 있었다. 웨스트민스터역 동네 남성의 평균수명이 78.6세인 반면, 동쪽으로 여섯 정거장 떨어진 캐닝타운역 동네 남성의 평균수명은 72.8세였다. 이런 지하철 노선도가 처음 발표된 이래 런던에서는 자료를 업데이트하며 건강 불평등에 대한 대중의 관심을 촉발시키고 있다.

국내에도 번역 출판된 〈건강 격차〉의 저자 마이클 마멋 교수는 2012년 BBC와 한 인터뷰에서 매우 작은 지역 사이에서도 심각한 건강 불평등이 존재한다는 사실을 강조했다. 그에 따르면 국가 단위로 수명 차이가 11년 나는 곳을 가보려면 런던에서 비행기를 타고 과테말라까지 가야 하지만, 런던 내에서라면 지하철을 타고 해크니역에서 웨스트엔드역까지만 가면 된다. 영국에서는 평균수명뿐 아니라 지역 박탈 수준, 사망률, 흡연율 등 건강 상태나 건강에 영향을 미칠 수 있는 다양한 ‘결정요인’에 대한 정보들을 소지역 단위로 수집하여 공개하고 있다. 이들은 시민에게 문제의 심각성을 알려줄 뿐 아니라, 보건예산 분배나 지역 재개발 선정의 기준, 정부 정책과 사업의 모니터 지표로도 활용된다.

하지만 서울시가 운영하는 서울열린데이터광장에는 동별 사망률이나 자살률, 흡연율 같은 정보가 제공되지 않는다. 통계청이 운영하는 국가통계포털에도 계층 간 혹은 지역 간 건강 불평등에 대한 정보를 찾아볼 수 없다. 질병관리본부 홈페이지를 찾아가 국민건강통계 보고서를 다운로드해야 건강 불평등 지표를 겨우 확인할 수 있을 뿐이다. 좀 더 관심이 있다면 학술논문을 찾아볼 수 있지만, 시민이나 정책결정자에게 이는 결코 쉬운 일이 아니다.

통계를 제공하지 않거나 못하는 것에는 이유가 있다. 소지역을 대표할 수 있도록 조사를 설계하지 않았거나, 혹은 사망등록 데이터처럼 상세한 자료가 있다 해도 표본 크기가 작아서 추정값이 불안정하기 때문이다. 게다가 지역 간 차이나 계층 간 불평등을 드러내면 낙인이 생길 수 있고 민원도 제기된다. 안 본다고 없어지는 것은 아니다. 불평등과 차별 문제는 적극 드러내고 이를 해결할 방안을 모색해야지, 불편하다고 숨겨두면 영원히 해결되지 않는다. 영국 런던이라고 인구 수천 명밖에 안 되는 작은 지역의 통계값이 완벽하다거나 주민들이 아무도 불만을 제기하지 않아서 이런 통계를 지속적으로 생산하고 대중에게 공개하는 건 아니다.

불편한 통계를 생산하는 어려움과 국가 책무성의 중요함은 센서스(인구총조사)를 둘러싼 미국 사회의 논란이 잘 보여준다. 모름지기 통계(statistics)란 그 어원에서부터 국가(state)와 관련이 있다. 어떤 사람들이 얼마나 살고 있는지 알아야 세금도 부과하고 선거 방식도 정하며 군인도 모집할 수 있으니 말이다. 미국은 1790년에 처음 센서스를 실시했다. 당시에는 자유민과 노예를 구분하여 사람 숫자를 헤아렸는데, 노예, 즉 흑인은 자유민의 5분의 3 수준으로 간주되었다. 완전한 인간이 아니라고 생각했기 때문이다.

ⓒEPA미국 캘리포니아주 텐트촌에서 생활하고 있는 노숙인들의 모습.

이후 공식적으로 노예제도는 폐지되었지만 인종차별 유산은 쉽사리 사라지지 않았고 소수인종 과소 집계 문제는 오랫동안 지속되었다. 인종 같은 민감한 질문에 대답하는 두려움 또는 소수인종일수록 낮은 문해력, 빈곤, 주거 불안정 등의 문제를 경험하고 있기 때문에 조사에 어려움이 큰 탓이다. 사실 인종 간 불평등을 보여주는 각종 통계들은 백인과 흑인 모두에게 불편한 진실이다. ‘열등하다’는 낙인만 심해지는 게 아닐까 우려하는 흑인도 있고, 이제 인종차별은 존재하지도 않는데 인종 정치에 넌덜머리가 난다는 백인도 있다.

2000년 센서스부터는 인종에 대해 한 개 이상 범주로 표기가 가능해지면서 논란이 더욱 커졌다. 전미유색인지위향상협회(NAACP:National Association for the Advancement of Colored People)는 아직 열악한 상태에 놓인 흑인들이 스스로를 다인종으로 표기하는 경우 흑인 대표성이 제대로 측정될 수 있을지 우려된다고 목소리를 냈다. 백인 우파들도 가만히 있지 않았다. 그냥 ‘백인’이라고 하면 되는데, ‘백인이면서 아시안’ 등으로 세분화함으로써 백인이 일부러 과소 대표되도록 만든 조치라는 것이다. 백인들이 소수자로 전락할 것이라는 위협을 느끼게 되었다고 주장했다.

학부모의 재산·직업 등 모르는 게 약일까

이렇게 시끄러운데 인종 질문을 아예 빼버리면 안 될까? 인종 문항만 빼도 센서스 응답률이 올라갈 거라는 의견도 있다. 실제로 미국인류학회는 ‘인종이란 생물학적 토대가 없는 개념이기 때문에 이 용어 자체를 연방정부 차원에서 점차 사용하지 말아야 한다’고 주장하기도 했다. 하지만 비록 생물학적 실체는 없지만 사회적으로나 역사적으로나 인종은 미국 사회에서 여전히 중요한 삶의 결정요인이다. 삶의 기회, 때로는 생사를 가르는 중요한 요인이기도 하다. 오랜 차별과 불평등의 역사를 시정하기 위해서는 문제의 규모를 측정하고 정책 시행에 따른 개선 효과를 모니터해야 한다.

1960년대 시민권 운동 이후 시민권 옹호단체들은 인종차별을 시정하려고 도입한 정부 정책과 프로그램을 모니터하기 위해서는 인종·민족에 기초한 조사가 필요하다는 점을 앞장서 주장했다. 미국 센서스 당국은 별도 웹페이지를 마련해 이러한 역사와 필요성을 설명하고 있다. 인종 분류가 사회적으로 구성된 것이지 생물학적이거나 인류학적·유전적인 것은 아님을 밝히면서, 인종에 따른 통계 산출은 시민권과 관련된 연구와 정책을 뒷받침하고, 특히 반차별적 법과 규제정책의 이행을 평가하는 데 유용하다는 점을 지적한다.

ⓒ연합뉴스2015년 11월 서울의 한 집에서 인구주택총조사 면접조사가 이뤄지고 있다.

예컨대 연방정부 차원에서 적극적 우대 조치의 가이드라인을 만들 때, 투표권 법률의 준수를 모니터할 때, 평등한 고용기회를 살펴보고 집행할 때, 공중보건서비스 법률에 따라 필요한 의료서비스를 받지 못하는 인구집단을 확인할 때 인종에 따른 통계는 매우 중요한 구실을 한다. 연구자나 시민사회 단체들도 인종에 따른 교육·투표·주택 소유·고용 등에서의 변화를 분석하고 옹호 활동을 펼치는 데 사용할 수 있다. 사람들이 불편해하고 조사 당국에도 어려운 일이지만, 현존하는 차별을 시정하기 위해서는 반드시 필요하다는 것을 정부가 인식하며 그 책무성을 다하고 있음을 잘 보여준다.

불편한 항목을 조사에서 빼버리거나 공개하지 않는 것은 제일 간단한 해결책이다. 조금 다른 사례이지만 교육부는 2013년 ‘학습환경조사서’에서 학부모의 재산·직업·학력 등을 적는 난을 아예 없앴다. 가족 배경에 따라 학생들이 차별받거나 학생들 사이에 위화감이 조성될 수 있다는 우려, 개인정보와 사생활 침해에 대한 반발 때문이다. 이것이 과연 교육부나 학교의 ‘책임감 있는’ 조치인지 의문이다. 상식적으로 생각해도 아이들 각자가 처한 조건을 담임교사가 충분하고 자세하게 파악해야 최선의 돌봄과 교육을 제공할 수 있다. 학부모들은 학교나 담임교사가 개인정보를 제대로 보호할 것 같지도 않고, 그런 정보가 있다고 특별히 아이를 더 잘 챙길 것 같지도 않으며, 오히려 이 때문에 차별이나 불이익을 받을 수도 있다고 판단했다. 교육 당국은 번거롭게 학부모를 설득하고 정보보호 대책을 만드느니 아예 논란 자체를 회피하는 방식을 선택했다. 신뢰의 부재와 책무성의 부재가 만나서 벌어진 현실이다.

데이터는 스스로 말하지 않는다. 데이터를 어떻게 수집하고 활용하느냐는 기술 문제로 환원되지 않는다. 통계에는 역사와 정치 경제, 한 사회가 추구하는 가치가 담겨 있다. 우리에게 현재 ‘시급한’ 것은 기업이 손쉽게 개인정보를 활용해 사익을 추구하도록 만드는 방식의 데이터 산업 진흥이 아니다. 사회적 불평등과 차별을 시정하고 공공복리 증진에 도움이 되는 공공통계의 인프라를 강화하는 것이 더욱 시급하다. 이 과정에서 정부가 (때로는 논란을 회피하지 않으며) 책무성을 다하고, 시민들로부터 신뢰를 확보하는 것이 무엇보다 중요하다. 의약품 접근성을 요구하며 외쳤던 ‘이윤보다 생명!’이라는 구호는 빅데이터 시대에도 여전히 유효하다. ‘이윤보다 공공성!’이라는 버전으로 말이다.

기자명 김명희 (시민건강연구소 상임연구원) 다른기사 보기 editor@sisain.co.kr
저작권자 © 시사IN 무단전재 및 재배포 금지
이 기사를 공유합니다