보건의료 데이터, ‘활용’과 ‘유출’ 사이

서울 강남구 코엑스에서 열린 국제 의료기기·의료정보 전시회에 설치된 MRI 촬영 필름 전시판. *ⓒ연합뉴스*

SF 3대 천왕 중 한 명인 아서 C. 클라크가 1979년 발표한 소설 〈낙원의 샘〉은 천재적 엔지니어 모건이 기술적·정치적 어려움을 극복하고 마침내 ‘궤도 엘리베이터’ 건설에 성공하는 과정을 그렸다. 보건학 전공자인 필자는 과거에 이 책을 읽다가 궤도 엘리베이터보다 모건의 가슴에 부착된 ‘코라(CORA, Coronary alarm)’라는 알람 장치에 마음을 뺏겼다. 심전도를 모니터하다가 위험 징후가 나타나면 “하던 일을 멈추고 10분 쉬세요” 혹은 “지금 당장 빨간 약을 드세요” 같은 음성 메시지로 알려준다. 긴급 상황에서는 자동으로 구급차를 호출한다. 모건 역시 우주공간에서 홀로 엘리베이터를 수리하다가 심장마비로 의식을 잃었을 때 코라 덕분에 생명을 건질 수 있었다. ‘와, 이런 게 있으면 많은 생명을 구할 수 있겠다. 누군가 어디에서 이런 기술을 개발하고 있겠지?’ 막연히 기대했다.

과거의 상상은 현실이 되었다. 2017년 미국의 한 남성이 심박수 모니터링 기능이 탑재된 스마트워치를 착용하고 잠들었다가 새벽 1시, 평소와 다른 심박수가 감지되었다는 알람에 깨어났다. 그는 즉시 응급실을 방문했고, 조치가 늦어졌다면 치명적이었을 허혈성 심근경색을 발견하여 스텐트 시술을 받았다.

보건의료만이 아니다. 자율주행 자동차, 온라인쇼핑몰, 개인 맞춤형 광고와 추천 시스템, 인공지능 비서 등 SF 소설의 상징적 소품들이 지금은 모두 현실이 되었다. 이런 기술발전을 가능토록 한 주요 자원 중 하나가 바로 데이터이다. 데이터가 있어야 인공지능이 기계학습으로 외부에 대응하고 예측할 수 있다. 2018년 과학기술정보통신부 장관이 “4차 산업혁명 시대에 데이터는 미래산업을 위한 원유”라고 표현한 바 있는데 이는 전혀 과장이 아니다.

보건의료 체계는 오래전부터 환자 진료에 ‘데이터’를 사용해왔다. 의사가 환자의 상태를 기록하는 진료 차트, 간호일지, 엑스레이나 혈액검사 결과, 처방전과 투약기록 등이 모두 데이터다. 데이터는 양질의 진료에 필수적이다. 과거의 검사 및 진료 기록이 없거나 모두 제각각 흩어져 있다면 어떻게 현재의 진료가 가능할까?

2월24일 정부서울청사에서 윤건호 디지털 헬스케어 특별위원회 위원장이 ‘마이헬스웨이’ 도입 방안을 브리핑하고 있다. *ⓒ연합뉴스*

“어차피 다 털렸는데 뭐”

보건의료 체계 차원에서도 데이터는 중요하다. 의료서비스의 질을 모니터하고 의료자원 배치나 재정 부담을 평가할 때 데이터는 꼭 필요하다. 의료기관의 임상시험, 지역사회의 다양한 건강조사, 감염병이나 의약품 부작용 신고 같은 공중보건 체계를 통해 방대한 보건의료 데이터가 생성된다. 이러한 정보체계가 없다면 코로나19 같은 공중보건 위기에 대응할 수 없고, 새로운 치료법이나 의약품 개발도 불가능할 것이다.

보건의료 데이터를 활용한 연구의 잠재력은 크다. 전자산업·반도체 노동자들의 백혈병이나 자연유산 위험을 규명하는 데에는 과거의 의료이용 정보가 담긴 건강보험 청구 자료가 크게 기여했다. 다른 한편, 보건의료 연구는 ‘상업적 이해’와도 밀접히 연관된다. 보건의료 연구 성과와 기술혁신은 진단기기와 치료제, 백신, 건강관리 디바이스, 민간 보험상품 개발 등에 중요한 역할을 한다. 보건의료 데이터 관련 ‘시장’이 빠르게 성장하는 배경이다. 미국에 본사를 둔 ‘데이터 마이닝’ 회사 IQVIA는 100개국 이상에서 5억여 환자들의 데이터를 확보하고 있는데 그 자산가치가 200억 달러에 달한다. 디지털헬스에 대한 벤처캐피털 투자는 2011~2016년 매년 30%씩 상승했다.

이렇게 (시장) 잠재력이 크다 보니 정부가 보건의료 데이터 활용에 팔을 걷어붙이고 나섰다. 보건복지부는 ‘보건의료 빅데이터 플랫폼’, 산업통상자원부는 ‘바이오헬스 빅데이터 플랫폼’, 과학기술정보통신부는 ‘마이데이터’ 프로젝트를 각각 추진 중이다. 지난해 범정부 차원에서 발표한 한국판 뉴딜 사업의 핵심은 ‘데이터 댐’이다. 비대면 산업 육성 부문에서도 스마트병원(보건복지부), 닥터앤서2.0(과학기술정보통신부), 모바일 건강지킴이(보건복지부) 등 보건의료 데이터 관련 프로젝트가 대표적 과제들이다. 이쯤 되면 한국에서 보건의료 데이터는 ‘원유’ 정도에 그치는 게 아니라 미래를 책임질 차세대 먹거리로 보인다.

보건의료 데이터는 잠재력이 큰 만큼, 잘못 다뤄졌을 때 피해도 크다. 기초적인 사회인구학적 특성은 물론 유전정보, 진단명과 상세한 치료 이력, 다양한 생활습관 등 대단히 민감한 개인정보가 담겨 있기 때문이다. 2013년 10월, 서울 강남의 유명 성형외과 서버가 해킹당했다. 해커는 2만7000여 건의 이름, 휴대전화 번호, 진료기록, 수술 전후 사진을 탈취해 ‘5억원을 내놓지 않으면 모두 공개하겠다’고 협박했다. 환자 처지에서는 악몽 같은 사건이다.

미국에서는 탈취된 의료 정보들이 다크웹에서 팔리고 있으며, 2014년 한 해에만 부정한 의료정보에 연루된 피해자가 50만명에 이를 것으로 추정되었다. 2016년에는 의료기록 유출 사고가 금융기록 유출에 비해 9배나 더 많았다. 이는 미국인 3000만명분의 자료에 해당한다. 유전정보 유출은 피해 당사자뿐 아니라 혈연관계인 친지에게까지 피해가 미칠 수 있다. 의료체계에 대한 신뢰 저하, 개인의 민감정보에 대한 자기결정권 침해도 결코 사소한 문제가 아니다.

보건의료 데이터의 산업적 활용을 옹호하는 이들은 기술적 수단, 예컨대 익명화나 가명화 같은 비식별 조치, 암호화, 개인정보 삭제, 접근권 통제 등을 통해서 개인정보를 안전하게 보호할 수 있다고 주장한다. 우려를 잠재우기엔 부족하다. 한국에서 발생한 관련 사건에서도 업체 측은 개인정보를 안전하게 보호한다고 공언했지만 사실은 그렇지 않았다.

병원의 보험청구 심사 프로그램을 공급하는 한 개발업체는 2008~2014년, 7500개 병원으로부터 수집한 진료·처방 정보 약 7억1000만 건 가운데 4억3000만 건을 3억3000만원에 미국계 기업 IMS헬스코리아에 판매했다. 한국약학정보원은 2011~2014년, 가맹 약국에 무료 배포한 경영관리 프로그램으로 1만여 약국의 조제 정보 43억여 건을 수집해 IMS헬스코리아에 16억원을 받고 팔았다. 환자·약사·의사들은 이러한 사실을 모르고 있었다.

기소된 이 기업들은 주민등록번호를 알파벳 치환 방식으로 암호화했기 때문에 환자의 인적 사항은 안전하다고 주장했다. 사실이 아니었다. 하버드 대학 스위니 박사는 한국인 주민번호 알고리즘을 이용해 암호를 손쉽게 풀어내는 시범을 보였다. 그 방법을 논문으로도 발표했다. 개인정보 보호에 ‘128비트 암호화’ 기술을 적용했다는 한국약학정보원이 해독값을 USB에 담아 IMS헬스코리아에 전달한 사실이 밝혀졌다. IMS헬스코리아는 이 데이터로 무엇을 했을까? 미국 본사에 자료를 보내 병원·지역·연령 특성에 따른 약물의 사용 현황 등을 통계분석한 뒤 이를 다시 국내 제약회사들에 팔아 약 70억원 수익을 얻은 것으로 알려졌다.

많은 사람들이 데이터에서 이름이나 주소, 주민등록번호 같은 개인정보를 삭제하거나 가명처리 같은 ‘비식별화’ 조치를 취하면 안전하리라 생각한다. 하지만 이런 흩어진 정보 조각들을 모으면 특정 개인을 식별해내거나 프로파일링할 수 있다. 특정 소집단을 찍어 관련 정보를 추출하는 것도 가능하다. 사실 한국 정부가 추진하는 ‘데이터 댐’이나 ‘빅데이터 플랫폼’ 사업도 다양한 데이터에 흩어져 있는 정보들을 연계 분석해 잠재력을 극대화하려는 접근이다. 데이터는 연계와 결합을 통해 시너지가 생겨나지만, 그만큼 위험도 커진다.

앞서 한국 주민등록번호 재식별화 방법에 대한 논문을 발표했던 스위니 박사는 학생 시절이던 1997년, 미국 매사추세츠주가 연구자에게 무료로 제공하는 익명화된 주 공무원 의료 데이터를 이용해 주지사의 개인기록을 정확히 찾아냈다. 의료 데이터에는 환자의 이름과 주소가 제거되어 있었지만 생년월일, 성별, 우편번호 정보가 담겨 있었다. 2019년 유럽 연구자들이 네이처 커뮤니케이션스에 발표한 논문은 15개 사회인구학적 속성 변수만 있으면 미국 인구의 99.87%를 재식별할 수 있다고 보고했다.

2014년 2월26일 인천경찰청 사이버수사대가 개인정보 탈취 혐의로 김 아무개씨 등 2명을 구속했다. *ⓒ연합뉴스*

한국처럼 전 국민이 주민등록번호로 식별되는 경우 우려는 더 커진다. 비식별화 및 암호화 조치를 취한 데이터라 하더라도 어둠의 경로로 유출되거나 상대적으로 규제가 느슨한 다른 데이터와 연계되면서 재식별 가능성이 발생하기 때문이다.

필자는 열변을 토했지만, 지금까지의 이야기에 별다른 문제의식을 느끼지 못하는 독자들이 많을 것으로 짐작한다. 체념인지 관대함인지, 한국인 중에는 개인정보 문제에 유독 대인배 풍모를 보이는 이들이 많다. “어차피 다 털렸는데 뭐, 한국 주민번호는 공공재 아님? 중국에서 한국인 주민번호 하나에 30원이라며?” 대규모 개인정보 유출 사건을 여러 차례 경험한 탓이다. 3500만명의 정보가 유출된 2011년 네이트·싸이월드 사건, 무려 1억4000만명의 정보가 유출되었다는 2014년 국민카드·농협카드·롯데카드 사건을 무사히 피해갔던 필자도 2014년 KT 홈페이지 해킹 피해자 1200만명, 2016년 인터파크 정보유출 피해자 1000만명에는 기어이 이름을 올렸다.

그러나 해외에서 ‘논란’이 되는 정보 유출 사례들이 한국에서는 반응이 미적지근하다. 영국 런던의 왕립자유병원은 2015년 급성 신장손상 진단을 돕는 스트림스(Streams)라는 앱 개발을 위해 160만 건의 진료기록을 구글 딥마인드에 제공했다. 그런데 환자의 동의나 공적 토론, 연구윤리 심의, 적절한 투명성 절차가 없었다는 점에서 상당한 논란이 되었다. 미국에서는 구글이 헬스케어 시스템 업체인 어센션(2600여 개 병원 운영)과 제휴해서 이 업체의 환자 수백만 명의 의료정보를 수집하다가 반발에 부딪혔다. 환자와 의료진은 이런 사실 자체를 몰랐다. 미국 정부는 현재 이 사건을 조사 중이다.

그러나 한국에선 2018년 서울아산병원·카카오인베스트먼트·현대중공업지주가 모여 ‘아산카카오 메디컬데이터’ 프로젝트를 발표했을 때나, 네이버·분당서울대병원·대웅제약이 손잡고 공동연구 추진을 발표했을 때 거의 논란이 일지 않았다. 정보 주체의 동의 없이 가명 정보의 상업적 활용을 촉진하도록 하는 이른바 ‘데이터 3법’이 작년에 통과되었을 때에도 시민단체의 비판과 우려의 목소리는 경제적 성과를 기대하는 각종 기사들에 묻혀버렸다.

무엇을 할 것인가. 데이터를 꽁꽁 싸매고 활용을 가로막는 것이 정답인가? 그래야 환자와 의료진의 권리를 보호할 수 있을까? 일부 연구에 따르면, 환자들은 ‘공익’과 다른 환자들을 위해 기꺼이 자신의 정보를 공유하려는 의사가 있는 것으로 나타난다. 이 주제를 다룬 개별 연구 결과 25편을 종합한 2016년 논문에 따르면, 대중의 다수는 연구 목적으로 이뤄지는 데이터 연계와 공유에 동의했다. 반면 어떤 식으로 데이터가 활용되는지에 대해서는 잘 모르고 있었다. 만일 자신의 데이터가 연구 이외 목적으로 팔려나가 제약회사의 영업활동이나 민간 보험상품을 개발하는 데 쓰인다면 흔쾌히 동의할 사람은 많지 않을 것이다. 문제는 보건의료 분야에서 순수한 공익적 연구와 상업적 연구개발 사이의 경계가 늘 뚜렷하지는 않다는 점이다. 공익적 연구 결과가 제품 개발로 이어져 상업적 이윤을 내기도 하고, 이윤을 목적으로 개발된 의약품도 결국 환자 치료에 도움이 되니 공익적 활동이나 다름없다고 주장하기도 한다.

2018년 8월29일 서울 송파구 서울아산병원에서 서울아산병원·카카오인베스트먼트·현대중공업지주 경영진이 ‘아산카카오 메디컬데이터’ 프로젝트를 발표하고 있다. *ⓒ카카오 제공*

내 데이터는 나의 것?

이런 상황에서 정보 주체인 환자 개인에게 데이터 ‘소유권’을 확립시키자는 주장이 힘을 얻고 있다. 미국의 시민참여 기반 정밀의학 프로젝트인 올 오브 어스(All of Us)는 “당신은 자신의 데이터를 소유할 필요가 있다. 이것은 시민적 권리다”라고 천명했다. 오픈 휴먼스(Open Humans) 같은 플랫폼은 사람들이 자신의 데이터를 연구자들과 공유하고 분석에 참여하는 모델이다. 페이션츠라이크미(PatientsLikeMe)는 특정 질환에 걸린 환자들이 정보를 공유하면 이를 연구에 활용하는 방식으로 운용되는 플랫폼이다.

더 나아가 환자가 자신의 데이터를 연구자나 기업에 직접 팔 기회를 가져야 한다는 주장도 있다. 새로운 ‘데이터 경제’로부터 환자가 직접 혜택을 볼 수 있어야 한다는 것이다. 환자들이 순진하게 데이터를 기업에 공짜로 주기만 하고 엄청난 돈벌이의 혜택은 전혀 보지 못한다면서, 환자가 건강 데이터의 ‘거래자’로 시장에 직접 참여할 수 있게 해야 한다는 주장이다. 정부가 적극 추진 중인 ‘마이데이터’ 사업의 취지도 데이터 ‘소유권’ 개념에 기초하고 있다.

그러나 환자가 데이터를 직접 소유한다고 해서 개인정보 침해, 경제적 소외 같은 문제가 풀릴까? 걱정스러운 부분은 환자들이 데이터를 스스로 보호할 역량이 충분치 않다는 점이다. 데이터의 2차 활용에 대한 ‘본인 동의’ 절차가 마련된다고 해도 언제, 누구에 의해, 어떤 방식으로 데이터가 활용될지, 환자 스스로 정확하게 판단하고 결정하는 것은 매우 어려운 일이다. 소비자 처지에서는 해당 정보가 얼마 동안 보관되는지, 어떤 사람이나 업체에 제공되는지, 다른 데이터들과는 어떻게 연계되는지 등을 꼼꼼히 따지고 판단하긴 어렵다. 또한 데이터가 부당하게 활용되어 개인이 피해를 보는 경우에도 이에 적절하게 대처할 수 있는 사람은 결코 많지 않다. 정보와 권력이 압도적으로 기업에 집중되어 있기 때문이다.

좀 더 근본적 이슈도 있다. 진료 데이터는 환자에 대한 것이지만 환자가 직접 생성하는 것은 아니다. 의료진이, (공적 재원으로 마련된) 의료체계 인프라를 이용하여, 환자와 함께 데이터를 생성한다. 그렇다고 이 정보가 의료진이나 의료기관의 소유인 것만도 아니다. 애초에 환자가 없었다면 데이터도 없었을 테고, 데이터를 수집하는 일 자체가 개별 의료진이나 기관의 선택이 아니라 법적 제도와 보건의료 인프라에 깊숙이 배태되어 있기 때문이다.

이런 측면에서 보자면, 보건의료 데이터의 소유권, 특히 사적 소유의 배타적 권리를 보장하는 것으로는 문제를 해결하기 어려워 보인다. 그보다는 데이터와의 관계적 측면을 중심으로 이해당사자들이 머리를 맞대는 것이 좀 더 적절할 듯하다.

시민들은 코로나19 유행을 거치면서 안전과 관련한 신뢰가 구축되는 과정을 몸소 학습했다. 백신접종과 관련한 시민들의 우려가 무엇인지 정부가 귀를 기울이는 것, 나타날 수 있는 이상반응을 설명하고 어떻게 대처해야 하는지 시민들에게 미리 알려주는 것, 모니터링 체계를 통해 문제를 드러내고 과학적 평가를 하는 것이 ‘백신은 완전무결하다’는 호언장담보다 더 큰 믿음을 주었다. 데이터도 마찬가지일 터이다. 우리에게 필요한 것은 암호화하고 비식별화했으니 괜찮다는 장담이 아니다. 데이터 공유, 결합, 마이닝의 가치와 잠재적 문제점이 무엇인지 시민들이 충분히 알 수 있어야 한다. 그리고 모두에 의해 생성된 데이터를 어떻게 안전하고 공평하게 공공의 이해를 증진하는 데 활용할 수 있을지, 문제에 직면했을 때 어떤 방식으로 대응하고 개선 방안을 마련할지 등에 대한 투명한 절차와 민주적 거버넌스를 구축해야 한다. 보건의료 빅데이터 시대, 인공지능의 시대에 다시 ‘민주주의’를 말한다.

기자명 김명희 (시민건강연구소 상임연구원) 다른기사 보기 editor@sisain.co.kr

이 기사를 공유합니다