두 차례 공판준비기일을 거친 뒤, 2월17일 국정원 대선 개입 사건에 대한 증인신문이 다시 시작되었다. 원세훈·이종명·민병주 피고인의 변호인들은 검찰이 빅데이터 업체를 통해 수집한 국정원 직원의 트위터 증거 자체가 개인정보보호법을 위반했다고 주장했다. 또 트위터 본사에서 보관한 내용과 한국 빅데이터 업체가 수집한 트위터 내용이 다를 수 있다며, 디지털 증거의 무결성이 입증되지 않았다고 주장했다. 검찰은 이날 수사에 협조한 빅데이터 업체 두 곳의 증인을 내세웠다. 이 가운데 이번 법정 중계는 국내 최대 빅데이터 업체인 ㄷ사 증인신문에 집중했다.


〈div align=right〉〈font color=blue〉ⓒ그림 서혜주〈/font〉〈/div〉2월17일 재판에 증인으로 나선 빅데이터 업체 관계자(맨 오른쪽)는 “기술적으로 트위터 본사에서 보관 중인 트위터 내용과 빅데이터 업체가 제공한 트위터 내용이 같다”라고 말했다.

 검찰의 권 아무개(ㄷ사) 증인신문

검찰(검):트위터 본사 API를 이용해 트위터 정보를 수집하는 것은 어떤 의미인지 설명해달라.

:트위터 본사에서는 트위터 활용을 활성화하기 위해 본사가 가지고 있는 트위터 데이터를 개발자들에게 자유롭게 이용하도록 허용하고 있다. 그래서 우리 회사뿐 아니라 소셜 미디어를 분석하는 업체들은 대부분 트위터 데이터를 분석·수집하겠다고 본사에 신청해서 등록 절차를 밟은 다음 거기서 제공하는 규칙에 따라 수집을 하고 있다.

:API는 애플리케이션 프로그래밍 인터페이스(Application Programming Interface)의 약자로 알고 있는데, API가 구체적으로 어떤 의미인가?

:트위터에서 제공하는 데이터를 수집하도록 허용하는 API에는 두 가지 종류가 있다. 하나는 실시간으로 데이터를 수집하는 스트리밍 API이고, 하나는 특정 계정을 따라가면서 수집하는 두 가지 케이스다. 우리는 두 가지를 모두 활용한다. 일반인이 이해하기 쉽게 설명하면 API는 트위터 본사에서 데이터를 일반 개발자들이 가져가서 사용할 수 있게끔 열어놓은 문이다.

:그렇게 수집해서 데이터베이스화한 API 트윗 정보는 트위터 본사에서 제공한 원본 자료와 내용이 동일할 수밖에 없는 거죠?

:그렇다.

:트위터 본사의 API를 이용해 트윗 정보를 수집하는 경우, 그 계정 사용자에게 따로 동의를 받는 절차가 있나?

:없다.

:트위터 본사의 API를 이용하는 이용자 누구도 그 계정 사용자에게 트윗 정보 수집에 대한 별도의 동의를 받지 않고, 받을 수 있는 방법도 없죠?

:그렇다. 트위터 약관에도 나와 있는데, 트위터 이용자들은 이 데이터가 공개되거나 다른 의도로 사용될 수 있다는 것에 동의하고 사용하는 것으로 안다.

:2013년 10월21일 검찰로부터 압수수색 영장 집행을 통한 자료 제공을 요청받았고, 그 대상이 된 자료는 2011년 1월1일부터 2013년 10월17일까지 국정원 직원이 사용한 463개 계정 명의로 작성된 트위터 글, 같은 기간 이 463개 계정 명의로 작성된 트위터 글을 리트윗 또는 동시 트윗한 글이었는데 맞나?

:맞다.

:2013년 10월21일 검찰 수사관이 압수수색 영장을 제시하며 위 자료를 요청하였을 때 463개 계정 작성 글을 추출하는 것은 용이하지만, 그 463개 계정 작성 글을 리트윗 또는 동시 트윗한 글을 추출하는 것은 기술적으로도 어렵고 작업이 방대하다며 곤란한 입장을 표명했는데 맞나?

:맞다. 463개 스크린네임으로 작성된 230여만 개의 글을 리트윗하거나 동시 트윗한 글을 찾아내기 위해서는 데이터 40억 건을 일일이 찾아야 하기에 저희 업무에 영향이 너무 컸다.

:검찰 수사관과 협의해 463개 계정 작성 글을 먼저 추출해 제공하고, 463개 계정 작성 글을 리트윗 또는 동시 트윗한 글에 대해서는 추출 방법 등을 협의하여 진행하기로 했는데 맞나?

:그렇다.

 변호인의 권 아무개 신문

변호인(변):수집한 데이터가 범인을 잡는 데 사용되어도 되나? 사용될 수도 있나?(방청석 웃음)

:영장에 의해서 데이터를 제공했다.

:영장에 의해서만 제공했나? 좋습니다. 증인께서 의도한 바는 아니지만 증인 회사에서 제공한 정보를 가지고 직접 트위터에 접속해보면 사용자의 인적 사항을 쉽게 파악할 수 있는 것으로 보인다. 검찰이 자료를 요구했을 때 이런 점을 고민하지 않았나?

:트위터 본사에서도 저희가 정보를 가져오는 것을 잘 알고 있다.

:공개된 API를 통해 수집하여 검찰에 제공한 트위터 글과 실제 각 계정의 이용자들이 작성하여 트위터 본사에서 보관 중인 글이 동일한가?

:그렇다. 동일하다.

:동일하다고 말씀하시는데 확실한가? 증인께서 그렇게 생각한다는 건가? 동일하다는 걸 증명할 수 있나?

:제가 알기로는 기술적으로 같지 않을 수 없다고 알고 있다.

:법원에 낸 사실조회 회신 내용에 따르면, 검찰의 압수수색 영장 집행에 따라 트위터 자료를 제출하기 위해 별도의 프로그래밍을 통해 자료를 추출했다고 답변했는데 맞나?

:맞다.

:별도의 프로그래밍을 통해 추출한 자료하고 보관한 자료가 동일한 자료인지 어떻게 보증할 수 있나?

:동일성 여부와는 좀 다른 이야기인데, 저희는 사업을 위해서 아까 말씀드렸듯 키워드 중심으로 데이터를 저장하고 있기 때문에 검찰이 요구한 그 내용을 추출하기 위해서 별도의 프로그래밍을 했다는 뜻이다.

:가공해서 준 건가, 원본을, 로데이터(원자료)를 준 건가?

:법원에 제출한 자료는 로데이터이고, 검찰에 제출한 자료는 추출해서 가공한 자료다.

:앞서 언급한 바와 같이 법원에 낸 사실조회에 따르면, 별도로 프로그래밍하여 자료를 추출하고 이를 검찰에 제공한 것으로 돼 있지 않나. 그럼 자료 추출 프로그램은 어떠한 방식으로 데이터의 무결성을 보장할 수 있나?

:……(헛웃음).

:기계가 거짓말 안 한다고 말씀하실 건가? 그렇게 답변하실 거죠?

:예. 프로그래밍….

판사:변호인 신문에서 트위터 정보를 색인해 저장한다는 의미가 API 원본 데이터 그대로가 아니라 가공된 것이다,라고 했는데 거기서 가공이란 의미가 한자로 쓰면 ‘더하고 고친다’는 뜻인데 그런 의미의 가공을 얘기하는 것인가? 아니면 필드별로 정리해서 그 (트위터) 내용은 변함이 없다는 의미인가?

:두 번째다.

 "응답하라 7452" 시사IN 국정원 크라우드 저널리즘 바로 가기
기자명 전혜원 기자 다른기사 보기 woni@sisain.co.kr
저작권자 © 시사IN 무단전재 및 재배포 금지
이 기사를 공유합니다
관련 기사