check 3d gpu
바로가기
메뉴로 이동
본문으로 이동

나무위키 데이터 이렇게 분석했다

나무위키의 ‘메갈리아’ 항목 데이터를 분석한 ‘정의의 파수꾼들?’ 기사의 분석 방법론과 관련해 다양한 문제 제기가 있었다. 이에 ‘정크 데이터’를 어떻게 걸러내서 반달리즘을 극복했는지 그 방법을 설명한다.

김학준 (아르스 프락시아 미디어분석팀장) webmaster@sisain.co.kr 2016년 09월 12일 월요일 제469호
댓글 0
위키 사이트인 나무위키의 ‘메갈리아’ 항목 데이터를 분석한 <시사IN> 제467호 ‘정의의 파수꾼들?’ 기사가 큰 파장을 일으켰다.

온라인 세계에서 대규모로 등장한 ‘분노한 남자들’의 집단심성을 추적한 이 기사는 몇 가지 기존 통념을 무너뜨렸다. 첫째, 남자들의 분노는 워마드로 대표되는 노골적인 남성혐오 커뮤니티의 등장이나 ‘메갈리아 티셔츠’ 사태 이후에 폭발한 것이 아니었다. 분노한 남자들의 집단심성은 메갈리아 등장 초창기인 2015년 여름과 가을에 걸쳐 이미 형성이 끝나 있었다.

둘째, 집단심성이 워마드나 티셔츠 사태 이전에 형성되었다고 해도, 이 분노한 남자들이 초기 메갈리아의 남성혐오 정서를 한발 먼저 포착한 것일 수도 있다. 하지만 이런 가설도 역시 기각되었다. 데이터 분석 결과, 분노한 남자들의 초기 집단심성을 주도하는 키워드는 ‘성기’ ‘크기’였다. 노골적인 성적 대상화를 당하는 경험이 핵심이었다. 온라인 공간에서 여성들이 일상적으로 당하는 성적 대상화의 수위를 고려하면, ‘성기’ ‘크기’ 정도의 성적 대상화를 대단히 이례적인 혐오 발언으로 보기는 어렵다. 메갈리아가 남성혐오 사이트라는 합의는 여러 사건을 겪으며 오래 축적된 결과물이 아니었다. 메갈리아가 등장하자마자, 구체적으로는 성기 크기로 남성을 대상화하는 순간 폭발하듯 태어났다.

기사가 공개되자 기사의 분석 방법론이 오류라고 주장하는 반론이 나무위키와 온라인 커뮤니티 등에서 제기되었다. 나무위키의 특성을 이해하지 못해 ‘정크 데이터’를 포함시켰다는 주장이 가장 두드러졌다. 분석을 진행한 아르스 프락시아 김학준 미디어분석팀장이 제기된 방법론적인 반론을 검토했다. 결과를 문답식으로 정리한다. <편집자 주>



M16_9128.jpg
Q1. <시사IN>이 공개한, 분석 대상이 된 수정 글자수는 299만7430글자다. 대규모 삭제(‘반달리즘’)로 발생한 삭제 글자수를 대거 포함하고 있다. 반달리즘과 같은 정크 데이터를 포함했으니 오류 아닌가?


분석 대상이 된 수정 글자수는 299만7430글자다. 반달리즘을 정크 데이터로 분류해 제거하는 과정은 분석 과정의 일부이다. 분석팀은 이 데이터를 분석하는 과정에서 문서 전체에 대한 광역 삭제 및 복원과 같은 다양한 문서 반달리즘을 확인했다. 이번 분석 기사의 핵심은 반달리즘을 포함한 수정 행위를 통해 나무위키 이용자들이 민감하게 느끼는 쟁점이 무엇인지를 발견하고 드러내는 일이다. 그러므로 수정 전쟁의 결과물을 폐기하는 것이 오히려 타당하지 않다.

그러나 문서를 통으로 삭제하는 악의적 반달리즘은 의미 있는 수정이라고 보기 어렵기 때문에 필터링할 필요가 있다. 분석팀은 반달리즘을 “A문서와 B문서 간의 수정값 합이 0인 문서”로 정의했다. 예를 들어 나무위키 ‘메갈리아’ 항목의 990버전과 991버전은 4만2163자의 문서가 통째로 삭제되고 그 즉시 복원한 경우로, 이 경우 두 문서 수정값의 합은 0이다. 이럴 경우 반달리즘으로 판단한 것이다. 이런 기준에 따라 삭제된 문서는 245건, 수정 글자수로 따지면 249만2203자가 분석에서 제외되었다. 그 결과 의미가 있는 것으로 확인된 데이터는 총 2423건의 원문 가운데 2178건의 문서를 대상으로 50만5227글자이다.



Q2. 반달리즘 분석이 포함될 경우와 그렇지 않을 경우 결과는 어떻게 다른가?


분석팀은 이번 프로젝트를 진행하면서, 반달리즘 제거 여부가 분석 결과에 중대한 영향을 끼치는지를 알아보기 위하여 반달리즘 데이터를 포함한 분석도 했다. 즉, 299만7430글자의 원 문서에 대한 데이터 분석도 실제 결과물인 50만5227글자 의미망 분석과 비교하기 위해 진행했다. 두 데이터의 비교 결과 의미망 패턴에 중요한 영향을 주지 않았다. 논란의 중심이 된 ‘성기’ 키워드 역시 두 분석 모두에서 상위 키워드에 포함됐다. 동일한 결과가 나온 것은 문서 간의 연속성, 다시 말해 나무위키 이용자들의 합의가 유지되었기 때문이다.



스크린샷 2016-09-05 오후 3.02.33.png
나무위키의 ‘성기’ ‘크기’ 관련 설명이 진화하는 과정 중 한 대목. 위에서부터 2015년 10월17일, 10월25일, 11월13일, 11월14일 수정 결과.
Q3. 나무위키 ‘메갈리아’ 항목은 ‘비판’ ‘성향’ 등 다양한 독립 항목이 있는데 기사는 ‘메갈리아’만을 분석 대상으로 삼았다. 중요한 비판 담론을 빼고 분석한 것 아닌가?


분석팀은 ‘비판’ ‘사건사고’ ‘성향’ 등 하위 문서 데이터 역시 사전에 수집하고 분석했다. 그러나 분석 결과 지면에 실을 정도의 차별점이 없었다. 나무위키의 ‘메갈리아’ 담론이 안정된 것은 하위 문서 분리보다 한참 전이다.



Q4. 나무위키의 자유로운 수정 시스템을 이해하지 못한 분석 아닌가? 가령 메갈리아 지지자들이 ‘성기’를 되풀이해 언급하며 조롱한 결과가 데이터로 잡혔다고도 볼 수 있지 않나?


반달리즘으로 인한 데이터 왜곡을 체계적으로 통제했다. ‘성기’에 대한 부분만 설명하자면, 지속적인 조롱보다도 1)메갈리아 대표 이미지에 대한 설명 2)나무위키 이용자들의 ‘팩트를 통한 반박’ 3)성기 크기에 대한 비하를 근거로 한 ‘남성혐오 사이트’ 주장이 주로 이루어졌음을 확인했다. ‘크기’, 그중에서도 ‘㎝’에 대한 나무위키 이용자들의 수정과 서술은 총 47건 발견되었다. 메갈리아 측의 조롱을 반박하는 사례가 주를 이뤘고, 반박의 내용은 시간이 지날수록 상세해졌다(위 <표> 참조).



Q5. 이 분석은 다른 연구자에 의해 재현 가능한가?

물론이다. 의미망 분석 방법론은 1990년대부터 학계에서 활발하게 활용되었고, 아르스 프락시아의 연구 인력들은 지난 수년간 해당 방법론을 자동화한 프로그램을 사용한 연구 결과들을 해외 유수 저널에 출판해왔다. 동일한 데이터를 자동화된 툴에 업로드하면 동일한 결과가 나온다.
<저작권자 ⓒ 시사IN (http://www.sisain.co.kr) 무단전재 및 재배포 금지>