빅데이터가 이전의 데이터 분석과 결정적으로 달라지는 지점은 데이터 샘플링을 굳이 하지 않아도 된다는 점이다. 과거에는 시장조사에 비용이 많이 들었기 때문에, 설문을 돌리거나 표적집단 인터뷰(FGI·Focus Group Interview)를 진행하려면 일정한 기준에 따라 특정 집단 사람들을 골라낸 샘플을 대상으로 조사를 진행해야 했다.
반면 빅데이터 분석은 기본적으로 전수조사다. 복잡한 알고리즘을 통해 데이터를 정제하는 과정을 거치는 것보다, 느슨한 알고리즘에 데이터를 거의 전수에 가깝게 쏟아넣고 돌려보면 의미 있는 결과가 나온다. 대표적인 성공 사례가 구글 번역기다. 실제로 검색 결과값이 적은 한국어를 영어로 번역할 때의 정확도는 낮은 편이지만, 검색 결과값이 많은 일본어를 영어로 번역할 때의 정확도는 꽤 높다.
트위터 멘션을 많이 주고받은 사람들의 프로필 사진으로 이미지를 만들어주는 ‘절친콜라주’라는 서비스 관련 언급도 꽤 많이 등장하고, 음식 이름인 ‘쇼콜라’도 나온다. 영어 조어가 함께 섞이면 상황은 더 심각해진다. 자동차 ‘K9’을 검색하면 ‘K9 자주포’ ‘K9 태블릿’ ‘K9 외장하드’, 심지어는 웹사이트 주소 링크에 들어간 k9까지 함께 걸려 나온다. 콜라나 K9에 대한 분석을 위해 굳이 이런 노이즈 데이터를 분석할 필요는 없다.
단어 연관성 확인하는 등 데이터를 가려내야
최근 일각에서 빅데이터 분석 방법론을 샘플링을 전제로 한 과거의 조사분석 방법론에 대한 안티테제(反)로 여기고, 쏟아지는 빅데이터를 귀납적으로 분석하면 데이터 스스로 답을 토해낼 것이라는 요지의 빅데이터 담론이 자주 들려온다. 하지만 분석 대상과 직접 관련이 없는 노이즈 데이터까지 전수로 다 분석하는 것도 답은 아니다.
빅데이터가 진정한 금맥이 되기 위해서는 무작정 데이터를 최대한 끌어 모아 분석하는 것이 아니라, 명확한 가설 설정을 통한 연역과 엄격한 데이터 선별 과정 등의 ‘스마트’한 데이터 처리 과정이 반드시 필요하다. 이를테면 ‘콜라’라는 단어가 수집이 되었을 때, 그 단어 주위로 어떤 단어가 등장하는지에 따라 이 키워드가 음료 ‘콜라’일 확률을 계산할 수 있다. ‘마시다’ ‘치킨’ ‘상쾌’ 등이 등장하면 음료일 가능성이 높고, ‘친구’ ‘공연’ ‘협동’ 등이 등장하면 ‘콜라보’일 확률이 높다.
이런 분석 능력을 갖춘다면 사람이 개입하지 않고도 빅데이터의 노이즈를 효과적으로 제거할 수 있다. 데이터 분석은 방대한 빅데이터를 기반으로 하되, 그 안에서 의미 있는 데이터를 뽑아낼 수 있는 ‘스마트 데이터’ 분석으로 가야 한다. 샘플링(正)과 현재의 빅데이터 담론(反)의 변증법 속에서 뽑아낼 수 있는 변증법적 종합(合)이다.