딱딱한 경제 기사 문장에도 ‘감성’이 있다. 한국은행 경제통계국의 조사역·조사원 네다섯 명이 2019년 상반기부터 몇 달 동안 경제 기사의 ‘감성’을 ‘긍정·부정·중립’의 카테고리로 분류했다. 기사에 나타난 경제심리를 지수화한 뉴스심리지수(NSI, News Sentiment Index)를 만들기 위해서다.

먼저 한국지능정보사회진흥원으로부터 인터넷 포털사이트의 경제 분야 뉴스 기사를 제공받았다. 2005년 이후 뉴스 기사 중에서 무작위로 표본 문장을 추출해 뉴스의 ‘감성’을 문장 단위로 분류했다. 세 문장을 예로 들어보자. ‘11월에는 올해 1월에 이어 최근 10개월 만에 가장 큰 폭으로 취업자가 증가했다.’ 이 기사 문장은 ‘긍정’의 뜻을 담고 있다. ‘한국 경제를 이끌던 반도체의 성장률 저하 속에 힘겨운 한 해가 될 것이란 우려다.’ 이 문장은 ‘부정’으로 읽힌다. ‘증권·서비스·운수창고 등의 업종이 상승했고 전기가스·운송장비·섬유의복 등은 하락했다.’ 이 문장처럼 긍정과 부정이 한 문장에 혼재되거나 단순 사실만을 나열한 기사 문장(가령 ‘무역흑자는 65억5000만 달러였다’ 같은)은 ‘중립’으로 분류한다. 오류 방지를 위해 같은 문장을 다른 사람이 크로스체크했다. 이런 방식으로 20여만 개 뉴스 문장을 담은 일종의 ‘문제집’을 만들었다.

사람이 수작업으로 뉴스 기사 문장의 감성을 분류해 학습 데이터(20만 개 문장의 ‘문제집’)를 구축했다. 이처럼 비정형적인 텍스트 데이터로부터 유용한 정보를 추출해내는 과정을 텍스트 마이닝(text mining)이라고 한다. 이 학습 데이터를 기반으로 기계학습(machine learning)을 통해 인공지능(AI)을 만들었다. 기계학습은 AI가 어떤 문제를 해결하기 위한 규칙을 습득하는 것이다. 경제 뉴스 문장을 사람이 일일이 ‘긍정’ ‘부정’ ‘중립’으로 분류하고, 이 데이터를 기반으로 AI를 ‘기계학습’시켜 ‘경제 기사 문장 감성분류기’를 만든 것이다.

이 감성분류기에 50여 개 언론의 기사 문장 1만 개를 넣어서 ‘감성’을 분류한다. 각 문장의 감성을 경제주체(기업·소비자) 및 국내외 이슈별로 구분하고, 기업 및 국내 범주에 해당하는 문장의 감성 분류 결과를 토대로 지수를 산출했다. 이렇게 지수화한 게 뉴스심리지수다(계산식은 이렇다. 특정 기간 내 긍정 문장 수에서 부정 문장 수를 뺀다. 이 숫자를 기간 내 긍정 문장 수와 부정 문장 수를 더한 값으로 나누고, 여기에 100을 곱한다. 이 수치에 100을 더한다). 뉴스심리지수는 0 이상 200 미만으로 산출된다. 일별 지수는 직전 7일간 뉴스 기사를 이용해 작성하고, 월·분기 등으로도 지수화가 가능하다. 100을 초과하면 긍정 문장이, 100 미만이면 부정 문장이 더 많다는 뜻이다.

한국은행은 이 지수를 만들면서 미국 샌프란시스코 중앙은행의 ‘데일리 뉴스 센티멘트 인덱스’를 참고했다. 데일리 뉴스 센티멘트 인덱스는 〈뉴욕타임스〉를 비롯한 미국 16개 언론의 경제 기사 단어를 분석해 지수를 산출한다. 국내의 뉴스심리지수는 미국 샌프란시스코 중앙은행의 방식과는 차이가 있다. 영어는 언어 사용자가 한국어 사용자보다 훨씬 많아서 데이터셋 형식으로 된 ‘감성 사전’이 있다. 샌프란시스코 중앙은행은 일반사전인 ‘WordNet’에 감성 정보를 추가한 ‘SentiWordNet’과 같이 공개된 감성 사전을 활용한다. 가령 ‘crisis(위기)’는 마이너스 몇 점 하는 식으로 정해진다. 그런데 한국어는 이런 ‘감성 사전’이 없다. 게다가 한 단어에 ‘감성 점수’를 매길 때 난점이 생긴다. 가령 예전에 ‘코로나’라고 하면 맥주회사를 뜻하는데, 지금은 감염병을 의미한다. 그렇게 되면 그 단어의 ‘감성 점수’를 바꾸어주어야 한다. 한 단어의 감성 점수가 변하게 되면 시계열화된 지수에도 영향을 미칠 수 있다. 이런 어려움 때문에 한국은행은 처음에 소개한 ‘기계학습’ 방식으로 뉴스심리지수를 개발하게 되었다.

실무진은 기사 단위 분류와 기사의 헤드라인 단위 분류 방법도 검토했다. ‘기사 단위’로 했을 경우 데이터에 ‘노이즈’가 생겼다. 한 기사 안에 긍정과 부정이 합쳐져 있거나 결론이 불확실한 경우가 많았다. 헤드라인은 약어가 많기도 했지만 본문 내용과 다른 경우가 많아 분석이 어려웠다. ‘기사 문장’ 단위로 분류하게 된 이유다.

지수 규모보다 추세를 보는 것이 적합

한국은행 경제통계국이 뉴스심리지수를 개발한 것은 2020년 2월. 1년 넘게 내부 ‘테스트’를 통해 지수의 정합성·효용성을 검증했다. 어느 정도 정합성이 있다고 판단해 4월 둘째 주부터 시험 공개하고 있다. 매주 화요일 업데이트된다. 2015년부터 시계열 지수를 한국은행 경제통계시스템에서 볼 수 있다.

뉴스심리지수는 지난해 코로나19 1차, 2차 확산기에 위축되었다가 회복하는 모습을 보였다. 3차 확산기 이후 코스피 최고점 돌파 뉴스 등으로 일시 회복했다가 횡보세가 이어지고 있다. 이번에 시험 공개한 뉴스심리지수는 130을 웃도는 ‘긍정적’ 심리를 나타냈다. 세계보건기구(WHO)가 코로나19 팬데믹을 선언한 지난해 3월11일 이후 내림세를 이어갔고, 지난해 3월18일에는 2015년 후 최저치인 77.38을 기록했다.

내부 테스트 결과 뉴스심리지수는 소비자심리지수(CCSI) 같은 주요 경제심리지표와 GDP 같은 실물 경제지표에 1~2개월 선행하며 높은 상관관계를 보였다. 특히 매달 설문조사를 통해 작성·발표하는 소비자심리지수와 높은 상관관계를 보였다. 소비자심리지수나 기업경기실사지수 등은 월 단위로 발표하는데, 뉴스심리지수는 주 단위로 시험 공개하기 때문에 경제심리의 변화를 좀 더 빨리 포착할 수 있다. 개발 실무를 맡은 한국은행 경제통계국의 이영환 과장은 “평균적으로 지수가 114~115가 나왔다. 뉴스심리지수는 지수의 규모보다는 추세를 보고 판단하는 게 적합하다”라고 말했다.

한국은행은 시험 공개 기간 전문가와 협의해 지수의 작성방법, 유용성, 신뢰성을 검증할 계획이다. ‘피드백 현상’이 있는지도 점검한다. 가령 뉴스심리지수가 대외에 공개되면서 ‘뉴스심리지수’ 자체를 다룬 기사가 많아질 수 있다. 뉴스심리지수가 100을 넘었다는 사실을 보도하면서 ‘긍정’ 문장이 늘어날 수 있다. 이 기사들로 인해 지수가 영향을 받는지(피드백 현상)도 검토한다는 것이다.

뉴스심리지수는 한국은행에서 빅데이터를 활용해 만든 첫 번째 지수다. 아직 국가승인 통계는 아니다. 통계청은 올해 2월 ‘시범 통계제도’ 마련을 추진하겠다고 밝힌 바 있다. 시범 통계는 빅데이터 활용 등 기존 통계와 다른 데이터나 방법론을 적용하고, 작성 이후에 품질 제고를 위한 관찰 기간이 필요한 통계를 말한다. 통계청의 시범 통계제도가 마련되면 한국은행은 승인 절차를 진행할 계획이다.

기자명 차형석 기자 다른기사 보기 cha@sisain.co.kr
저작권자 © 시사IN 무단전재 및 재배포 금지
이 기사를 공유합니다