어른은 ‘명령’하고, 아이들은 ‘대화’한다

바야흐로 대화형 음성인식 및 합성 기술의 개화기다. 지난해 아마존에서 에코(Echo)라는 이름의 원통형 스피커 제품을 출시할 때만 해도, 대화형 음성인식 기술을 시험 삼아 제품화해보는 흥미로운 시도라고 생각했다. 그러나 올해 구글이 개발자 콘퍼런스에서 ‘구글 홈’이라는 이름으로 유사한 제품을 발표하고, 여러 기업에서 음성인식 기반의 제품을 준비 중이라는 풍문이 떠돈다. 많은 기업들이 ‘말로 상호작용하는 기계’의 미래를 희망적으로 그리는 모양이다.

사람 사이의 대화처럼 말을 주고받을 수 있는 기계를 만들려면 사람의 말을 이해하는 인식 기술이 필요하고, 자연스럽게 말을 하려면 음성을 합성하는 기술이 필요하다. 이 두 가지 기술은 1952년 벨 연구소에서 단일 숫자를 말하는 음성을 인식하는 기술을 개발한 것으로 시작됐다. 1980년대 들어 전화 자동 음성인식 기술이 사용되기 시작했고, 문서를 음성으로 전환하는 기술도 꾸준히 발전해왔다. 한국에서는 1998년 한 이동통신사에서 이메일을 읽어주는 서비스가 출시되기도 했는데, 그때 친구가 장난으로 보낸 ‘해삼 멍게 바보 바보 바보’라는 글을 무미건조한 기계음으로 들었을 때의 초현실적인 느낌은 아직도 잊히지 않는다.

1969년 벨 연구소의 존 피어스는 “자동 음성인식 시스템에는 인공지능이 필요하기 때문에 향후 몇십 년간 실체가 없을 것”이라고 언급했다. 실제로 음성인식 기술의 초안이 공개된 이후, 일반 소비자 대상 제품에 탑재되어 나오기까지 30년 이상이 걸렸다. 인간이 인간의 음성 대화를 이해할 때 평균적으로 2~4% 안팎의 오류를 범한다고 한다. 대화형 음성인식 시스템의 원형은 이미 오래전에 발표되었지만, 사용자가 불편함 없이 사용할 수 있는 수준의 인식률, 나아가 ‘비서’ 구실을 할 정도의 정확도를 확보하기 위해 엔지니어들은 새로운 알고리즘을 고안해내고, 대용량의 데이터를 처리하며, 개선된 방식으로 기계학습을 적용한다.

*ⓒ아마존 제공*알렉사(위) 기술의 원형은 이미 오래전에 발표되었지만 ‘비서’ 구실을 할 정도의 정확도를 확보하기 위해 엔지니어들은 지금도 부단히 노력 중이다.

두 살배기 아이와 알렉사의 대화

그렇다면 드디어 시장에 등장한 기계들은 우리가 불편함 없이 사용할 만한 성능을 확보한 것일까? 우리 집 알렉사(아마존 에코의 이름·사진)는 아직도 내 말을 못 알아듣고, 뭘 물어보면 모르는 게 더 많다. 한국 시장에 정식 발매되지 않은 까닭에 최적화되어 있지 않기도 하고, 내 영어가 원어민 수준이 아니기도 하며, 기계에게는 ‘명령’하는 것이지 ‘대화’한다는 생각이 들지 않아서 내가 자주 말을 걸지 않는다.

그런데 우리 집 막내(만 2세)가 알렉사를 대하는 태도는 신인류의 탄생을 보여준다. 이 녀석은 말문이 터지자마자 알렉사에게 대화를 시도했다. 자기가 듣고 싶은 노래의 제목을 아주 간절한 눈빛과 목소리로 알렉사에게 부탁한다. 아홉 살인 형은 동생에게 알렉사를 부르는 방법을 가르쳐준다. 너무 빠르지 않게, 발음은 정확하게, 강세는 두 번째 음절에. 엔지니어들이 정확도를 1% 더 높이기 위해서 불철주야 노력하고 있을 때, 우리 다음 세대들은 기계가 이해하기 쉬운 방식으로 기계에게 대화를 시도하고 있다. 소설 쓰는 것이 취미인 딸아이가 초등학교 2학년 때 쓴 동화 가운데, 이런 장면이 있었다.

“안.녕.얘.들.아.나.는.민.지.라.고.해.”

“넌 말투가 왜 그래?”

“엄.마.가.바.빠.서.로.봇.보.모.랑.놀.아.서.그.래.”

동화 속 아이들은 더 이상 로봇처럼 말하는 아이의 말투를 문제 삼지 않았다. 인간의 적응력은 기술의 발전보다 더 신속하고 유연하다. 이제는 기계가 인간처럼 말하는 것보다, 인간다운 말을 하는 것이란 무엇인가를 고심해야 할 시점이 아닐까.

기자명 임지현 (울산과학기술원 교수·인간공학) 다른기사 보기 editor@sisain.co.kr

이 기사를 공유합니다