구글 ‘꿀알바’, 머신러닝에 일조하다

누가 영국 산업혁명을 일으켰을까? 굳이 한 사람을 꼽으라면 증기기관을 만든 제임스 와트를 들 수 있다. 그는 18세기 말에 증기기관의 효율을 크게 높일 수 있는 아이디어를 냈다(분리형 응축기). 그의 기술은 면직물 공업과 제철업·광업·운송업 등 여러 산업에 근본적인 변화를 가져왔다. 특히 증기기관차는 세계 곳곳을 달리며 기계문명의 시작을 알렸다. 와트의 이름은 일률(Power)의 단위(Watt)로 영원히 남았다.

사실 와트 이전에도 증기기관은 있었다. 18세기 초 토머스 뉴커먼이 개발한 증기기관이 그것이다. 당시로서는 혁신적인 기술이었지만 효율성이 떨어졌다. 할 수 있는 일에 비해 에너지원인 석탄이 너무 많이 들었다. 뉴커먼의 증기기관은 석탄 걱정 없이 마음껏 쓸 수 있는 곳에서만 사용 가능했다. 바로 석탄 광산이다. 뉴커먼 기관은 석탄 광산의 배수펌프로 활용됐다.

*ⓒ스탠퍼드 대학*미국 스탠퍼드 대학의 페이페이 리 교수(아래)는 2007년부터 영상인식 학습 데이터 모음인 ‘이미지넷’을 만들었다.

영국 셰필드 대학의 닐 로런스 교수는 현재의 ‘머신러닝(기계학습:인공지능 기술의 대표적인 분야)’ 기술이 와트 이전 뉴커먼의 증기기관과 비슷한 수준이라고 생각한다. 머신러닝에 필요한 ‘학습 데이터’가 바로 18세기 ‘석탄’에 해당한다. 머신러닝 기술은 매우 비효율적이어서 ‘학습 데이터가 엄청나게 풍부한’ 곳에서만 쓸 만하다는 뜻이다. 아직 폭넓게 쓰기에는 부족한 기술이라는 뜻일 수도 있다.

좀 실망스러운 진단이지만 많은 전문가들이 공감한다. 머신러닝은 컴퓨터 프로그램에게 학습을 시키는 기술이지만, 프로그램이 ‘사람처럼’ 학습한다는 뜻은 아니다. 여기서 학습은 이미 알고 있는 문제와 정답, 즉 예제들을 프로그램에 입력해 활용한다는 뜻이다. 기계가 새로운 문제를 푸는 방식은 사람과 다를 뿐만 아니라 직관적이지도 않다. 최신 머신러닝 알고리즘일수록 더 그런 편이라 연구자들도 “왜 되는지 모르겠다”라는 말을 종종 한다.

그 때문에 머신러닝 프로그램을 학습시키기 위해서는 사람을 학습시키는 것보다 훨씬 많은 데이터가 필요하다. 응용 능력이 없거나, 있더라도 사람과 달라 미리 짐작하기 어렵다. 예를 들면 사람은 어떤 동물이 고양이인지 배우기 위해 사진 몇 장이면 충분하다. 그러나 머신러닝 프로그램은 수천 장의 고양이 사진뿐 아니라 고양이와 구분하기 위한 다른 동물 사진이 또 수십만 장 필요하다.

이런 학습 데이터의 중요성을 연구자들이 가장 잘 알고 있다. 로런스 교수는, 최근의 머신러닝 성능이 나아진 것은 알고리즘의 발전이라기보다 활용할 수 있는 데이터가 많아진 덕이라고 본다. 미국 스탠퍼드 대학의 페이페이 리 교수는 일찌감치 데이터의 중요성을 깨달았다. 그녀는 2007년부터 영상인식 학습 데이터 모음인 ‘이미지넷’을 만들기 시작했다. 얼핏 허드렛일처럼 보이는 작업이다. 한 동료가 “종신 교수가 되려면 좀 더 쓸모 있는 일을 하라”고 조언할 정도였다. 그녀는 자금 압박에 시달리면서도 확신을 버리지 않았다. 167개국의 5만명 가까운 작업자가 사진을 보면서 “고양이가 침대에 앉아 있습니다” “소년이 코끼리를 쓰다듬고 있습니다” 같은 설명을 달았다. 결국 10억 장 이상의 데이터를 만들었다. 이렇게 만들어 공개한 데이터는 영상 인식과 머신러닝 기술 발전에 핵심적 기여를 했다. 그녀는 수많은 상을 받았고, 2012년 종신 교수로 승진했다.

페이페이 리 교수가 한 것처럼, 머신러닝을 위한 석탄 광산은 시간과 돈을 들여 만들 수 있다. 또 돈이 많고 학습 데이터의 중요성을 안다면 이미지넷처럼 공개된 광산이 아닌 ‘사유 광산’도 만들 수 있다.

*ⓒ시사IN 윤무영*마이크로소프트의 머신러닝 프로그램 ‘애저ML’을 구동시킨 컴퓨터 화면.

구글이 그렇게 하고 있다. 얼마 전 우리나라의 한 인터넷 커뮤니티에서 ‘구글 녹음 알바’ 경험담이 관심을 끌었다. 화면에 표시된 1000문장 정도를 읽어주면 미화 50달러를 주는데, 두 시간 정도 걸리니까 시급 2만5000원꼴이다. 집에서 할 수 있는 ‘꿀알바’로 여기는 지원자도 있었지만 생각보다 목이 아파 힘들다는 이도 있었다. 지원을 신청한다고 모두 할 수 있는 것도 아니다. 지원해도 뽑히지는 않고 오히려 어린이를 찾아달라는 의뢰를 받았다는 사람도 있었다. 어린이의 음성 데이터가 따로 더 필요한 이유도 머신러닝 기술의 응용 능력이 떨어지기 때문이다. 아동 노동은 4배 이상 더 값을 쳐준다(6~16세 아동의 경우 500문장을 읽으면 115달러를 준다고 한다). 한국말을 가장 잘 알아듣는 사람은 한국인이지만 프로그램 중에서는 구글이다. 어차피 머신러닝 프로그램은 사람이 말을 듣고 이해하는 것과는 다른 방식으로 음성을 문장으로 바꾼다.

쉽게 구할 수 있는 머신러닝 프로그램

대량으로 쌓은 학습 데이터는 새로운 진입 장벽 구실을 한다. 최근 소프트웨어 산업은 경공업에서 중화학공업으로 진화하는 시기와 비슷하다. 모두가 아는 것처럼 신발공장 같은 경공업은 적은 자본으로도 시작할 수 있어 경쟁이 심해졌고 갈수록 수익률이 낮아졌다. 한국은 큰 자본이 필요하지만 진입 장벽이 높아 오랫동안 수익을 낼 수 있는 중화학공업에 도전했고, 결국 성공했다.

구글과 같은 ‘기술 공룡’이 그런 미래를 꿈꿀지 모른다. 과거 프로그램 기술은 남이 비교적 쉽게 따라할 수 있었다면, 머신러닝 프로그램은 대규모 학습 데이터가 없으면 따라할 수 없으므로 오랜 기간 독점적 지위를 누릴 것이라고 기대할 수 있다. 물론 구글이 단순히 데이터 부자이기 때문만은 아니다. 이미 최고 수준의 머신러닝 알고리즘 기술력도 가지고 있다.

진입 장벽이 높은데도 개인이 접근해볼 통로는 열려 있다. 많은 사람들이 머신러닝에 관심을 두고 있으면서도, 개인이 할 수 있는 게 없다고 막연하게 생각한다. 하지만 머신러닝 프로그램은 생각보다 쉽게 구할 수 있다. 구글·마이크로소프트·페이스북·아마존·소니 같은 기업이 머신러닝 프로그램을 오픈소스로 공개하거나 지원하고 있다. 이를 실행하기 위해 컴퓨터를 살 필요도 없다. 마이크로소프트의 머신러닝 프로그램 ‘애저ML’과 같은 서비스는 엑셀 파일을 업로드하면 자신들의 서버에서 머신러닝 프로그램을 실행해 결과를 알려준다. 심지어 로그인하지 않아도 이런 기능을 실행해볼 수 있을 만큼 사용자 유치에 적극적이다.

‘기술 공룡’들이 적극적인 이유는 알고리즘보다 ‘석탄 광산’이 더 필요하다는 판단 때문이다. 석탄 광산을 찾는 일은 단순히 데이터를 모으는 것이 아니다. 머신러닝을 활용할 수 있는 분야를 찾는 것이다. 내가 매일 처리하는 커다란 엑셀 파일 속에 어쩌면 머신러닝으로 풀 수 있는 문제가 있을지도 모른다. 언젠가는 와트 같은 사람이 나타나 분리형 응축기 같은 발명을 해낼지 모른다. 하지만 그때까지는 ‘석탄 광산’을 찾아낸 사람이 돈을 벌 것이다.

기자명 김응창 (SK텔레콤 디바이스&시큐리티 랩 매니저) 다른기사 보기 editor@sisain.co.kr

이 기사를 공유합니다