check 3d gpu
바로가기
메뉴로 이동
본문으로 이동

구글 ‘꿀알바’, 머신러닝에 일조하다

머신러닝은 컴퓨터 프로그램에게 학습시키는 기술이다. 하지만 응용 능력이 없거나 있더라도 미리 짐작하기 어려워 사람을 학습시키는 것보다 훨씬 많은 데이터가 필요하다.

김응창 (SK텔레콤 디바이스&시큐리티 랩 매니저) webmaster@sisain.co.kr 2017년 08월 21일 월요일 제517호
댓글 0

누가 영국 산업혁명을 일으켰을까? 굳이 한 사람을 꼽으라면 증기기관을 만든 제임스 와트를 들 수 있다. 그는 18세기 말에 증기기관의 효율을 크게 높일 수 있는 아이디어를 냈다(분리형 응축기). 그의 기술은 면직물 공업과 제철업·광업·운송업 등 여러 산업에 근본적인 변화를 가져왔다. 특히 증기기관차는 세계 곳곳을 달리며 기계문명의 시작을 알렸다. 와트의 이름은 일률(Power)의 단위(Watt)로 영원히 남았다.

사실 와트 이전에도 증기기관은 있었다. 18세기 초 토머스 뉴커먼이 개발한 증기기관이 그것이다. 당시로서는 혁신적인 기술이었지만 효율성이 떨어졌다. 할 수 있는 일에 비해 에너지원인 석탄이 너무 많이 들었다. 뉴커먼의 증기기관은 석탄 걱정 없이 마음껏 쓸 수 있는 곳에서만 사용 가능했다. 바로 석탄 광산이다. 뉴커먼 기관은 석탄 광산의 배수펌프로 활용됐다.

ⓒ스탠퍼드 대학
미국 스탠퍼드 대학의 페이페이 리 교수(아래)는 2007년부터 영상인식 학습 데이터 모음인 ‘이미지넷’을 만들었다.

영국 셰필드 대학의 닐 로런스 교수는 현재의 ‘머신러닝(기계학습:인공지능 기술의 대표적인 분야)’ 기술이 와트 이전 뉴커먼의 증기기관과 비슷한 수준이라고 생각한다. 머신러닝에 필요한 ‘학습 데이터’가 바로 18세기 ‘석탄’에 해당한다. 머신러닝 기술은 매우 비효율적이어서 ‘학습 데이터가 엄청나게 풍부한’ 곳에서만 쓸 만하다는 뜻이다. 아직 폭넓게 쓰기에는 부족한 기술이라는 뜻일 수도 있다.


좀 실망스러운 진단이지만 많은 전문가들이 공감한다. 머신러닝은 컴퓨터 프로그램에게 학습을 시키는 기술이지만, 프로그램이 ‘사람처럼’ 학습한다는 뜻은 아니다. 여기서 학습은 이미 알고 있는 문제와 정답, 즉 예제들을 프로그램에 입력해 활용한다는 뜻이다. 기계가 새로운 문제를 푸는 방식은 사람과 다를 뿐만 아니라 직관적이지도 않다. 최신 머신러닝 알고리즘일수록 더 그런 편이라 연구자들도 “왜 되는지 모르겠다”라는 말을 종종 한다.

그 때문에 머신러닝 프로그램을 학습시키기 위해서는 사람을 학습시키는 것보다 훨씬 많은 데이터가 필요하다. 응용 능력이 없거나, 있더라도 사람과 달라 미리 짐작하기 어렵다. 예를 들면 사람은 어떤 동물이 고양이인지 배우기 위해 사진 몇 장이면 충분하다. 그러나 머신러닝 프로그램은 수천 장의 고양이 사진뿐 아니라 고양이와 구분하기 위한 다른 동물 사진이 또 수십만 장 필요하다.

이런 학습 데이터의 중요성을 연구자들이 가장 잘 알고 있다. 로런스 교수는, 최근의 머신러닝 성능이 나아진 것은 알고리즘의 발전이라기보다 활용할 수 있는 데이터가 많아진 덕이라고 본다. 미국 스탠퍼드 대학의 페이페이 리 교수는 일찌감치 데이터의 중요성을 깨달았다. 그녀는 2007년부터 영상인식 학습 데이터 모음인 ‘이미지넷’을 만들기 시작했다. 얼핏 허드렛일처럼 보이는 작업이다. 한 동료가 “종신 교수가 되려면 좀 더 쓸모 있는 일을 하라”고 조언할 정도였다. 그녀는 자금 압박에 시달리면서도 확신을 버리지 않았다. 167개국의 5만명 가까운 작업자가 사진을 보면서 “고양이가 침대에 앉아 있습니다” “소년이 코끼리를 쓰다듬고 있습니다” 같은 설명을 달았다. 결국 10억 장 이상의 데이터를 만들었다. 이렇게 만들어 공개한 데이터는 영상 인식과 머신러닝 기술 발전에 핵심적 기여를 했다. 그녀는 수많은 상을 받았고, 2012년 종신 교수로 승진했다.

페이페이 리 교수가 한 것처럼, 머신러닝을 위한 석탄 광산은 시간과 돈을 들여 만들 수 있다. 또 돈이 많고 학습 데이터의 중요성을 안다면 이미지넷처럼 공개된 광산이 아닌 ‘사유 광산’도 만들 수 있다.

ⓒ시사IN 윤무영
마이크로소프트의 머신러닝 프로그램 ‘애저ML’을 구동시킨 컴퓨터 화면.

구글이 그렇게 하고 있다. 얼마 전 우리나라의 한 인터넷 커뮤니티에서 ‘구글 녹음 알바’ 경험담이 관심을 끌었다. 화면에 표시된 1000문장 정도를 읽어주면 미화 50달러를 주는데, 두 시간 정도 걸리니까 시급 2만5000원꼴이다. 집에서 할 수 있는 ‘꿀알바’로 여기는 지원자도 있었지만 생각보다 목이 아파 힘들다는 이도 있었다. 지원을 신청한다고 모두 할 수 있는 것도 아니다. 지원해도 뽑히지는 않고 오히려 어린이를 찾아달라는 의뢰를 받았다는 사람도 있었다. 어린이의 음성 데이터가 따로 더 필요한 이유도 머신러닝 기술의 응용 능력이 떨어지기 때문이다. 아동 노동은 4배 이상 더 값을 쳐준다(6~16세 아동의 경우 500문장을 읽으면 115달러를 준다고 한다). 한국말을 가장 잘 알아듣는 사람은 한국인이지만 프로그램 중에서는 구글이다. 어차피 머신러닝 프로그램은 사람이 말을 듣고 이해하는 것과는 다른 방식으로 음성을 문장으로 바꾼다. 


쉽게 구할 수 있는 머신러닝 프로그램

대량으로 쌓은 학습 데이터는 새로운 진입 장벽 구실을 한다. 최근 소프트웨어 산업은 경공업에서 중화학공업으로 진화하는 시기와 비슷하다. 모두가 아는 것처럼 신발공장 같은 경공업은 적은 자본으로도 시작할 수 있어 경쟁이 심해졌고 갈수록 수익률이 낮아졌다. 한국은 큰 자본이 필요하지만 진입 장벽이 높아 오랫동안 수익을 낼 수 있는 중화학공업에 도전했고, 결국 성공했다.  

구글과 같은 ‘기술 공룡’이 그런 미래를 꿈꿀지 모른다. 과거 프로그램 기술은 남이 비교적 쉽게 따라할 수 있었다면, 머신러닝 프로그램은 대규모 학습 데이터가 없으면 따라할 수 없으므로 오랜 기간 독점적 지위를 누릴 것이라고 기대할 수 있다. 물론 구글이 단순히 데이터 부자이기 때문만은 아니다. 이미 최고 수준의 머신러닝 알고리즘 기술력도 가지고 있다.

진입 장벽이 높은데도 개인이 접근해볼 통로는 열려 있다. 많은 사람들이 머신러닝에 관심을 두고 있으면서도, 개인이 할 수 있는 게 없다고 막연하게 생각한다. 하지만 머신러닝 프로그램은 생각보다 쉽게 구할 수 있다. 구글·마이크로소프트·페이스북·아마존·소니 같은 기업이 머신러닝 프로그램을 오픈소스로 공개하거나 지원하고 있다. 이를 실행하기 위해 컴퓨터를 살 필요도 없다. 마이크로소프트의 머신러닝 프로그램 ‘애저ML’과 같은 서비스는 엑셀 파일을 업로드하면 자신들의 서버에서 머신러닝 프로그램을 실행해 결과를 알려준다. 심지어 로그인하지 않아도 이런 기능을 실행해볼 수 있을 만큼 사용자 유치에 적극적이다.

‘기술 공룡’들이 적극적인 이유는 알고리즘보다 ‘석탄 광산’이 더 필요하다는 판단 때문이다. 석탄 광산을 찾는 일은 단순히 데이터를 모으는 것이 아니다. 머신러닝을 활용할 수 있는 분야를 찾는 것이다. 내가 매일 처리하는 커다란 엑셀 파일 속에 어쩌면 머신러닝으로 풀 수 있는 문제가 있을지도 모른다. 언젠가는 와트 같은 사람이 나타나 분리형 응축기 같은 발명을 해낼지 모른다. 하지만 그때까지는 ‘석탄 광산’을 찾아낸 사람이 돈을 벌 것이다.

<저작권자 ⓒ 시사IN (http://www.sisain.co.kr) 무단전재 및 재배포 금지>