앞서 나온 머신러닝 사례는 수치(집값)를 예측하는 것이었다. 이를 ‘숫자 예측’이라고 부르자. 그런데 머신러닝은 숫자 예측 이외에도 쓰임새가 다양하다. 그중 하나는 ‘이다/아니다’를 가리는 ‘식별’이다. 가장 대표적인 사례들로 ‘이메일이 스팸인가/아닌가’ ‘암인가/아닌가’ ‘비가 올 것인가/아닌가’ ‘특정 시청자가 영화 〈아바타〉를 좋아할 것인가/아닌가’ 등을 이미 인공지능이 예측하고 있다. 정확도도 매우 높다.
인공지능이 머신러닝으로 ‘식별의 규칙’을 학습하는 방법 역시 ‘숫자 예측’과 큰 틀에선 다르지 않다. 나름의 예측 방정식을 설정해놓고 이에 현실 데이터를 입력한다. 이를 통해 얻은 예측치를 현실의 실젯값과 비교해서 오차를 얻는다. 이 오차를 최소화하는 방향으로 가중치를 수정해나간다. 오차를 더 줄일 수 없는 시점의 가중치가 나오면 ‘식별 모델’을 완성시킨다.
그러나 ‘숫자 예측 모델’과 ‘식별 모델’ 사이엔 굉장히 중요한 차이가 있다. 식별 모델의 관심은 ‘이다/아니다’를 알아내는 것이다. 컴퓨터는 ‘이다(참)’를 1로, ‘아니다(거짓)’를 0으로 인식한다. 그러므로 식별 규칙을 학습하는 과정에서 나오는 예측값을 0과 1 사이의 수치로 환산(활성화 함수)한 다음 실제 결과(0 혹은 1)와 비교해서 오차를 얻는다. 그다음 과정은 숫자 예측 모델과 똑같다.
예를 들어, 어떤 IT 업체에서 ‘불법 기획부동산 업체가 보낸 스팸메일이다(1)/아니다(0)’를 식별하는 인공지능을 학습시키려 한다. 기획부동산 스팸이라면 아무래도 ‘투자’와 ‘부동산’이란 용어가 들어가 있을 터이다. 이메일에 ‘투자’와 ‘부동산’이 많이 나올수록 스팸일 가능성이 크다. 그래서 ‘부동산이 나오는 횟수(x1)’와 ‘투자가 나오는 횟수(x2)’란 두 개의 특성(원인)으로 ‘스팸이다/아니다(y)’를 예측하도록 인공지능을 학습시킬 수 있다. 〈그림 1〉과 같은 구조의 머신러닝 모델을 퍼셉트론(perceptron)이라고 한다(‘편향’은 설명의 편의를 위해 제외).
간단한 사례를 들어보자. 인공지능이 첫 번째 메일을 읽었는데 부동산이 2회, 투자는 3회 나왔다. x1은 2, x2는 3인 셈이다. 인공지능은 부동산 언급 횟수의 가중치(w1)와 투자 언급 횟수의 가중치(w2)도 대충 1과 4로 각각 설정한다. 이렇게 설정한 w1과 w2를 각각 x1과 x2에 곱한 다음 더한다. 예측값은 14(1×2+4×3)다. IT 업체 측은 예측값이 10 미만이면 0~0.7, 10~13이면 0.8~0.9, 14 이상이면 1로 변환시키는 연산장치(활성화 함수)를 설정해놓았다. 예측값인 14는 1로 변환된다. 스팸으로 예측된다는 이야기다. 그런데 이 이메일의 실젯값은 0으로 스팸이 아니다. ‘영끌’한 젊은이가 친구와 향후 경제 전망에 대해 토론하는 가운데 자신의 ‘부동산’ ‘투자’ 경험을 토로한 내용이기 때문에 해당 단어들이 다수 나온 것이다. 예측값(1)과 실젯값(0) 사이에 큰 오차(1-0=1)가 발생했기 때문에 인공지능은 w2를 4에서 예컨대 2로 수정한다. 이런 과정을 오차가 최소화되는 시점까지 반복해서 예측 모델을 완성한다. 두 가지 특성으로 하나의 결과를 식별하는 이 같은 모델이 성공적으로 작동한 결과를 그림으로 나타내면 〈그림 2〉와 같다.
여기서 동그라미는 스팸이고 별은 스팸이 아니다. 식별을 예측하는 중간의 빨간 선은 ‘스팸’과 ‘스팸 아님’을 정확히 가르고 있다. 이제 어떤 메일이 스팸인지 아닌지 알려면 위의 좌표에 넣어 빨간 선의 위(스팸)에 있는지, 아래(스팸 아님)에 있는지만 보면 된다. 까다로운 듯 보여도 결국 식별 역시 선긋기의 문제다.
복잡한 세상에 맞춰 진화하는 퍼셉트론
이처럼 컴퓨터가 여러 특성을 ‘입력’받아 하나의 예측값(이다/아니다)을 ‘출력’하면서 가중치 수정을 통해 식별 규칙을 만들어나갈(학습할) 수 있다는 발상은 이미 1940~1950년대에 나왔다. 이른바 퍼셉트론이다. 당시에도 ‘잘 작동한다’는 신뢰가 크지는 않았던 것 같다. 1960년대 말에는, 마빈 민스키 당시 MIT 교수가 퍼셉트론으론 컴퓨터가 식별 능력을 제대로 학습할 수 없다는 점을 입증해버렸다. 컴퓨터가 수행하는 단순한 연산(좌표평면에 직선 하나를 긋는 것에 비견된다)만으론 풀 수 없는 논리 문제가 있다는 것이었다.
세상 자체가 그리 단순한 곳이 아니기 때문일 터이다. 사람들 역시 예컨대 선과 악의 특성 자체는 잘 알고 있지만 타인의 구체적 행위를 선악으로 식별(분류)할 땐 헷갈리는 경우가 제법 많지 않은가. 이 기사의 사례를 연장하자면, 부동산과 투자가 언급되는 횟수가 모두 굉장히 많아도 실제로는 ‘스팸 아님’일 수 있다. 예를 들어 수신자가 거래하는 유명 증권사에서 보낸 보고서 메일이라면 〈그림 3〉에서처럼 ‘부동산’과 ‘투자’가 모두 많이 포함(오른쪽 윗부분)되어 있을 것이다. 스팸은 당연히 아니다.
〈그림 3〉에서 직선 하나로 ‘스팸이다(○)/아니다(☆)’를 가를 수 있을까? 절대 불가능하다. 이처럼 퍼셉트론으론 식별도 제대로 할 수 없다는 점이 입증되면서, 인공지능에 대한 투자와 연구자가 격감하는, 이른바 ‘인공지능의 겨울’이 1970년대 초에 시작되었다. 그런데 〈그림 3〉에 선을 그어 분류하는 것은 정말 불가능할까? 기존 관념을 탈피한 〈그림 4〉처럼 차라리 스팸(○)이 밀집한 부분의 양측에 직선을 두 개 그어 분류해버리면 어떨까?
실제로 좌표평면에 선을 두 개 긋는 것에 비견되는 방식으로 머신러닝을 수행하면 식별(분류) 문제를 해결할 수 있다는 것이 입증된다. 퍼셉트론을 여러 층으로 쌓는 해법(다층 퍼셉트론)이었다. 이전의 퍼셉트론은 입력층이 출력층으로 바로 이어졌다. 〈그림 1〉의 퍼셉트론을 보면, 입력 수치들에 각각의 가중치를 곱한 다음 더하는 간단한 연산을 한 차례 수행한 뒤 출력층으로 내보낸다. 해당 그림에서 연산이 수행되는 동그라미를 노드라고 부른다.
세상의 복잡성을 감안할 때 이렇게 간단한 연산으로 식별(분류) 문제를 푸는 것은 애당초 불가능했을지도 모른다. 그래서 입력층과 출력층 사이에 새로운 연산의 층들을 삽입하는 시도로 이어졌다(〈그림 5〉). 물리적 장치를 반도체 회로 따위에 넣은 것이 아니라 컴퓨터 코딩을 통해 일련의 연산들을 추가하고 서로 연결시켰다는 의미다. 추가된 연산 단위를 은닉층(hidden layer)이라고 부른다.
퍼셉트론의 입력과 출력 사이에 다른 퍼셉트론이 들어가면서 노드가 하나에서 3개로, 가중치는 2개에서 6개로 늘었다. 가중치에 대한 수정도 그만큼 증가했다. 은닉층에도 가중치가 있기 때문이다. 〈그림 5〉에서는 은닉층이 한 층에 불과하지만 여러 층을 겹겹이 배치할 수도 있다. 이 그림은 설명의 편의를 위해 머신러닝의 연산 구조를 단순화한 것에 불과하다. 미국의 테크 자이언트들이 보유한 LLM(초거대 언어 모델)의 가중치(매개변수) 수가 최소 수십억 개에서 1700억여 개에 달한다니 말이다. 복잡한 세상의 복잡한 문제들을 풀기 위해 복잡한 계산 방식을 도입했는데, 이는 최근까지의 성과를 볼 때 꽤 성공적인 듯하다.
이런 다층 퍼셉트론에 더해 2010년대 들어서는 가중치 수정을 획기적으로 개선하는 알고리즘 등 새로운 아이디어들이 실현됐다. 컴퓨터의 연산능력도 비약적으로 커졌다. 인공지능은 그동안 감히 도전하기 어려웠던 이미지와 음성은 물론 텍스트까지 성공적으로 학습할 수 있게 되었다. 그 최근의 성과가 바로 LLM과 이에 기반한 챗지피티 등의 챗봇들이다.
-
AI는 “너, 참 잘났다, 잘났어”를 어떻게 판단할 수 있나
AI는 “너, 참 잘났다, 잘났어”를 어떻게 판단할 수 있나
이종태 기자
친구로부터 “너, 참 잘났다, 잘났어!”라는 말을 듣고 정말 우쭐하는 사람은 드물 것이다. ‘참’은 ‘사실이나 이치에 어긋남이 없이’란 뜻이다. ‘잘나다’의 의미는 ‘잘생기다’ ‘...
-
머신러닝을 알아야 챗지피티 작동 원리가 보인다
머신러닝을 알아야 챗지피티 작동 원리가 보인다
이종태 기자
머신러닝(Machine Learning)은, 이미 20세기 중반에 출현한 인공지능의 역사에 굵직한 획을 그은 혁신이다. 이로써 인공지능이 인간의 ‘식별’ 기능을 모방하고 나아가 새...
-
놀랍고 얼떨떨한 챗지피티의 세계 [편집국장의 편지]
놀랍고 얼떨떨한 챗지피티의 세계 [편집국장의 편지]
차형석 편집국장
신호철 〈시사IN〉 편집위원은 나와 같은 해 입사한 ‘동기’다. 수학을 잘하고 논리적 설명을 중요하게 여기는 ‘똘끼 충만형’이다. 언젠가 누군가 한 수학 문제 해법을 물었을 때, ...
-
챗지피티, 인간 이외 존재에게 배운 놀라운 첫 경험 [프리스타일]
챗지피티, 인간 이외 존재에게 배운 놀라운 첫 경험 [프리스타일]
이종태 기자
좀 오래된 과거에 상식 수준의 금융 공부를 하다가 ‘국채 금리’라는 것 때문에 곤란을 겪은 적이 있다. ‘국채 가격과 금리는 반비례한다’는데, 당시 읽은 책의 설명만으론 무슨 말인...
-
챗지피티는 ‘이해’하지 못한다
챗지피티는 ‘이해’하지 못한다
이종태 기자
LLM(초거대 언어 모델)에 대한 자료를 읽다가 의문이 생겼다. 저자는 굳이 언급할 필요를 느끼지 못할 정도로 단순하고 기초적인 사안이지만, 이걸 모르면 그다음부터는 아무것도 이해...
-
세상을 바꿀 챗지피티가 두렵다 [취재 뒷담화]
세상을 바꿀 챗지피티가 두렵다 [취재 뒷담화]
고제규 기자
기사인가 논문인가? 처음엔 복잡한 수식만 보고 헐~. 읽고 나선 머신러닝 원리까지 담은 집약적 설명에 허얼~. 경제 전문기자이지만, 간혹 최첨단 IT 기사도 쓰는 ‘학구파’ 이종태...
-
직접 해보면 생각보다 어렵지 않다 [기자의 추천 책]
직접 해보면 생각보다 어렵지 않다 [기자의 추천 책]
이종태 기자
이른바 ‘문돌이’ 출신이다. 학창 시절부터 수학이나 공학엔 곁눈질도 하지 않았다(그렇다고 전공을 열심히 공부했다는 이야기는 당연히 아니다). 기술 발전이 경제는 물론 사회와 문화 ...
-
독자 리뷰
독자 리뷰
시사IN 편집국
오은진 (2020년부터 전자책 구독, 독일 거주)〈시사IN〉 제810호(사진) 커버스토리인 챗지피티 기사를 보고 반가웠다. 이 생성AI에 대한 관심은 일상에서 체감할 수 있을 정도...
-
인공지능 기술의 발전을 막을 수 있을까 [미디어 리터러시]
인공지능 기술의 발전을 막을 수 있을까 [미디어 리터러시]
오세욱 (한국언론진흥재단 책임연구위원)
‘챗지피티’로 촉발된 생성AI에 대한 관심이 여전히 뜨겁다. 구글, MS, 메타 등 거대 기술기업들의 관련 기술 경쟁은 더욱 격렬해지고 있으며, 하루만 지나도 이 기술을 이용한 새...
-
그래픽카드만 있으면 나도 AI를 만든다고?
그래픽카드만 있으면 나도 AI를 만든다고?
김응창 (SK텔레콤 MLOps 테크팀 매니저)
그래픽처리장치(GPU)는 컴퓨터에서 화면 표시를 담당하는 부품이다. 보통 중앙처리장치(CPU)가 GPU 기능을 포함하고 있기 때문에 꼭 따로 살 필요는 없다. 하지만 몇백만 원짜리...
-
“인간의 창의성이 더욱 중요해지는 시대”
“인간의 창의성이 더욱 중요해지는 시대”
이종태 기자
프롬프트(prompt)만 잘 쓰면, 정답을 얻어낼 수 있다고들 한다. 프롬프트는 챗지피티 등 대화형 인공지능에 입력하는 ‘질문’. 대화형 인공지능들은 지구상에 거의 모든 언어 자료...
-
올트먼은 왜 어떻게 오픈AI에서 퇴출되었나
올트먼은 왜 어떻게 오픈AI에서 퇴출되었나
이종태 기자
글로벌 IT(정보통신) 업계의 스타 경영인 샘 올트먼이 오픈AI(챗지피티 개발 업체) CEO 자리에서 쫓겨난 직후 마이크로소프트(MS)에 고용되었다. 오픈AI의 이사회 의장을 맡았...
-
오픈AI 이사회는 해야 할 일을 했다
오픈AI 이사회는 해야 할 일을 했다
이종태 기자
세상의 어떤 기업 이사회가 최근 엄청난 업적을 세운 CEO를 갑자기 해임할 수 있을까? 심지어 대주주와 해당 업계, 심지어 여론의 압박과 비난까지 감수하며 당초의 결정을 고집할 수...