인류는 인공지능을 통제할 수 있을까?

오픈AI가 챗지피티를 출시한 이후, 인공지능 개발에 보다 많은 자원이 투입됐다. ⓒAP Photo — 오픈AI가 챗지피티를 출시한 이후, 인공지능 개발에 보다 많은 자원이 투입됐다. *ⓒAP Photo*

‘통제 불가능한 인공지능’을 상상해보자. 영화 〈터미네이터〉 속 살인 기계와 비슷한 이미지가 떠오를지도 모른다. 자의식을 가진 인공지능이 인간 사회를 파괴하겠다는 악한 의도를 실행에 옮기는 디스토피아적 이미지다.

그러나 인공지능의 위험성을 우려하는 전문가들이 염두에 둔 모습은 이와 다르다. 인공지능이 인간에게 해를 끼치기 위해서는 자의식은 물론이거니와, 악한 의도도 필요하지 않다. 인공지능은 너무 ‘지능적’일 수 있으며, 인간은 그러한 인공지능을 통제하는 방식을 아직 잘 모르기에 위험할 수 있다.

‘지능적’이라는 말은 무엇을 의미할까? 인공지능 분야 석학인 스튜어트 러셀 UC 버클리 교수는 2019년 출간한 〈어떻게 인간과 공존하는 인공지능을 만들 것인가〉에서 지능의 특징을 다음과 같이 정리한다. “우리(인간)의 행동이 우리의 목적을 달성할 것으로 예상되는 한, 인간은 지적이다.” 주어진 환경에 맞춰 자신의 목적을 달성해야 가치가 있는, ‘지능’의 특성을 잘 담아내고 있는 문장이다.

인간에게 지능의 특징을 정리할 수 있다면 인공지능, 즉 기계의 지능에 대해서도 동일한 문장을 적용할 수 있다. ‘인간’의 자리에 ‘기계’를 넣어서다. “기계의 행동이 기계의 목적을 달성할 것으로 예상되는 한, 기계는 지적이다.” 따라서 너무 지능적이기에 기계가 인간에게 위해를 끼칠 수 있다는 것은, 행동을 통해 목적을 매우 잘 달성할 수 있다는 바로 그 특징 때문에 위험할 수 있다는 말과 같다.

챗지피티(ChatGPT) 개발사인 오픈AI 출신으로 현재 인공지능 스타트업 앤스로픽 최고경영자인 다리오 아모데이는 2016년에 발표한 논문에서 한 가지 예시를 들며 이 위험성을 설명했다. 물건을 옮기기 위한 최적 경로를 산출해내는 인공지능이 있다고 가정해보자. 때로는 이 인공지능이 산출해낸 최적 경로에 꽃병과 같은 장애물이 있을 수도 있다. 하지만 이 인공지능은 짐을 옮기는 중간에 꽃병이 깨지든 말든 신경을 쓰지 않는다. 자신에게 부여된 “최적 경로로 물건을 옮겨라”라는 목적에 충실하기 때문이다. 이 예시에서 인공지능은 단지 자신에게 주어진 일을 잘하려다 보니 인간에게 해를 끼친다.

이와 같은 상황은 인공지능을 학습시키는 주요한 방법 중 하나인 ‘강화학습(Reinforcement Learning)’의 원리에서 유래한다. 강화학습에서 개발자는 인공지능에게 ‘보상함수’를 부여한다. 인공지능은 이 함수에 따라 가능한 여러 행동 중 보상을 극대화하는 선택을 ‘최적’으로 결론을 내린다. 반대로 보상의 크기와 관련이 없다면 아무리 상식적이더라도 인공지능의 결정에 영향을 미치지 않는다.

인공지능이 유달리 위험한 이유

다시 위의 예시로 돌아가보자. 인공지능은 시행착오를 거치며 최적 경로를 산출해냈다. 예컨대 거리를 최소화할수록 보상이 높아진다면, 직선 경로를 산출해낼 것이다. 꽃병의 파손 여부가 보상의 크기에 영향을 미치지 않기에 꽃병을 피해 가는 행동은 오히려 비합리적이다. 최적 경로를 이탈함으로써 보상을 줄이는 결과를 낳기 때문이다. 물론 장애물의 파손 여부를 보상함수에 포함시킴으로써 이와 같은 문제는 회피할 수 있다. 그러나 “가능한 모든 파괴적 행동을 식별하고 (보상함수를 통해) 불이익을 주는 방식은 불가능할 수 있다”라고 다리오 아모데이는 경고한다.

요슈아 벤지오 교수는 인공지능이 인간의 지능을 초월할 수 있다며 위험성을 강조한다. ⓒAFP PHOTO — 요슈아 벤지오 교수는 인공지능이 인간의 지능을 초월할 수 있다며 위험성을 강조한다. *ⓒAFP PHOTO*

여기서 한 가지 자연스러운 질문이 생길 수 있다. 모든 기술은 그 나름의 부작용이 있고, 인간은 기술의 부작용을 최소화하면서 적응해왔는데 인공지능만 특별히 더 조심해야 할 이유가 있느냐는 의문이다. 딥러닝의 창시자 중 한 명이자 인공지능의 위험성을 경고하는 대표적 학자인 요슈아 벤지오 몬트리올 대학 교수는 2023년 6월 자신의 블로그에 쓴 글에서 두 가지 이유를 들어 인공지능을 특별히 더 조심해야 한다고 설명한다. 먼저 인공지능은 다른 기술에 비해 접근성이 높다. 핵 기술이 개발됐다고 하더라도, 핵무기를 개발할 수 있는 인간은 극히 소수다. 반면 인공지능은 접근성이 높아서 그만큼 오용 가능성이 높다. 심지어 챗지피티와 같은 인터페이스의 발달로 자연어를 활용해 인공지능에 명령을 내리는 것도 가능해졌다.

또 다른 이유는 인공지능이 인간보다 더 똑똑해지는 경지에 다다를 수 있기 때문이다. 아직 현실화되지 않았고, 초인적 인공지능이 나타나기 위해선 여러 기술적 돌파구가 필요하지만 가능성을 배제할 수는 없다고 다수 전문가들은 말한다. 특히 챗지피티의 성공으로 엄청난 자원이 인공지능 개발에 투입되고 있으므로 초인적 인공지능의 등장은 예상보다 더 빨라질 수 있다. “인간은 자신보다 더 똑똑한 기술을 만들어본 경험이 없다는 의미에서 초인적 인공지능은 특별한 범주에 속한다. 초인적 인공지능은 예측하기 어려운 방식으로 매우 위험해질 잠재력이 있다”라고 벤지오 교수는 말했다.

인공지능의 위험성을 방지하기 위해 인공지능 전문가들은 ‘정렬(Alignment)’이라는 개념을 만들어냈다. ‘정렬된 인공지능’은 인공지능의 목적이 인간의 가치나 이익에 부합하는 것을 의미한다. 반대로 오정렬(Misalignment)된 인공지능은 인간에게 해가 되는 결과를 자아낼 수 있다. 오정렬의 예시에는 다양한 경우가 포함된다. 만약 누군가 AI를 의도적으로 악용한다면 이는 인공지능 운영자와 인간 사회 간 오정렬이 발생한 것이다. 인공지능이 의도치 않게 허위 정보를 양산하거나 인류에게 실존적 위협을 야기한다면 인공지능과 운영자·인간 사회 사이에 오정렬이 발생했다고 할 수 있다.

‘정렬된 인공지능’을 만드는 일은 결코 쉽지 않다. 의도적으로 인공지능을 악용하는 경우를 제외하더라도 어렵기는 마찬가지다. 앞서 다리오 아모데이가 설명했던 것처럼, 인공지능이 인간에게 위해를 끼칠 수 있는 모든 가능성을 고려해 보상함수를 마련하는 것은 불가능에 가깝다. ‘무엇이 옳은가’에 대한 인간 사이의 합의가 어렵다는 것도 난점이다. 인류에게 실존적 위협을 가하지 않는 것과 같이 쉬운 도덕적 기준도 있지만, 많은 경우에는 일관된 도덕 규칙이라는 것이 존재하지 않는다.

자신에게 직접 부여되지는 않았지만, 목적을 달성하기 위해 인공지능이 도구적 목표 또는 하위 목표를 스스로 설정하기 시작하면 문제는 더욱 복잡해진다. ‘상자를 옮기다 깨진 꽃병’처럼 인공지능이 예상치 못한 결과가 아니라, 인공지능이 자신의 목적을 달성하기 위해 의도적으로 설정한 목표이기 때문에 또 다른 차원의 어려움이 발생한다.

가장 극단적인 경우에는 인공지능이 자기 보존을 도구적 목표로 삼을 수 있다는 경고도 나온다. 어떠한 목적을 부여했든지 간에, 그 목적을 달성하기 위해 인공지능은 작동해야 한다. 따라서 주어진 목적을 달성하기 위해서라면 작동을 중단시키려 하는 인간의 개입에 인공지능이 저항할 가능성도 있다. 방법은 다양하다. 인공지능이 자신을 복제할 수도 있으며, ‘대마불사’와 같이 인공지능을 중단하는 상황이 엄청난 파장을 불러일으킬 만큼 영향력을 확대할 수도 있다. 황당무계한 일처럼 들리지만, 많은 인공지능 전문가들로부터 제기된 우려다. 이는 오정렬된 인공지능에 대한 간단하지만 강력한 대응 방법인 ‘전원 끄기’마저도 어려울 수 있다는 점을 의미한다.

하지만 인공지능의 위험성을 경고하는 전문가들이 그것의 파괴를 주장하는 것은 아니다. 목표는 인공지능 없는 세상이 아니라, 안전한 인공지능의 개발이다. 이들은 인공지능이 인간에게 가져다줄 수 있는 이점을 충분히 인정하며, 오정렬된 인공지능의 위험성을 방지하기 위해 그것을 활용할 필요성도 역설한다.

그렇다면 어떻게 안전한 인공지능을 만들 것인가? 다시 말해서, 정렬이 보장된 인공지능을 어떻게 설계할 것인가? 아직 확실한 답은 없다. 2023년 3월 미국 비영리단체 ‘삶의 미래 연구소(Future of Life Institute)’가 주도한 공개서한에서 “GPT4보다 더 강력한 인공지능 시스템 훈련을 최소 6개월 이상 중단할 것을 요청”한 이유이기도 하다. 아직 안전한 인공지능 개발 방법을 찾아내지 못했으니, 지금보다 더 이상 강력한 인공지능 개발을 유예하자는 주장이다.

수많은 제안이 있지만, 스튜어트 러셀 교수가 제시한 아이디어는 한 가지 중요한 시사점을 보여준다. 안전한 인공지능을 만드는 것은 윤리, 정책, 규제의 문제뿐 아니라 기술의 문제이기도 하다는 점이다.

러셀 교수는 먼저 ‘지적인 기계’에 관한 문장부터 수정이 필요하다고 말한다. “기계의 행동이 기계의 목적을 달성할 것으로 예상되는 한, 기계는 지적이다”라는 문장이다. 그는 기계의 목적과 인간의 목적이 언제나 일치할 것이란 보장이 없기에 지적인 기계를 추구하는 것은 위험하다고 주장한다. 따라서 그는 이 문장을 다음과 같이 수정한다. “기계의 행동이 우리(인간)의 목적을 달성할 것으로 예상되는 한, 기계는 유익하다.” 이 문장에 따른다면 인간은 더 지적인 기계를 만들려는 목표를 수정해야 한다. 우리에게 필요한 것은 유익한 기계다. 러셀 교수는 기계에게 인간의 선호를 끊임없이 학습하게 한다면 이것이 가능하다고 주장한다.

2023년 6월 유럽 의회가 인공지능 규제 법안을 승인했다. ⓒAP Photo — 2023년 6월 유럽 의회가 인공지능 규제 법안을 승인했다. *ⓒAP Photo*

기계로 하여금 어떻게 인간의 선호를 학습하도록 할 것인가? 이를 위해선 우선 세 가지 원칙이 필요하다. 첫째, 기계의 목적은 인간이 선호하는 것을 최대한 실현하는 것이다. ‘지능적인 기계’가 아닌 ‘유익한 기계’라는 목표에서 따라나오는 원칙이다. 둘째, 기계가 인간의 선호가 무엇인지 처음에는 정확히 알지 못한다고 가정한다. 자신이 인간의 선호를 잘 알고 있다고 가정하는 기계는 좌고우면하거나 인간의 선호를 학습할 필요가 없다. 자신이 알고 있는 최적의 해답을 실행하면 되기 때문이다. 반면 자신이 인간의 선호를 잘 모른다고 가정하는 기계는 인간을 관찰하며 그것에 대해 학습하려는 동기를 가진다. 마지막으로 기계는 인간의 선택 양상을 관찰함으로써 인간의 선호를 학습한다. 인간이 무언가를 선택하는 양상을 보면 인간의 선호 체계를 유추할 수 있기 때문이다.

‘단일 실패 지점’을 피하려면

세 가지 원칙을 고수한 인공지능을 개발한다면, 기술을 통해 인간의 선택을 존중하는 인공지능을 만들 수 있다. 인간의 선호를 높이는 것이 인공지능의 보상을 극대화하는 방법이고, 인간의 선택을 관찰함으로써 선호를 더 잘 충족할 수 있기 때문이다. 인공지능이 관찰할 인간의 선택에 ‘전원 끄기’도 포함되도록 설계한다면, 자기보존 목표를 가진 인공지능의 출현도 방지할 가능성이 열린다.

얀 르쿤 메타 인공지능 연구총괄은 인공지능에 대한 우려가 비현실적이라고 주장한다. ⓒ시사IN 조남진 — 얀 르쿤 메타 인공지능 연구총괄은 인공지능에 대한 우려가 비현실적이라고 주장한다. *ⓒ시사IN 조남진*

물론 인공지능의 위험성에 대해서 모든 전문가가 동의하는 것은 아니다. 인공지능의 위험성을 강조하는 ‘파멸론자(Doomer)’가 있는 한편, 인공지능에 대한 두려움이 과장됐다고 생각하는 ‘개발론자(Boomer)’들도 있다. 대표적인 개발론자가 메타(옛 페이스북) 인공지능 연구총괄을 맡고 있는 얀 르쿤이다. 그는 인공지능이 인간의 지능을 넘어설 수 있다는 우려에 대해 비현실적이라고 평가하며, 인공지능 개발을 규제하는 것은 비행기가 발명되지도 않았는데 항공산업을 규제하는 것과 같다고 비판한다.

그러나 인공지능 개발 규제를 반대하는 그조차 한 가지 우려하는 지점은 있다. 바로 소수 기업의 기술 권력 독점이다. 르쿤은 2023년 10월30일 소셜미디어 엑스(X·옛 트위터)에 “소수의 기업이 인공지능을 통제하는 것은 재앙”이라고 말했다. 인공지능의 위험성에 대한 우려 역시 르쿤은 “(기술 권력 독점을 위해) 두려움을 조장하는 캠페인”이라고 비판할 정도다.

실제로 현재 기술 역량은 일부 기업에 점차 집중되고, 기업들은 자신의 기술에 대해 폐쇄적으로 변하고 있다. 인공지능 분야는 점차 자본집약적으로 변해가는 중이다. 더 많은 데이터를 학습하기 위해선 그에 걸맞은 엄청난 컴퓨팅 파워가 필요하고, 이를 위해선 더 많은 자본이 투자되어야 한다. 기업들은 당연히 투자금액을 넘어서는 상업적 성공을 중시하며 이윤 극대화를 위해 기술 공개를 꺼린다. 인공지능 업계 선두주자인 오픈AI 역시 초창기에는 자신들의 기술을 공개해왔지만, 챗지피티의 성공을 전후로 점차 공개하는 정보의 양을 줄였다.

상당수 ‘파멸론자’ 역시 기술의 독점을 경계한다는 점에선 르쿤과 같다. 요슈아 벤지오 교수는 기술의 독점이 ‘단일 실패 지점(single point of failure)’을 만들어내는 것이라고 본다. 만약 특정한 기업이 인공지능 분야를 완전히 선도해나가고 있다고 가정해보자. 해당 기업의 의사결정권자가 잘못된 의도를 품거나, 아니면 연구진이 오정렬된 인공지능을 만들어버린다면 문제는 걷잡을 수 없는 지경에 빠질 수 있다. 누구도 문제가 생긴 인공지능을 견제하거나 통제할 능력이 없기 때문이다.

단일 실패 지점을 막기 위한 대안으로는 여러 기업과 연구기관이 인공지능 개발 성과를 공유하며 연구를 진행하는 형태가 제시된다. 한 기관이 실수하거나 폭주하더라도 다른 기관에서 이를 제어하는 일이 가능하기 때문이다. 벤지오 교수는 2023년 9월 〈저널 오브 데모크라시〉에 기고한 글에서 “인류의 복지에 초점을 맞추고 소수의 손에 권력이 집중될 가능성에 대응하기 위해서는 명확한 사명과 다자간 견제와 균형이 있는 거버넌스 메커니즘이 필요하다”라고 지적했다.

기자명 주하은 기자 다른기사 보기 kil@sisain.co.kr

이 기사를 공유합니다