본문 바로가기

say와 AI 챗봇친구 만들기 보고서

ChatGPT로 보는 AI 챗봇의 한계와 미래

728x90
반응형
SMALL

ChatGPT로 보는 AI 챗봇의 한계와 미래

 
 


AI 기반 대화 도구 ChatGPT는 출시 일주일 만에 대화 능력과 창의성으로 미디어에서 많은 화제가 되고 사용자를 매료시켰다. ChatGPT에 열광한 사람들은 마케팅 카피, 광고, 에세이, 보고서, 전문 과학 보고서 등을 제외한 거의 모든 문서를 기계가 사람 없이 작성할 수 있을 것이라고 외쳤다. AI가 모든 고객을 대상으로 한 서비스 전화, 약속 잡기 및 기타 일상적인 대화를 처리할 것이라고 말이다. 하지만 너무 서두르는 게 아닐까? 기반 기술을 두고 실험해 본 결과 아직 갈 길이 멀다는 것을 알 수 있었다.
ChatGPT와 이전 AI 원더카인드(AI wunderkind)의 차이점은 IT나 비즈니스 미디어뿐 아니라 일반인에게도 주목을 받았다는 점이다.

ChatGPT가 출시된 지 1주일 만에 교사인 필자의 친구는 AI로 작성한 학기 말 논문을 가려낼 수 있는지를 물어왔다. 위키백과와 웹에서 그대로 문장을 잘라내 붙여 넣는 것을 단속하는 것도 충분히 힘든 일이지만, 아예 논문을 원본으로 작성하는 AI 도구가 보편화되면 에세이와 보고서를 읽고 학생의 학습 수준을 판단하는 것이 무의미해질 것이다. (질문과 답변으로 이루어진 구두 발표로 시험 형식을 바꾸면 학습한 내용을 아무런 도움 없이 실시간으로 답해야 하므로 문제를 해결할 수 있지만, 그렇게 긴 시험 시간을 허용하는 학교는 없다.)

ChatGPT와 GPT-3는 무엇인가?

ChatGPT는 마이크로소프트, 링크드인 공동 설립자인 리드 호프만과 VC 회사 코슬라 벤처스가 후원하는 연구 회사인 오픈AI 재단이 만들었다. 다양한 정보에 액세스하고, 실제로 사람이 하는 것처럼 정보를 집계·합성·작성하는 자연어 시스템을 만들려는 노력의 최신 결과물이다. 오픈AI의 GPT-3(Generative Pretrained Transformer 3) 데이터베이스와 엔진을 사용하며, 엔진이 분석한 수백만 개의 기사를 습득해 자연어 텍스트에서 개념과 표현 간의 관계뿐 아니라 해당 개념의 의미를 ‘이해’할 수 있다. 오픈AI는 GPT-3가 1,750억 개의 매개변수로 자연어 모델을 처리할 수 있다고 발표했다.

GPT-3는 새로운 것은 아니지만 오픈AI는 기술이 어떻게 사용되는지, 특히 중요한 것은 인간이 어떻게 수정하는지도 ‘관찰’하여 GPT-3가 자가 훈련할 수 있도록 외부 사용자에게 점점 더 개방하고 있다. GPT-3가 많은 관심을 받기는 했지만, 이 분야에서 유일한 자연어 AI 게임은 아니다. 제임스 코비엘루스가 InfoWorld에 밝힌 것처럼, 마이크로소프트는 딥스피드(DeepSpeed)를, 구글은 스위치 트랜스포머(Switch Transformer)를 소유하고 있는데 둘 다 1조 이상의 매개 변수를 처리할 수 있다. (GPT-3가 비교적 원시적으로 보이는 수준이다.)

지금까지 여러 AI 시스템에서처럼 GPT-3도 흥분하면 길을 잃어버리는 GPT 기반 서비스 초반 특유의 치명적인 약점이 있다. 인간의 글쓰기와 마찬가지로 필터와 자기 검열이 부족한 유해한 콘텐츠를 생성한다는 것이다. 인종 차별, 성 차별, 기타 불쾌한 편견, 거짓말, 의도 숨기기, 가짜 뉴스 등을 말한다. 오픈AI팀도 이 위험을 충분히 이해한다. 2019년에는 악의적인 사용을 방지하기 위해 이전 GPT-2 시스템에 대한 공개 액세스를 비활성화했다.

그럼에도 GPT-3가 작성한 내용을 읽어보면 매우 놀랍다. 일부 텍스트는 매우 인간적이며, 튜링 테스트도 쉽게 통과한다. 사람이 쓴 것인지 기계가 쓴 것인지 알 수 없음을 의미한다. 그러나 자연스럽게 문장을 쓰는 능력이 실제로 무슨 말을 하고 있는지를 안다는 뜻은 아니다. 일반 사용자가 너무 깊이 파고들 필요는 없다.

GPT-3 실험, 한계 명확해

2022년 초, GPT-3를 사용하는 콘텐츠 생성기 중 하나인 카피스미스의 카피스미스.AI(Copysmith.AI) 도구를 사용해 보았다. 목표는 Computerworld의 모회사 파운드리(Foundry)의 인간 기자나 필자를 보완할 수 있는지를 시험하는 것이었다. 소셜 게시물 작성을 돕고, 수습기자가 손댈 수 있을 만한 주제를 탐색하고, 지진 위치와 강도, 주식 결과 및 스포츠 점수같이 간단한 보도자료를 요약하며, 공식적인 이야기를 작성하는 콘텐츠 생성기가 있는 것처럼 사용하는 것이다.

비록 카피스미스 측에서는 초보 기자나 작가에게 카피스미스.AI가 주제와 문구를 탐색하는 출발점으로 활용될 수 있다고 말했지만, 마케팅 전략을 보면 구글 검색 결과에 나타날 확률을 높이고, 신뢰할 수 있는 텍스트를 제공하는 웹 사이트 제작자를 겨냥한다. 방대한 소셜 네트워크 분야에서 사용할, 가능한 한 많은 홍보 텍스트를 변형한다. 이러한 텍스트는 숙련된 작가가 거의 없는 전자 상거래 및 인플루언서의 세계에서는 필수적이다. 카피스미스 같은 서드파티는 오픈AI의 텍스트 스니펫만으로만 작업하는 제한을 받으므로 오픈AI의 GPT-3 엔진의 부하를 줄인다. 동시에 해당 엔진에 필요한 노력도 제한한다. (AI 기반 콘텐츠 생성기는 일반적으로 1,000자 이하, 약 150~200단어 또는 한두 단락 정도의 초안 작성의 제한을 둔다.)

GPT-3는 전문 작가에게 위협이 되지는 못하지만, 그 단순한 목표만으로도 몇 가지 기본적인 경우에 사용될 수 있는 이유를 증명했다. 환상적인 기술이라면 으레 그렇듯, 미래는 어느 측면에서 보느냐에 따라 보이는 것보다 멀기도 하고 더 가깝기도 하다. GPT-3로 카피스미스.AI 테스트에서 좋았던 점은 소셜 프로모션이나 마케팅 자료에 사용할 만한, 제목과 첫 단락으로 이루어진 작은 텍스트 덩어리를 만드는 것이었다. 소스가 되는 텍스트가 명확하고, ‘그러나’ 같은 접속사를 연이어 쓰는 문제가 없다면 카피스미스.AI는 쓸만한 텍스트를 만들어냈다. 그러나 때로는 요약이 너무 압축적이어서 문단을 문장으로 나눌 수 없었고, 중요한 주제나 하위 요소가 없는 지나치게 단순한 글을 써냈다. 원문에 쓰인 용어와 개념이 전문적일수록 카피스미스AI는 창의성을 발휘하지 못했다. 다른 단어로 바꿀 수 있는 대체 텍스트가 충분하지 않은 것이 이유겠지만, 최종 결과물을 보면 시스템이 의미를 바꿀 가능성이 낮음을 알 수 있다. 그러나 ‘가능성이 낮다’는 것이 ‘불가능하다’는 뜻은 아니다. 몇몇 경우에는 용어의 의미를 잘못 이해하여 부정확한 텍스트를 만들어내기도 했다. “고위급 수준의 지원에는 추가 비용이 필요할 수 있다”라는 의미가 “고위 임원은 더 높은 급여가 필요하다”라는 문장이 되기도 했다. 의미상으로 틀린 말은 아니지만 본문의 의미나 내용과는 달랐다.

이와 같은 사례는 GPT-3가 요청이나 개념을 기반으로 글을 쓸 때 단순히 다시 작성하거나 요약하는 것보다 그저 잘 작동하는 것이 훨씬 어렵다는 의미다. 의도(목적), 흐름, 출처를 이해하지 못해 빛 좋은 개살구 같은 결과물을 만든다. 의도를 이해하지 못한 예시가 또 있다. 카피스미스.AI는 윈도우 PC 구입을 다룬 기사문을 쓰라는 요청에 크롬북 사용을 홍보하면서 PC 대신 크롬북을 선택해야 하는 이유를 많이 제시했다. 소스 텍스트는 윈도우 PC를 강조하지 않았다. 쿼리를 다시 실행하자 완전히 다른 결과물이 나왔다. 이번에는 특정 (그리고 중요하지 않은) 기술을 설명한 문단, PC의 대안을 다룬 문단을 제안했다. 마치 윈도우 PC를 추천하지 않는 ‘AI 카피라이터’ 같은 느낌이었다. 동일한 요청을 세 번째 실행하자, 원래 요청한 주제와 전혀 관련이 없는 중소기업 공급망의 딜레마에 초점을 맞춘 결과물이 나왔다. 다른 테스트도 비슷한 맥락으로 흘러갔다. 목표를 이해하지 못한 채 (윈도우 PC 구매 가이드는 요청에서 이미 같은 문구를 사용했기 때문에 명확하다고 생각했다.) GPT-3와 카피스미스.AI는 그저 PC와 관련이 있는 개념, 적어도 어떤 식으로든 연관이 있는 개념을 찾아 제안할 뿐이었다.

자연스러운 글쓰기의 흐름, 즉 주장과 근거가 있는 스토리텔링도 부족했다. 카피스미스.AI 도구로 개요 제안을 기반으로 한 글을 작성할 때 각 문단은 대체로 의미가 있었다. 그러나 서로 연결하면 엄청난 혼란 그 자체가 되어 이야기 흐름도, 실마리도 보이지 않았다. 전자상거래 사이트에 실을 계란의 장점이나 주철을 다루는 방법을 한두 줄 쓰고 마는 경우라면 괜찮았을지도 모른다. AI가 학생의 보고서를 대리 작성하는 경우에도 현실성이나 문장 결합도 수준이 낮을 것으로 보인다. 교사인 친구에게도 복사나 붙여넣기로 작성한 소논문보다 훨씬 많은 노력이 필요하겠지만, AI가 쓴 글을 가려낼 수는 있을 것이라고 말해 주었다.

권위자의 인용이 부족한 것도 하나의 신호가 될 것이다. 출처는 곧 소스다. 생성된 텍스트의 근거가 되는 소스 자료를 누가 작성했는지에 따라 신뢰성, 전문 지식, 편견 가능성 등을 평가할 수 있다. 글을 쓴 집단이나 소속을 통해 저자가 누구인지, 어디에 소속되어 있는지를 알 수 있고, 편견 여부나 사고 방식을 이해할 수 있다. 그리고 언제 쓰인 자료인지에 따라 작성 시점을 확인할 수 있다. 오픈AI는 카피스미스 같은 서드파티에 자료를 노출하지 않으므로 결과 텍스트는 잘 알려졌다 해도 신뢰하기가 쉽지 않다. 테스트한 텍스트에는 출처가 의심스러운 단서가 하나 이상 들어 있어서 생성된 문장이 엉망이라는 것을 알 수 있었다. 예를 들어, 설문 조사 데이터는 모두 출처가 없었지만, 웹 검색을 통해 원본이 작성된 날과 몇 년씩 차이가 난다든지, 어느 정도 연관이 있어도 결국 주제나 모집단이 다르다는 점을 금방 알 수 있었다. 사실을 취사선택하고 조합해 사람들이 듣고 싶어 하는 이야기를 만들어 내는 것은 가짜 뉴스 제공자나 조작자가 쓰는 수법이지, AI가 할 일은 아니다.

최소한 GPT로 만들어진 문장이 출처와 연결되어야 한다. 그래야만 결과물의 구성 요소가 단순히 잘 쓰였는지, 또 의미 있고 신뢰할 만한지, 연관성이 적절한지를 확인할 수 있다. 그러나 오픈AI는 지금까지 ChatGPT와 카피스미스.AI 같은 도구에서 글을 만들 때 데이터베이스에 어떤 내용이 포함됐는지 밝히지 않기로 결정했다.

결론 : GPT 기반 콘텐츠 생성기를 사용할 때는 적어도 결과를 검증할 전문 작가와 편집자가 필요하며, AI 도구가 추가 입력기로 기능할 때에는 이들의 작업이 무척 고민될 것이다.

 

AI는 미래지만, 그 미래는 완료형이 아니다

카피스미스.AI를 비난하려는 목적은 없다. 단지 ChatGPT는 다른 많은 자연어 콘텐츠 도구가 그렇듯 GPT-3의 프런트엔드일 뿐이라고 말하고 싶을 뿐이다. GPT-3을 폄하하려는 의도는 절대 아니지만, 강력한 개념 증명임에도 GPT는 아직 베타 단계이며 앞으로도 여러 해 동안 더욱 발전할 것이라고 말하려는 것이다. AI를 폄하하려는 것도 아니다. 다만 이미 수십 년간 과대평가를 받아왔음에도 현실에서 AI는 아직 더 많은 시스템과 프로세스를 거쳐 계속 진화를 거듭하고 있으며 유용한 역할을 탐색하고 있다고 주장할 뿐이다. ChatGPT에서처럼 AI는 다음 속임수가 나올 때까지 계속 사람을 매혹할 것이다. 경우에 따라서는 기업 활동을 개선하고 사이버 공격을 탐지하는 등 방대한 양의 데이터를 믿을 수 없을 정도로 빠르게 분석하여 인간과 기계의 활동을 모두 늘릴 수도 있다. 현실은 어떤 면에서는 빛 좋은 개살구에 지나지 않지만, GPT 기반의 카피스미스.AI에서 일말의 가능성을 볼 수 있다. 기본적으로 AI는 놀라운 속도로 패턴 매칭과 상관 관계를 파악한다. 사이버 공격을 감지하고 많은 기업 활동을 개선하는 것과 같은 경우 사람이 할 수 있는 것보다 더 빠른 대응이 가능하다. AI의 엔진을 형성하는 기본 알고리즘과 훈련 모델은 결과적인 반응뿐 아니라 정보와 파생 패턴에 약간의 의미를 가져온다. AI는 단순히 지식이나 정보에 관한 것이 아니라, 많은 정보를 적절히 연관시키고 평가할수록 더 잘 기능할 수 있다. AI는 인간, 고양이, 개, 문어 같은 생물처럼 지적이지 않다. AI에는 지혜, 직관, 지각, 판단력, 상상력의 도약, 더 높은 목적이 없고 그러한 지각 속성을 얻으려면 1조 개 이상의 매개변수가 필요하다. ChatGPT 그리고 비슷한 서비스를 마음껏 즐겨라. 기업에 유리한 기술을 최대한 조사해도 좋다. 그러나 인간의 마음이 대체되었다고는 생각하는 것은 크나큰 오류다.

 

728x90
반응형
LIST