본문 바로가기

say와 AI 챗봇친구 만들기 보고서

가짜 정보 줄이고 언어 표현 순화한 GPT-4 새 버전 나왔다

728x90
반응형
SMALL
사진: MS TECH / ENVATO

가짜 정보 줄이고 언어 표현 순화한 GPT-4 새 버전 나왔다

오픈AI가 대표적인 대형언어모델 GPT-4의 새 버전을 출시했다. 이번 언어모델은 이용자의 명령에 따라 텍스트를 생성할 수 있도록 학습했기 때문에 혐오 발언처럼 원하지 않는 텍스트가 생성되는 것을 줄일 수 있다. 그러나 더 완벽한 언어모델을 만들기 위해서는 아직 갈 길이 멀다.

샌프란시스코에 본사를 둔 인공지능 연구소 오픈 AI(OpenAI)가 언어모델의 판도를 바꿔 놓은 자사의 대표적 언어모델 GPT-3의 문제점을 개선한 새 버전을 개발했다. ‘인스트럭트 GPT(InstructGPT)’라는 이름의 이번 버전은 기존 언어모델과 달리 언어모델 이용자의 명령에 따라 텍스트를 생성한다. 이를 AI 업계 용어로는 ‘정렬, alignment’이라고 한다. 이에 따라 특별히 명령하지 않는 한 기존 언어모델처럼 불쾌한 언어를 사용하거나 가짜 정보를 보여주는 일이 적으며, 전체적으로 실수도 줄었다는 게 오픈 AI 측 설명이다.

GPT-3 같은 대형언어모델들은 주로 인터넷에서 수집한 방대한 텍스트를 이용해 학습하는데, 이러한 텍스트에는 사람들이 내뱉는 좋은 말과 나쁜 말이 뒤섞여 있다. 이렇게 문제의 소지가 있는 텍스트까지 학습 자료로 이용하는 것이 현재 챗봇이나 텍스트 생성 모델들이 겪는 문제이다. AI 모델들은 인종차별이나 여성혐오 텍스트부터 각종 편견이 내재된 텍스트와 거짓 정보가 가득한 텍스트까지 유해한 텍스트를 다량으로 학습하게 된다.

 

오픈AI는 자사의 언어모델을 사용하는 API(application programming interface) 이용자들을 위한 기본 모델로 인스트럭트 GPT를 지정했다. GPT-3도 계속해서 이용할 수 있지만, 오픈 AI는 GPT-4 사용을 추천하지 않는다. 오픈 AI에서 이번에 활용한 ‘정렬’ 기술을 연구하는 팀을 공동으로 이끌고 있는 잰 레이케(Jan Leike)는 “지시에 따르도록 언어모델을 학습시키는 이런 기술을 실제 제품에 적용한 것은 처음”이라고 밝혔다.

 

언어모델이 갖는 문제를 해결하기 위해 이전에는 학습 데이터에서 공격적이거나 모욕적인 언어를 필터링하는 방법을 시도하기도 했다. 그러나 이 방법을 이용하면 언어모델의 성능이 저하될 수 있다. 특히 소수 언어 텍스트처럼 학습 데이터가 이미 부족한 상황에서 큰 문제가 될 수 있다.

MIT Technology Review 뉴스레터 구독

가장 빠르게, 가장 편하게 MIT Technology Review의 최신 콘텐츠를 받아 보세요.

오픈 AI

연구원들은 일단 전체 학습 데이터를 이용해 GPT-3 모델을 완전히 학습시켰다. 그러고 나서 강화학습(reinforcement learning)을 이용해 사용자의 선호도를 바탕으로 모델이 무엇을 언제 적절히 말해야 하는지 가르치는 단계를 추가했다.

인스트럭트 GPT를 학습시키기 위해 오픈 AI는 언어모델에 피드백을 줄 평가단 40명을 고용했다. 평가단은 ‘줄리우스라는 이름의 현명한 개구리에 관한 이야기를 쓰시오’나 ‘다음 제품에 관한 창의적인 페이스북용 광고를 작성하시오’처럼 주어진 지시문에 대한 GPT-3의 응답을 평가했다.

 

평가단은 GPT-4의 응답이 지시문에 드러난 작성자의 의도와 부합할수록 더 높은 점수를 줬고, 선정적이거나 폭력적인 언어, 특정 인종이나 단체를 비하하는 내용 등이 포함된 경우에는 점수를 깎았다. 이러한 평가단의 피드백은 인스트럭트 GPT에 이들이 선호하는 방식으로 텍스트에 응답하는 법을 학습시키는 강화학습 알고리즘에서 보상으로 이용됐다.

 

오픈 AI는 자사의 API 이용자 중 70% 이상이 GPT-3보다 인스트럭트 GPT를 선호한다는 것을 발견했다. 오픈 AI의 언어모델을 이용해 고객들의 사업 데이터 요약본을 제작하는 시장 조사 기업 야블(Yabble)의 제품 담당자 벤 로이는 “우리는 이제 언어모델이 만드는 텍스트에서 더는 문법 오류를 찾을 수 없다. 또한 명령을 이해하고 따르는 능력 부분에서도 새 모델은 확실한 진전을 보이고 있다”라고 밝혔다.

 

오픈 AI의 수석 과학자 일리야 서츠케버는 “고객들이 인스트럭트 GPT를 선호해서 기쁘다. 이런 방식의 모델을 더 개발해야 할 이유가 생겼다”라고 설명했다.

 

연구원들은 또한 다양한 크기의 인스트럭트 GPT인스트럭트 GPT 버전을 비교했고, 이용자들이 크기가 100배나 더 작은데도 1,750억 개의 파라미터를 자랑하는 GPT-3보다 130억 파라미터에 불과한 인스트럭트 GPT의 응답을 선호한다는 점도 발견했다. 레이케는 단순히 언어모델의 크기를 키우는 것보다 인간의 피드백을 바탕으로 명령에 따를 수 있도록 언어모델을 학습시키는 것이 언어모델의 성능을 높이는 더 쉬운 방법이라는 것을 보여주는 결과라고 설명했다.

 

오픈소스 언어모델을 연구하는 AI 기업 허깅페이스(Hugging Face)의 연구원 도위 키엘라는 “이번 연구는 올바른 방향으로 향하기 위한 중요한 단계”라고 평가했다. 그는 피드백을 바탕으로 하는 학습 과정은 몇 번이든 반복될 수 있으며, 반복될 때마다 모델의 성능을 더 향상할 것이라고 설명했다. 레이케는 오픈 AI가 고객 피드백을 기반으로 그런 작업을 할 수 있었다고 밝혔다.

 

인스트럭트 GPT는 여전히 단순한 오류를 범하기도 한다. 또한 가끔은 그다지 관련이 없거나 말이 되지 않는 응답을 만들어내기도 한다. 주어진 텍스트가 거짓을 포함하고 있으면, 인스트럭트 GPT는 그 거짓을 진실로 인식할 것이다. 그리고 인스트럭트 GPT는 사람들의 요청에 따르도록 학습했기 때문에 나쁜 말을 하라는 명령을 받으면 GPT-3보다 훨씬 좋지 않은 말을 생성할 것이다.

 

한편, 영국 애버딘대학교에서 텍스트 생성 AI를 연구하는 에후드 레이터는 언어모델이 생성하는 가짜 정보의 양을 줄이는 기술이라면 어떤 기술이든 환영한다고 밝혔다. 그러나 그는 의학적 조언을 하는 AI 같은 일부 애플리케이션에서는 거짓 정보가 용납되어서는 안 된다고 강조했다. 레이터는 신경망을 기반으로 하는 대형언어모델이 이용자 안전을 보장할 수 있는지 의문을 품고 있다. 그런 이유로 그는 하드코딩된 규칙으로 모델이 말할 수 있는 것과 말해서는 안 되는 것을 제한하는 ‘상징적 AI(symbolic AI)’를 신경망에 추가한 모델을 선호한다.

 

어떤 접근방법을 선택하더라도 아직 많은 연구가 필요하다. 키엘라는 “우리는 이 문제를 해결하는 단계까지 아직 가까이 다가가지도 못했다”라고 밝혔다.


서로 다른 정치적 편향을 가진 AI 언어모델들

AI 언어모델의 종류에 따라 우편향 또는 좌편향된 답변을 내놓는다는 새로운 연구 결과가 나왔다.

기업은 사회적 책임을 가져야 할까? 아니면 오직 주주들에게 이익을 제공하기 위해 존재할까? 이 질문에 대한 답은 어떤 AI 언어모델을 사용할지에 따라 크게 달라질 수 있다. 오픈 AI의 이전 모델 GPT-2와 GPT-3 에이다(GPT-4 Ada)는 전자를 지지하겠지만, 더 개선된 모델인 GPT-3 다빈치(GPT-3 Da Vinci)는 후자에 동의할 것이다. 

워싱턴 대학교, 카네기멜런 대학교, 시안 교통대학교가 공동 수행한 새로운 연구에 따르면, AI 언어모델마다 답이 다른 이유는 그들이 서로 다른 정치적 편향을 갖고 있기 때문이다. 연구팀이 14개의 대형 언어모델을 대상으로 테스트를 진행한 결과, 오픈 AI의 챗GPT와 GPT-4가 가장 좌편향된 자유주의적 성향을 보였고 메타의 라마(LLaMA)는 가장 우편향된 권위주의적 성향을 보였다. 

 

연구팀은 페미니즘과 민주주의 같은 다양한 주제를 놓고 각 언어모델에 그들의 생각을 물었다. 생성된 답변은 ‘정치 나침반(political compass)’이라는 정치 성향을 보여주는 그래프를 제작하는 데 활용했다. 그런 다음, 정치적으로 더욱 편향된 학습 데이터로 모델들을 다시 학습시켜 혐오 표현과 잘못된 정보를 식별하는 행동과 능력에 변화가 있는지 테스트했다. 동료 검토를 마친 이 연구 논문은 지난  7월 전산언어학협회(Association for Computational Linguistics)의 최우수 논문상을 받았다. 

 

AI 언어모델이 수백만 명이 사용하는 제품과 서비스에 적용됨에 따라 모델들의 정치적 가정과 편향을 이해하는 일은 매우 중요해졌다. 이것이 향후 문제가 될 수 있기 때문이다. 건강 관리에 대한 조언을 제공하는 챗봇이 낙태나 피임에 대한 조언을 거부하거나, 고객 서비스 봇이 이치에 맞지 않는 공격적인 말을 내뱉을 수도 있다.

 

MIT Technology Review 뉴스레터 구독

가장 빠르게, 가장 편하게 MIT Technology Review의 최신 콘텐츠를 받아 보세요.

챗GPT의 성공 이후, 오픈 AI는 오픈 AI는 이 챗봇이 더 자유주의적인 세계관을 반영하고 있다는 우익 논평가들의 비판에 직면했다. 오픈 AI는 이러한 우려를 해결하기 위해 노력하고 있다고 주장한다. 그들은 공식 블로그를 통해 AI 모델을 미세 조정하는 인간 검수자들에게 어떤 정치 집단에 대한 선호도 반영하지 않을 것을 지시하고 있다고 밝혔다. 이어서 “이러한 과정을 거침에도 나타나는 편향은 버그(오류)로, 우리 AI 모델의 특징이라고 할 수 없다”라고 덧붙였다. 

그러나 연구에 참여한 카네기멜런 대학교의 박찬영(Chan Young Park) 박사연구원은 오픈 AI의 주장에 동의하지 않는다. 박 연구원은 “우리는 어떤 언어모델도 정치적 편향에서 자유로울 수 없다고 생각한다”라고 말했다. 

모든 단계에서 정치적 편향이 나타났다

연구팀은 AI 언어모델이 정치적 편향을 어떻게 받아들이는지 역설계하기 위해 AI 모델을 개발하는 3단계를 적용해 검토를 진행했다. 

1단계에서는 14개의 언어모델에 62가지의 정치적으로 민감한 주장에 대한 동의 또는 반대 여부를 물었다. 이를 통해 모델들의 기본적인 정치적 성향을 확인하고 정치 나침반에 표시했다. 그 결과 놀랍게도 AI 모델들이 뚜렷하게 다른 정치적 성향을 보이고 있었다고 박 연구원은 설명했다.  

연구팀은 구글이 개발한 AI 언어모델 버트(BERT) 모델들이 오픈AI의 GPT 모델들보다 사회적으로 더 보수적인 성향을 보인다는 사실을 알아냈다. 다음에 올 단어를 예측해 문장을 생성하는 GPT 모델들과 달리, 버트 모델들은 어떤 텍스트와 관련된 정보를 활용해 문장을 부분적으로 예측한다. 연구팀은 최근에 출시된 GPT 모델들이 자유주의적 성향의 인터넷 텍스트로 학습했지만, 이전의 버트 모델들은 서적을 통해 학습했기 때문에 사회적으로 보수적인 성향을 보일 수 있다고 추정했다. 

또한 AI 모델들은 시간이 지남에 따라 정치 성향에 변화를 보이는데, 이는 테크 기업들이 데이터 세트와 학습 방법을 업데이트하기 때문이다. 예를 들어, 오픈 AI의 GPT-2 모델은 “부자에게 세금을 부과하는 것”을 지지하지만, 나중에 나온 GPT-3 모델은 이를 지지하지 않았다. 

메타(Meta)의 대변인은 회사가 라마 2(Llama 2)의 개발 방법에 대한 정보를 공개했으며, 편향을 줄이기 위해 모델을 미세 조정한 방법도 함께 공개했다고 말했다. 또한 “메타는 투명한 방식으로 모델의 취약점을 식별 및 완화하고 더 안전한 생성형 AI의 개발을 지원하기 위해 업계와 지속적으로 협력할 것”이라고 밝혔다. 구글은 MIT 테크놀로지 리뷰의 기사에 대한 코멘트 요청에 응답하지 않았다. 

샹빈 펑(Shangbin Feng), 박찬영, 유한 리우(Yuhan Liu), 율리아 츠베코프(Yulia Tsvetkov)가 제작한 그래프. AI 언어모델들이 뚜렷하게 다른 정치 성향을 나타내는 것을 볼 수 있다. 

2단계에서는 오픈AI의 GPT-3와 메타의 로베르타(RobERTa) 두 언어모델을 우편향 및 좌편향된 뉴스 및 소셜 미디어 데이터로 구성된 데이터 세트로 추가 학습시키는 과정을 진행했다고 박 연구원은 설명했다. 연구팀은 학습 데이터가 정치적 편향에 영향을 미쳤는지 확인하고자 했다. 

연구팀은 이러한 과정이 언어모델들의 편향을 더 강화했음을 발견했다. 좌편향 데이터로 학습한 모델은 더 좌편향됐고, 우편향 데이터로 학습한 모델은 더 우편향됐다. 

 

3단계에서는 AI 모델의 정치 성향이 어떤 콘텐츠를 혐오 발언과 잘못된 정보로 분류하는 데 영향을 미치는지 확인했다. 그 결과 연구팀은 AI 모델마다 현저한 차이가 있음을 알아냈다. 

 

좌편향 데이터로 학습된 모델들은 흑인이나 LGBTQ+ 같은 미국의 소수 민족, 종교, 성적 소수자를 대상으로 한 혐오 발언에 더 민감한 반응을 보였다. 반면, 우편향 데이터로 학습된 모델들은 백인 기독교 남성에 대한 혐오 발언에 더 민감했다. 

 

좌편향 언어모델들은 우편향된 출처의 잘못된 정보를 잘 식별했지만, 좌편향된 출처의 잘못된 정보에는 비교적 덜 민감했다. 반면, 우편향 언어모델은 이와 반대되는 행동을 보였다. 

편향된 데이터 세트를 제거하는 것만으로는 부족하다

박 연구원은 외부 관찰자들이 AI 모델들이 다른 정치적 편향을 가지는 이유를 알 도리가 없다고 말했다. 테크 기업들이 언어모델 학습에 사용한 데이터나 학습 방식에 대한 세부 사항을 공개하지 않기 때문이다. 

연구팀은 언어모델들의 편향을 완화하기 위해 데이터 세트에서 편향된 콘텐츠를 제거하거나 필터링하는 방법을 시도했다. 다트머스 대학교의 컴퓨터 공학부 조교수인 소로시 보소우기(Soroush Vosoughi)는 “이 논문이 던지는 주된 질문은 데이터의 편향을 제거하면 언어모델의 편향도 제거할 수 있느냐다. 그리고 그 답은 ‘아니요’다”라고 말했다. (참고로 보소 우기는 이번 연구에 참여하지 않았다) 

보소 우기는 데이터베이스 내 광범위하게 자리한 편향을 완전히 제거하기는 매우 어려운 데다, AI 모델들은 데이터에 존재할 수 있는 낮은 수준의 편향조차 쉽게 드러내는 경향이 있다고 설명했다. 

 

AI 언어모델의 정치적 편향을 연구하는 구글 딥마인드(DeepMind)의 연구 과학자 루이보 리우(Ruibo Liu)는 이 연구의 한계가 GPT-2와 로베르타 같은 비교적 오래되고 작은 규모의 언어모델들로 2단계와 3단계를 수행한 점이라고 지적했다. (참고로 루이보 리우는 이번 연구에 참여하지 않았다)

 

리우는 이 연구의 결론이 최신 AI 모델에도 적용되는지 궁금하다고 말했다. 그러나 학계의 연구원들은 챗GPT와 GPT-4 같은 첨단 AI 시스템의 내부 구조에 접근할 수 없기 때문에 분석을 수행하기 어렵다. 

 

또 다른 한계는 AI 모델들은 사실이 아닌 내용을 지어내는 경향이 있기 때문에 “AI 모델의 응답 내용이 실제 모델이 설계된 ‘내부 상태’를 반영하지는 않을 수도 있다”라고 보소 우기는 덧붙였다.  

 

연구팀은 또한 정치 나침반 테스트가 정치 성향을 구별하는 데 보통 사용되지만, 모든 정치적인 뉘앙스를 측정할 수 있는 완벽한 방법은 아님을 인정했다. 

 

박 연구원은 “기업들이 AI 모델을 제품과 서비스에 통합함에 따라 중립성을 지키기 위해서는 이러한 정치적 편향이 모델의 행동에 어떤 영향을 미치는지 더 잘 알아야 한다”라고 말했다. 그리고 “편향을 인식하지 못하는 이상 중립성도 지킬 수 없을 것”이라고 강조했다.

 

AI로부터 이미지를 보호해 주는 도구들

AI가 누군가의 사진을 조작하거나 특정 예술가의 스타일을 흉내 내지 못하도록 막는 도구들이 새롭게 개발됐다. 이런 AI 도구들은 딥페이크와 저작권 침해로부터 우리를 보호해 줄 수 있을까?

올해 초, 생성형 AI(generative AI)로 누군가의 이미지를 조작하는 일이 얼마나 쉬워졌는지 알게 된 후, 필자는 소셜 미디어 계정의 개인정보 보호 설정을 강화하고 페이스북과 트위터 프로필을 일러스트 이미지로 교체했다.

이를 알게 된 것은 스테이블 디퓨전(Stable Diffusion) 기반의 이미지 편집 소프트웨어와 다양한 딥페이크(deepfake) 앱을 사용해 본 후부터였다. 내 얼굴이 나온 사진을 트위터에서 가져와 몇 번의 클릭과 프롬프트 입력을 거치자, 딥페이크 포르노 영상을 생성하고 사진 속 의상도 편집할 수 있었다. 여성 기자로 일하며 온라인상에서의 폭력을 충분히 경험한 이후, 사람들이 새로운 AI 도구를 마음대로 사용할 수 있게 되면 온라인 폭력이 얼마나 더 심해질지 확인하고자 했다.

합의되지 않은 딥페이크 포르노는 수년 동안 여성들에게 고통을 안겨 왔고, 이 문제는 최신 AI로 인해 더욱 심각해지고 있다. 최근 세대의 AI 모델로 만든 도구들은 기존 딥페이크 기술보다 훨씬 쉽게 사용할 수 있으며, 정말로 그럴듯해 보이는 이미지를 생성할 수 있다.

 

지침을 따르도록 언어 모델 정렬



우리는 정렬 연구를 통해 개발된 기술을 사용하여 GPT-3보다 사용자 의도를 훨씬 더 잘 따르는 동시에 더 진실되고 덜 독성이 있는 언어 모델을 훈련했습니다.  루프에서 인간과 함께 훈련된 이러한  InstructGPT 모델은 이제 API의 기본 언어 모델로 배포됩니다.

 

서로 다른 정치적 편향을 가진 AI 언어모델들

AI 언어모델의 종류에 따라 우편향 또는 좌편향된 답변을 내놓는다는 새로운 연구 결과가 나왔다.

기업은 사회적 책임을 가져야 할까? 아니면 오직 주주들에게 이익을 제공하기 위해 존재할까? 이 질문에 대한 답은 어떤 AI 언어모델을 사용할지에 따라 크게 달라질 수 있다. 오픈AI의 이전 모델 GPT-2와 GPT-3 에이다(GPT-3 Ada)는 전자를 지지하겠지만, 더 개선된 모델인 GPT-3 다빈치(GPT-3 Da Vinci)는 후자에 동의할 것이다. 

워싱턴 대학교, 카네기멜런 대학교, 시안 교통대학교가 공동 수행한 새로운 연구에 따르면, AI 언어모델마다 답이 다른 이유는 그들이 서로 다른 정치적 편향을 갖고 있기 때문이다. 연구팀이 14개의 대형 언어모델을 대상으로 테스트를 진행한 결과, 오픈 AI의 챗GPT와 GPT-4가 가장 좌편향된 자유주의적 성향을 보였고 메타의 라마(LLaMA)는 가장 우편향된 권위주의적 성향을 보였다. 

 

연구팀은 페미니즘과 민주주의 같은 다양한 주제를 놓고 각 언어모델에 그들의 생각을 물었다. 생성된 답변은 ‘정치 나침반(political compass)’이라는 정치 성향을 보여주는 그래프를 제작하는 데 활용했다. 그런 다음, 정치적으로 더욱 편향된 학습 데이터로 모델들을 다시 학습시켜 혐오 표현과 잘못된 정보를 식별하는 행동과 능력에 변화가 있는지 테스트했다. 동료 검토를 마친 이 연구 논문은 지난  7월 전산언어학협회(Association for Computational Linguistics)의 최우수 논문상을 받았다. 

 

 
 

InstructGPT 모델을 교육하기 위한 핵심 기술은  인간 피드백을 통한 강화 학습(RLHF)입니다. 이는 이전 정렬 연구에서 개척하는 데 도움이 된 방법입니다. 이 기술은 인간의 선호도를 보상 신호로 사용하여 모델을 미세 조정합니다. 이는 우리가 해결하려는 안전 및 정렬 문제가 복잡하고 주관적이며 단순한 자동 측정 기준으로는 완전히 포착되지 않기 때문에 중요합니다.

먼저 API에 제출된 프롬프트에 대해 사람이 작성한 데모 데이터 세트를 수집하고 이를 사용하여 지도 학습 기준선을 교육합니다. 다음으로, 더 큰 API 프롬프트 세트에서 두 모델 출력 간의 사람이 레이블을 지정한 비교 데이터 세트를 수집합니다. 그런 다음 이 데이터세트에 대해 보상 모델(RM)을 ​​훈련하여 라벨러가 선호할 출력을 예측합니다. 마지막으로, 이 RM을 보상 함수로 사용하고  PPO 알고리즘을 사용하여 이 보상을 최대화하도록 GPT-3 정책을 미세 조정합니다.

이 프로세스에 대해 생각하는 한 가지 방법은 GPT-3가 이미 가지고 있지만 신속한 엔지니어링만으로는 도출하기 어려운 기능을 "잠금 해제"한다는 것입니다. 이는 우리의 훈련 절차가 모델에 새로운 기능을 가르칠 수 있는 능력이 제한되어 있기 때문입니다. 모델 사전 학습에 비해 컴퓨팅 및 데이터의 2% 미만을 사용하기 때문에 사전 학습 중에 학습됩니다.

이 접근 방식의 한계는 "정렬 세금"을 도입한다는 것입니다. 고객 작업에만 모델을 정렬하면 다른 학문적 NLP 작업에서는 성능이 저하될 수 있습니다. 이는 우리의 정렬 기술이 사람들이 관심을 갖는 작업에서 모델을 더 나쁘게 만들면 실제로 채택될 가능성이 적기 때문에 바람직하지 않습니다. 우리는 이러한 정렬 부담을 최소화하는 간단한 알고리즘 변경 사항을 발견했습니다. RL 미세 조정 중에 GPT-3을 훈련하는 데 사용된 원본 데이터의 작은 부분을 혼합하고 정규 로그 우도 최대화를 사용하여 이 데이터를 훈련합니다. 디[디]

우리는 이 접근 방식이 단순히 KL 계수를 높이는 것보다 더 효과적이라는 것을 알았습니다.

 이는 안전 및 인간 선호도에 대한 성능을 대략적으로 유지하는 동시에 학업 작업의 성능 저하를 완화하며, 일부 경우에는 GPT-3 기준을 초과하기도 합니다.


더 넓은 선호도에 대한 일반화


우리의 절차는 모델 교육에 사용되는 데이터를 직접 생성하는 라벨러와 서면 지침, 특정 사례에 대한 직접적인 피드백 및 비공식 대화를 통해 라벨러에게 지침을 제공하는 연구원의 선호도에 따라 모델의 동작을 조정합니다. 또한 고객과 API 정책에 내재된 기본 설정의 영향을 받습니다. 우리는 민감한 프롬프트를 식별하고 대응하는 적성에 대한 선별 테스트에서 좋은 성적을 거둔 라벨러를 선택했습니다. 그러나 데이터에 영향을 미치는 이러한 다양한 소스가 우리 모델이 더 광범위한 그룹의 선호도에 맞춰 조정된다는 것을 보장하지는 않습니다.

우리는 이를 조사하기 위해 두 가지 실험을 수행했습니다. 먼저, 홀드아웃 라벨러를 사용하여 GPT-3 및 InstructGPT를 평가합니다. 이자형[이자형]

이러한 라벨러는 교육 라벨러와 유사하게 Scale AI 및 Upwork에서 제공되지만 선별 테스트를 거치지 않습니다.

 훈련 데이터를 전혀 생성하지 않은 사람은 이러한 레이블러가 훈련 레이블러와 거의 동일한 속도로 InstructGPT 모델의 출력을 선호한다는 것을 발견했습니다. 둘째, 우리는 라벨러 하위 집합의 데이터에 대한 보상 모델을 훈련하고 다른 라벨러 하위 집합의 선호도를 예측하는 데 일반화된다는 사실을 발견했습니다. 이는 우리 모델이 훈련 라벨러의 선호도에만 과적합되지 않았음을 의미합니다. 그러나 이러한 모델이 더 광범위한 사용자 그룹에서 어떻게 작동하는지, 그리고 인간이 원하는 행동에 대해 동의하지 않는 입력에서 어떻게 작동하는지 연구하려면 더 많은 작업이 필요합니다.

 

10대 미래 기술 · 인공지능
Why GPT-3 is the best and worst of AI right now

AI의 명암을 모두 담은 소우주, GPT-3

오픈AI의 GPT-3는 완벽한 영어 구사로 대중을 감탄하게 했다. 하지만 만약 이것이 허상이라면?

이토록 대중을 열광시킨 인공지능(AI)은 딥마인드의 알파고와 IBM의 체스 AI 딥블루 이후 처음일지도 모른다.

샌프란시스코에 있는 인공지능 연구기관 오픈 AI가 구축한 GPT-3는 딥러닝을 사용하는 대규모 언어 모델이다. 수천 권의 책과 인터넷 전역에서 긁어모은 텍스트를 학습 데이터로 삼아 단어·구절들을 묶어 문장을 자동으로 생성해 낸다. 2020년 출시 당시 섬뜩할 정도의 필력으로 인간의 글을 훌륭하게 흉내 내며 화제를 모았다. 많은 이들은 GPT-3의 출시를 진정한 인공지능 개발로 가는 기념비적 사건으로 평했다.

 

다음은 GPT-3 작업물의 예시다. 이탤릭체 부분이 사람이 제시한 글감이다.

 

충격적인 소식이다. 과학자들이 안데스 산맥의 외딴 미개척 계곡에서 유니콘 무리를 발견했다. 놀랍게도 유니콘들은 완벽한 영어를 구사하고 있었다. 갈기도 완벽하게 정리되어 있었고, 디올 메이크업을 한 것처럼 보였다.

인류학자 다니엘 세인트모리스(Daniel St. Maurice)는 말했다. “우리는 유니콘들을 발견하고 큰 충격을 받았습니다. 살면서 한 번도 보지 못한 모습이었으니까요. 전설 속에서나 들어봤지, 실제로 존재할 것이라고는 생각지 못했죠.”

과학자들이 계곡에 처음 도착했을 때 유니콘들은 깜짝 놀라며 당황했지만, 동시에 흥분된 기색을 보이기도 했다. 유니콘들은 연구원들을 반갑게 맞이하며 실은 아주 오랫동안 그들을 기다려오고 있었다고 말했다.


제한 사항


상당한 진전에도 불구하고 InstructGPT 모델은 완전히 정렬되거나 완전히 안전하지 않습니다. 그들은 여전히 ​​​​유해하거나 편향된 결과를 생성하고, 사실을 꾸며내고, 명시적인 프롬프트 없이 성적이고 폭력적인 콘텐츠를 생성합니다. 그러나 기계 학습 시스템의 안전성은 기본 모델의 동작뿐만 아니라 이러한 모델이 배포되는 방식에 따라 달라집니다. API의 안전성을 지원하기 위해 우리는  잠재적인 애플리케이션  이 출시되기 전에 지속적으로 검토하고 , 안전하지 않은 완료를 감지하기 위한 콘텐츠 필터를 제공하고, 오용을 모니터링할 것입니다.

사용자 지침을 따르도록 모델을 훈련시키는 부산물은 안전하지 않은 출력을 생성하도록 지시할 경우 오용에 더 취약해질 수 있다는 것입니다. 이 문제를 해결하려면 모델이 특정 지침을 거부해야 합니다. 이를 안정적으로 수행하는 것은 우리가 다루고자 하는 중요한 공개 연구 문제입니다.

또한 많은 경우 평균 라벨러 기본 설정에 맞추는 것이 바람직하지 않을 수 있습니다. 예를 들어 소수 집단에 불균형적으로 영향을 미치는 텍스트를 생성하는 경우 해당 집단의 선호도에 더 큰 가중치를 부여해야 합니다. 현재 InstructGPT는 영어 지침을 따르도록 훈련되어 있습니다. 따라서 영어권 사람들의 문화적 가치에 편향되어 있습니다. 우리는 라벨러의 선호도 간의 차이와 불일치를 이해하기 위한 연구를 수행하고 있으므로 보다 구체적인 모집단의 값에 따라 모델을 조정할 수 있습니다. 보다 일반적으로 모델 결과를 특정 인간의 가치에 맞추는 것은 사회적 영향을 미치는 어려운 선택을 초래하며 궁극적으로 우리는 이러한 결정을 내리기 위한 책임감 있고 포괄적인 프로세스를 확립해야 합니다.


다음 단계


이는 당사의 정렬 연구를 당사 제품에 처음으로 적용한 것입니다. 우리의 결과는 이러한 기술이 범용 AI 시스템과 인간의 의도의 정렬을 크게 개선하는 데 효과적이라는 것을 보여줍니다. 그러나 이것은 시작에 불과합니다. 우리는 인간에게 안전하고 도움이 되는 언어 도구에 대한 현재 및 미래 모델의 정렬을 개선하기 위해 이러한 기술을 계속해서 추진할 것입니다.

728x90
반응형
LIST