본문 바로가기

say와 AI 챗봇친구 만들기 보고서

구글이 발표한 SELF-DISCOVER 기술 [LLM이 스스로 추론 구조를 발견하면서 GPT4도 Gemini도 모두 성능이 좋아집니다!]

728x90
반응형
SMALL

구글이 발표한 SELF-DISCOVER 기술, LLM이 스스로 추론 구조를 발견하면서 GPT4도 Gemini도 모두 성능이 좋아집니다!

안될공학 - IT 테크 신기술
구글이 최신 논문에서 소개한 SELF-DISCOVER는 언어 모델이 복잡한 문제를 해결하기 위한 추론 구조를 스스로 발견하게 하는 혁신적인 기술인데요. 기존의 직접 대답 방식과 Chain-of-Thought 와 같은 프롬프팅 방식을 뛰어넘어, 기존 GPT4와 PaLM2 같은 모델들을 대포 ㄱ개선시킵니다. 언어 모델이 다단계 추론 과정을 자동으로 구성하게 함으로써, AI가 더 복잡한 문제를 이해하고 해결할 수 있게 하는데요. 사용자가 일일이 해석할 필요 없이 모델과 문제 자체를 스스로 해석하면서 자가 학습과 추론 과정을 통해 더욱 진화할 수 있는 가능성을 열어주었다고 평가받습니다.
 
줘 하는 거랑 AI 모델을 공대
교수가 설명하듯이 굉장히 전문적인
내용까지 포함해 가지고 얘기해 줘
예를 들면은 이렇게 설명해죠 이거는
이건데 저건 저건데 이렇게 막 예시를
들으면서 설명한 거랑 결과물이 다를
거잖아요 그러니까 그렇게 입력하는
방식의 차이가 있다는 겁니다 그러면
이걸 좀 알고 가면 좋겠죠 그래서
일반적으로 프롬프트를 보면은 원샷
투샷 파샷 이런 거는 예제를 몇 개를
드느냐 이런 얘기예요 그냥 아무것도
안 하고 물어보면은 제로 샷인 거고
이렇게 지금 보시다시피이 자체가 지금
프롬 포트입니다 q가 물어보는게
아니라이 전체를 입력을 한 거예요
채체 비에다 그러면은 이렇게 했
로저가 다섯 개의 테니스 볼을 갖고
있는데 걔가 테니스볼 두 캔을 더
샀고 거기에다가 각각의 캔은 세 개의
테니스 볼이 있으니까 총 몇 개의
테니스 볼을 갖고 있느냐 하면은
거기에 대한 답은 11개입니다고
대답을 한다 그러면 비슷하게 이렇게
질문하는 거예요 카페테리아에 이렇게
이렇게 애플이 몇 개 토개 해서
전체적으로 애플이 몇 개냐고
물어봤는데 그냥 이렇게 퉁 차고
질문하니까 답을 제대로 못 한다는
말이죠 이게 원샷이 보시면 되는데이
원샷 말고 여기에 체인오브 소트를
기법을 적용한다는 거는 똑같은 큐라는
질문에 대해서 인 오브 잖아요 생각의
체인들 생각의 사슬들을 논리적으로
얘기를 해 준 건데 로저가 처음에는
다섯 개의 볼로 시작을 했습니다
그런데 세 개의 테니스 볼이 두
캔으로 이루어져 있으니까 여섯 개가
있으니까 5 + 6 하면은 11이
있죠 그러니까 서가 11입니다는
예시를 요렇게 자세하게 들렸다는
겁니다 그렇게 하면은 카페테리아
여기서 좀 잘못된 것도 얘가 논리적인
흐름으로 렇게 추론을 하면서
결과적으로 제대로 답을 냈다는 거죠
1항 방식이 체인오브 소트 방식이고
주목을 받은 방식이라는게 LM 그냥
단어의 조합 단어가 다음에 게
확률적으로 어떤게 높으냐 이렇게 해서
결정이 될 텐데 이렇게 로직을 좀
추가를 하면은 마치 사람이 생각을
하는 것처럼 언어를 통해서 생각을
하는 것처럼 요렇게 좀 더 정확도를
높일 수 있고 논리적인 연역적인
사고를 할 수 있게끔 유도를 하는
프롬프트는 거죠 근데 이게 문제는
뭡니까 우리가 매번 이렇게 해야 되지
않겠습니까 프롬프트 넣어야 되고 또
어떤 문제는 이러한 연역적 사고가
필요한 건지 아니면은 창의성이 필요한
건지 이런 거를 매번 우리가 스스로
판단할 필요가 없다라는게 그것 자체도
셀프로 디스커버 하겠다라는게 이번
논문의 핵심이에요 그래서 논문에 있는
피규어를 한번 보시면은 여기 보이시죠
다이렉트 안서 그냥 바로 답하는 거는
테크라는 거 그러니까 질문이죠 질문이
딱 주어지면 거기에 대해서 그냥 바로
서를 합니다 체인오브 소라는 방식은
테스크 질문이 주어지면
rational 에라고 돼 있죠
그러니까 특정한 어떤 사고의 흐름을
담아 가지고 한 다음에 서를 한다는
거죠 어 어떤 느낌인지 아시겠죠 근데
이번에 하는 셀프 디스커버 리즈닝
스처 생각을 하는 방식 우리가 한
방식은 태스크가 주어지면 그 태스크에
딱 맞는 어떤 리즈닝 스트럭처
생각하는 구조에 대해서 한번 생각을
한다는 겁니다 그래서 거기에 대해서
스트럭처 된 생각하는 방식을 가지고
온 다음에 거기에 대해서 서를 해
봤더니 지금 아래에 보이시다시피 숨
구기가 넘은 여러 가지 테스트 중에서
물론 안 좋은 것도 있어요 정확도가
떨어지는 것도 있는데 대부분 이렇게
개선된 점수를 보인다는 거죠 여기에
bbh고 돼 있는 거는 빅 벤치
하드라고 해서 현재 언어 모델들이
해결하기 어려운 그런 것들로 막
구성한 23가지의 문제가 있거든요
그런 작업들을 처리하는 거가 되겠는데
일반적으로 이런 것들이 이제 인간이
했을 때보다 조금 더 이제 구리게
나오는 그런 문제들을 모아 놓은
거라고 보시면 돼요 근데 이제
에버리지 평균 점수가 가 이제 11%
증가를 했다라고 보시는 부분이
되겠고이 t4d 든가 매스 같은 거
요런 것도 결국은 어떤 영역적 사고를
평가하는 벤치마크로 보시면 될 것
같습니다 그래서 물론 이제 안 좋게
나온 것도 있어요 정확도 떨어지고
있는데 대체적으로 또 높아지는
부분들이 있더라는게 의미가 있다라는
거죠 거기다가 구글의 팜 2랑 GPT
4에 여기 연결을 해 봤어요 거기서
체인오브 소트 방식도 사용해 보고
플랜 솔브 프롬트 요런 것도 최근에
나온 프롬프트 여러 가지 방식을
사용해 봤는데 셀프 디스커버는 방식을
사용해 보니까 각각의 벤치마크
점수에서 상당히 더 좋게 나오더라 좀
꽤 차이가 많이 나죠 알아서이 리즈닝
사고 자체를 구축을 해서 최적화된
결과를 뽑았고 그걸로 하니까 어떻게
보면은 적당히 이제 제일 잘 쓸 만한
연장을 구해 가지고 그걸로 이제
후려치는 거라고 보시면 될 거 같아요
그래서 이거의 구조가 어떻게 돼
있느냐도 피규어로 나와 있는데
전반적으로 이렇게 간단히 돼 있습니다
셀렉트 구조 어댑트 구조 임플리먼트
구조 결국은 이러한 어떤 특정한
복잡한 문제가 있으면은 이거를 언어
모델이 어떻게 이해하기 좋게이
인퍼런스 하는 구조를 스스로 잘
구축할 수 있을 것이냐 요것과 관련된
건데 먼저이 셀렉트 같은 경우에는이
기본이 되는이 모듈들이 여러 가지
있죠 스텝바이 스텝도 도 있고
브레이크 다운도 있고 다 쪼개는 거고
프로포즈 베리파이 여러 가지 이런
모듈들이 있는데 이걸 랭기지 모델에
넣을 때에 다양한 추론 모듈들을 한번
평가를 해 보는 거예요 그래서이
작업에 해결이 될 것 같다라고 하는
것들을 이제 선택을 하는 과정이 바로
셀렉트가 과정이라고 보시면 될 거
같고 그다음에 어댑트 Pro
가시면은이 어댑트는 특정 모듈들이
나오면은 그 모듈을 랭기지 모델에
넣었을 때에이 선택된 모듈의 설명을
자가에 좀 더 이제 구체적으로 맞춰
가지고 재구성할 수 있도록 도움을
준다는 겁니다 그래서 스텝바이 스텝
같은 경우에는 이제이 아이템을
애널라이즈 한다든가 브레이크 다운을
어떻게 한다 타입과 컬러를 구분
한다는 거 그리고 마지막으로
임플리먼트 구현을 한다라는 거는이
모듈을 사용해 가지고 작업을 해결하기
위해서 특정한 플랜을 만든다는 거예요
그래서 각각의 아이템의 타입이나 컬러
같은 거를 리즈닝 할 수 있도록
이렇게 구성 한다거나 요런 식으로
구성을 하는 거죠 굉장히 간단해
보이면서도 각각의 모듈들을 통해서
구체는 과정 그 구조야 된 거를 다시
스트럭처링 하는 과정 이걸 거쳐
가지고 셀프 디스커버 제적을 한다라고
보시면 될 거 같고요 요렇게 했을 때
성능을 보니까 일단 오른쪽부터 먼저
보시면은 자 멀티링구얼 알고리듬
nlu 월드 널리지 전체적인 부분에
있어서 다이렉트 방식에 비해서 얼마나
더 임프가 있느냐 하면은 지금 전부
다 다 양수가 임프가 다 있는 거죠
그중에서도 다이렉트 방식과 체인오브
소트 방식 모두 있서 일괄적으로 다
개선 있는 것을 볼 수가 있습니다
거기다가 왼쪽을 보시면은 요거는이 세
가지 주요 옵션 있죠 아까 말씀드린
셀렉트 어댑트 임플리먼트이 sai
방식을 하나 적용했을 때 두 개
적용을 때 세 개 적을 때 각각을 해
보니까 확실히 빨간색이 제일 좋은 거
보이시죠이 러시가 점차 증가를 하는
모습을 보실 수가 있다는게 되겠습니다
근데 제가 성능 부분도 말씀드렸지만
진짜 중요한 부분은 이렇게 성능을
우세함에 따라서 리소스를 엄청 청
소모를 하는 것이 아니라 훨씬 더
효율적으로 쓴다고 말씀을 드렸잖아요
쉽게 말해서 데이터센터에이 GPU
전력 소모를 덜 하게 된다는 겁니다
그래서 다른 피규어 내용을 보시면은이
bbh 아는 벤치마크에서 무비 레데이
션이랑 지오메트릭 셰이스 요거 두
개를 보는데 셀프 디스커버 이제요
별표 방식이에요 근데 가로축이
뭐냐면은 인스턴스마다 인퍼런스
그러니까 추론을 얼마나 많이 해야
되냐 그러니까 이쪽 0에 가까운면
갈수록 인퍼런스 적게 하는 거니까
그만큼 리소스를 적게 먹는 거겠죠
근데 로시는 60까지 올라가잖아요
60 80 이렇게 높아 가잖아요 여러
가지 모 모델들의 1만큼 성능을내는
것도 없는데 리소스는 진짜 작게
먹는다는 겁니다 일반적으로 체인오브
소트 방식도 비슷한 규모 리소스를
쓰고 있는데 셀프 컨시스턴시 요런
거는 또 이제 리소스를 훨씬 더 많이
잡아 먹죠 그리고 머저이트 보팅
요거는 말 그대로 다수개 원칙이죠
각각의 방식에 있어서 다수개로 하니까
여러 가지 한 다음에 다 한 다음에
제일 많이 추천받는 거 이렇게 하니까
리소스를 많이 들 거고 물론 좀
극단적인 비교기 한데 기존에 있는
것보다 거의 비슷한 수준으로 했을
때도 이렇게 성능이 더 잘 나오니까
상당히 주목을 받는 기술이 되겠죠
그래서 각각의 리즈닝 모듈들을 다
테스트하는 방식보다 알아서 어댑티브
하게 잘 선택하는 방식 이런게 진짜
스마트한 방식이지 않겠습니까 그래서
AI 모델 쪽에서도 요런게 적용이
되고 이건 구글 딥 마인드에서 내놓은
논문이기 하지만 실제로 GPT 4에도
적용할 수 있고 제미나이 울트라에
적용할 수 있고 제미나이 1.5 프에
적용할 수 있고 다 적용을 할 수가
있겠죠 어떻게 보면은 세상에 존재하는
모든 AI 모델이 만약에이
프레임워크에 적용을 하게 된다면은
전반적으로 한층 더 껑충 뛰어오는
상태에서 또 비교가 가능하겠다 요러한
부분을 알 수가 있었습니다 그래서
이게 도대체 무슨 의미를 가지느냐
결국은 AI 스스로 어떤 복잡한 추론
구조가 있는데 이거를 자기가 발견을
할 수 있다라는 거예요 뭔가스럽지
않습니까 그러니까 자기가 어떤 문제를
받으면은이 문제를 해결을 할 수 있을
만한 특정한 모델을 가지고 접근을
한다 물론 재미나 1.5 프로에
적용된 MOE 방식 믹스처 오 exp
방식도 특정한 전문가를 선택한다는
측면에서는 비슷한데 여기는 어떻게
보면은이 추론 구조를 발견을 한
거잖아요 AI 모델 선택한다 보다는
추론을 어떻게 해야 어떻게 접근을
해야지 어떤 식으로 테스크를 정리를
해야지 얘가 잘 풀 것이냐를 얘기를
하는 거니까 조금 다른 측면이 있죠
그래서이 부분까지 사람이 다 하는게
아니라 자동화가 된다면은 아 프롬프트
엔지니어링이 결국 필요할 건가 이런
생각도 좀 들고 거기다가 아까
말씀드렸다시피 문제 해결 능력과
정확도를 크게 향상 시켰는데 대비해
리소스는 적게 됐다라는 점이이
공학에서 제일 좋은과 아닙니까
리소스는 적게 들었는데 성능은 더
좋아 아 이런 거 잘 없잖아요 세상에
공짜는 없다고 이거를 둘 다 성능과
경제성을 모두 다 갖추기가 힘든데
이러한 구조를 어느 정도 차아
있다라는 것도 상당히 주목할 만한
부분입니다 그리고 이러한 새로운 추론
방식의 가능성을 좀 더 열었다는 것에
학문적으로 더 의미가 있는데요 더
복잡한 문제를 해결하기 위해서는
새로운 적건 방식을 토대로 해서
적당해야 할 텐데 기준에 있는 여러
가지 모델 중에서 이러 것들을 점차
발전시켜서 앞으로는 좀 더 이게 또
고도화 되지 않겠습니까 지금은 이렇게
저렇게 저렇게 이렇게 세 단계만
선택을 하게 됐다면 점차 프롬파티
방식을 점차 고도에서 굉장히
세분화에서 선택을 하게 되면은 이게
마치 사람이 사고를 하는 방식에처럼
뭔가 접근을 할 수도 있겠다 즉
문제를 더 잘 풀 수도 있겠다 우리도
사람이 생각할 때 특정한 문제를
풀려고 하면은이 방식도 접근해 보고
저 방식도 접근해 보고 여러 가지
생각을 해 보잖아요 그런 것처럼
l&m 접근을 한다 그리고 경험적인
가치를 토대로 해서 좀 더 중추를
져서 빠르게 선택할 수 있을 거고
요런 것들이 있을 겁니다 그리고 AI
이렇게 된다라는 걸 보니까 다시 또
인간이 어떻게 추론을 하느냐에 대해서
한번 더 생각해 볼 수 있는 기회가
됐을 것 같고요 더군다나 다양한
벤치마크에서 전부 다 일괄적으로
성능을 계산하다 보니까 아 역시 답은
인간이 뭔가 문제를 해결하는 방식을
잘 모사하는 특정한 모델을 잘 구출을
해야겠다 그게 AI 모델 측면 뿐만이
아니라이 프롬프트 방식에서도 요러한
부분도 좀 잘 살펴봐야겠다 하는
생각이 드는 논문이었습니다 이렇게
쏟아지는 AI 페이퍼를 분석하는
가운데 계속해서 신규 AI 소식이
전해져서 매번 빠르게 정리하여
분석해드리고 있는 안
공학였습니다

 

728x90
반응형
LIST