본문 바로가기

say와 AI 챗봇친구 만들기 보고서

저글링 2~3마리 모았더니 울트라리스크가... [작은 AI 모델을 섞기만 하면 GPT3.5보다 성능이 좋다는데 이건 온디바이스AI 혁명입니다]

728x90
반응형
SMALL

저글링 2~3마리 모았더니 울트라리스크가... 작은 AI 모델을 섞기만 하면 GPT3.5보다 성능이 좋다는데 이건 온디바이스AI 혁명입니다

 

GPT의 기반인 Transformer 논문 이름이 “Attention is All You Need" 였죠. 최근 아카이브에 “Blending is All You Need" 라는 논문이 올라왔습니다. 작은 AI 모델 2~3개를 잘 섞어 학습하면 그보다 10배인 챗GPT 보다 더 좋은 성능을 낸다는 건데요. 실제로 130억, 60억, 60억 이렇게 세개 섞은 모델이 1750억개의 GPT3.5 보다 챗봇 성능 지표 기준으로 더 나은 값이 나온 결과를 보였습니다. 온디바이스AI가 현재 스냅드래곤 기준 100억개 내외 수준의 LLM을 돌릴 수 있는 것으로 보았을 때, 이게 가능하다면 훨씬 더 큰 규모의 AI 모델도 온디바이스로 구동이 가능하지 않을까 생각이 드는데요. 관련 논문 자세히 보시면서 온디바이스AI 혁명의 시작이 아닌지 살펴봅시다

 

지금 어떤 상황이냐 요런 것들 한 두
개 조합을 해 가지고이 커다란 놈 한
놈을 이겼다는 얘기를 하고 있는
거예요이
논문이네 여러분 반갑습니다대 공학
에러입니다 갤럭시 언팩 행사도 이렇게
있었고 그렇게함에 따라서 온디바이스
AI 것에 대해서 상당히 관심이
높아지고 있는데요 일단 그게 뭐냐라는
것부터 시작해서 이제는 그 개념은
알겠는데 이거 어차피 체치 PT만큼
못 하는 거 아니야 요런 의문을 많이
가지시기 합니다 그런데 제가 지난주에
본 논문 중에서 어 이거 이제 진짜
온디바이스 AI a 최지 PT 급으로
말을 하는 모델이 나올 수 있겠는데
싶은 논물이 있어서 깜짝 놀라서 제가
소개를 해 드리려고 하는데요 원래
GPT 기반이 됐던 그
트랜스포머라쳇 한번 좀 더 정리를 해
보면서이 논문에 대한 내용이 진짜
사실인지 앞으로 온디바이스 AI
세상이 어떻게 펼쳐질지 요런 것들
한번 살펴보도록 하겠습니다 지난번에
제가 갤럭시 언팩 행사에서 온디바이스
AI 지금 채지 피티와 같은 서버용
AI a 차이점을 제가 한번
설명드렸는데 모르시는 분들이 있을 것
같아서 다시 한번 간략하게
설명드리겠습니다 그 우리가 손전등
같은 경우에는 배터리를 넣고 전원만
켜면은 불이 켜지잖아 그러니까 언제
어디서나 불을 딱 켤 수가 있지만
불이 막 엄청나게 화나진 않죠 그리고
여러 개 켤 수도 없잖아요요 하나에
대해서만 딱 할 수 있는 겁니다
반면에 우리 집에 저렇게 다양한
전구들이 있다 보면은이 전선만 연결돼
있으면 는 여러 개를 다 켤 수가
있잖아요 훨씬 더 환하게 할 수가
있습니다 어떤 느낌인지 감이 오십니까
온 디바이스 AI 바로이 손전등 같은
거예요이 스마트폰과 같이 포터블 한
디바이스들 이렇게 들고 다니면서
하는데 특별한 연결이 필요 없어 즉
커뮤니케이션이 필요 없는 거예요
여러분들이 통신이 통하지 않는다
하더라도이 디바이스에 배터리만
있으면은이 AI 관련된 서비스를
이용할 수 있다라고 이해를 하시면
되는 거예요 그렇다 보니까이
디바이스에서 동작을 할 수 있게끔
만들어야 되다 보니 칩 사이즈에
한계가 있고 또 전력 소모에도 한계가
있고 이렇다 보니까 너무나도 큰 모델
지금 서버에 올리는 체 gptn
gpt4 같은 모델 요런 것들을
올리기는 쉽지가 않죠 반면에 서버에서
는 우리가 채집 히에 이렇게 뭐
텍스트를 쓰면은 그걸 쓴게 서버로
갑니다 서버로 가서 거기에서 막 돌아
가지고 다시 통신을 통해서 우리
휴대폰으로 넘어오는 거죠이 전기도
마찬가지잖아요 발전소에서 터 전선을
타고 와 가지고 우리 집에 전압 전류
이렇게 딱 이게 되고 있어야지 전원이
흐르면서 불이 켜지듯이 다양한 모양의
전구들을 켜기 위해서는 저렇게
연결들이 다 되어 있어야 한다는 거죠
요게 딱 비교가 될 수 있을 건데
온디바이스 AI 된다는 것은 결국
간단하지만 제약이 있다라는 거죠
그래서 파라미터 수의 제약이 있습니다
실제로 l&m 모델들을 잘 보면은
역대 l&m의 파라미터 수를 본
건데요 사이에도 굉장히 많은 것들이
나왔어요 GPT 3 3.5만 하더라도
150억 개였고 메가트론 튜링 팜이
든가 뭐 이런 것도 이제 500
빌리언 그러니까 5,000억 개가
넘어가죠 GPT 폰 얼만지도 몰라요
근데 지금 디바이스에 넣을 수 있는
수준이이 라마 큰 모델보다 더 작은
모델이에요 지금 10빌리언 그러니까
100억 개 정도 넣을 수 있거든요
그러니까이 위에 있는 애들은
얘네들보다 훨씬 작은 모델인데
온디바이스 AI 구동하기가 어렵다라고
보시면 될 거 같아요 대충 후려쳐서
말씀드리면 그렇다는 거예요 그래서
실제로 갤럭시 s24 시리즈 울트라에
들어간 스냅드래곤 h gen
3라는이를 보면은 업투 10빌리언
그러니까 100억개 까지 디바이스를
넣을 수 있다라고 하는 거고 나중에
윈도우즈 온 암으로 퀄컴이 내놓는
스냅드래곤 x 엘리트요 칩 같은
경우에는 13 빌리언 아지
지원합니다는 얘기까지 있죠 좀 더
확장이 된다는 겁니다 그러니까 이제
라마 2에 이제 7빌리언 리 70억
개짜리 요런 것들은 130억 개보다
작으니까 돌아갈 수 있다라고 보는
것이 되겠는데 물론 이걸 단순히
소화한다 뿐만이 아니라이 초당 토큰
수도 중요해요 요거 같은 경우에는
초당 토큰 수가 3개니까 굉장히 빠른
편이죠이 작은 모델에서 빠르게 돌아갈
수 있다 뭐 이런 얘기를 하고 있는
것이 되겠습니다 그래서 온디바이스
AI 있는 일단 그러한 큰 모델을
가져서 돌릴 수 있을 만한 그런 뉴럴
엔진이 있는 것이냐가 있는 것이냐라는
것도 중요하고 거기에서 이제 빠르게
돌려서 저렇게 토큰을 바로바로 그
토큰은 이제 단어라고 보시면 돼요
요러한 것들이 구동될 수 있도록
온디바이스 AI 대한 관심이 높아지고
있다 근데 아까 앞서 보셨다시피이
크기가 너무 작은 것만 되니까 요런
것들 어떻게 하지 했는데 지금 어떤
상황이냐 요런 것들 한 두 개 조합을
해 가지고이 커다란 놈 한 놈을
이겼다는 얘기를 하고 있는 거예요이
논문이 그래서이 논문입니다 블렌딩
is 올유니드 더 싸고 더 좋은
대한제 뭐에 대해서 트릴리온 파라미터
LM 그래서 캠브리지 대학과
유니버시티 컬리지 런던 요기서 했네요
뭐이 자세히 볼 건 아니고이 논문을
쭉 보시면은 뭔가 도면을 보면서
말씀드릴게 별로 없는데 일단 블렌딩
방법 자체가 서로 다른 작은 이런
대화형 AI 모델들이 있잖아요 여기서
6일과 1빌 썼다고 하는데 저렇게
작은 모델들 두 개에 답을 주는 거를
임의로 선택해 가지고 생성하는 방식을
택하고 있어요 핵심이 작은 애 두
이명서 서로 도와가면서 점차 더 좋은
답변을 만든다는 것에 있습니다 느낌이
다른 것들을 합쳐 가지고 더 큰 거를
발성할 수 있다라는 얘기를 하는 것이
되겠고요 그런 성과부터 먼저
말씀드리면 여기 지금 인게이지먼트와
리텐션이란 돼 있죠 인게이지먼트
리텐션 요게 인게이지먼트 리텐션
우리나라 말로 하면은 이제 참여도
사용자 유지율 요걸 얘기를 하는 건데
여기 체포 같은 시스템에서 계속 이제
사용자가 이걸 유지를 하고 있느냐
아니면 참여도가 얼마나 되냐라는
척도를 나타낸 거예요 그래서 이제
블라인드 테스트를 한 거죠 그렇게
해서 해 봤는데 요거 두 개를
블렌딩한 거 136 6을 블렌딩한
거가 채지 PT 3.5 다 훨씬 높은
인게이지먼트와 훨씬 높은 리텐션을
가지고 있다 개별은 훨씬 낮죠 훨씬
낮은데 두 개 합치가 훨씬 더
높다라는 결과를 가지고 온 거예요
그래서 블렌딩 알고리즘 보니까 먼저
모델을 일단 선택을 해야겠죠 그래서
블렌딩을 어떻게 하느냐 어떻게 섞을
거냐 하는데 일단은 어떤 걸 할지를
골른 다음에 그 좀 유닉한 애들끼리만
뽑습니다 그런 다음에 사용자한테 어떤
보 입력을 받겠죠 그럼 그 받으면은
모든 AI 모델들이 일단은 다 생성을
하는 거예요 그래서 얘는 이렇게
대답하고 얘는 저렇게 대답하고 이걸
다 갖고 온 다음에 그렇게 각각
생상된 거를 어떤 기준에 따라 일단
평가를 합니다 점수를 먹기는 거죠
그래서 평가 과정을 통해 가지고 가장
적절한게 뭐냐라고 다시 또 응답이
결정이 돼서 사용자한테 전달이 됩니다
그러면 이거를 이제 시스템이
사용자에게 피드백을 주고 요러한
데이터들이 어떻다 저었다 이렇게
의견을 주면은 그거 자체로 또 사실
습을 하는 거예요 그럼 더 작은 것에
있어서도 좋은 모델을 뽑아낼 수 있다
이거 엄청난 발견 있지 않습니까 제가
예전에 스테이블 디퓨전 나온 로라
모델 같은 것들도 소개해드렸지만 결국
큰 모델을 디스틸레이션 이렇게 좀
작게 만든다거나 아니면 이제 튜닝을
하면서로 랭크로 이렇게 점차 경량화를
만들어 갖고 쓰면은 아무래도 이게
스케링 효과 때문에 똑같은 숫자를
나타내던 거를 열 비수로 표현하던
거를 뭐네 빗으로 밖에 표현 안 하고
뭐 이렇게 하면은 아무래도 손실이
있거든요 근데 이런 방식으로 서로
모델들 그리 서로 학습하면서 피드백을
준 거를 학습을 하면은 기존 모델보다
훨씬 더 좋다라고 하면은이 온디바이스
AI 그래도 상당히 좋은 품질의 어떤
AI 서비스가 가 통신 없이도 될 수
있다라는 것이 또 한번 뛰어넘는
결과이기 때문에 이게 아카이브 있는
논문이지만 바로 정리해서 한번 공유를
해 드려봤습니다 온디바이스 AI
갤럭시 출시와 함께 이렇게 주목을
받고 있는 상황인데 정말 빠르게
발전이 되고 있고 AI 모델이 어느
정도 정리가 되면은 요런 것들을
각자가 mpu 갖고 있기 때문에 AI
모델만 바꿔서 AI 서비스를 확장해서
돌릴 수가 있겠죠 그래서 지금 하루가
멀다 하고 AI 모델이 너무나도
빠르게 발전되기 때문에이 gpt3
gpt4 뭐 이런 얘기가 나오지만
아도 우리가 진짜로 널리 쓸 수 있는
AI 진짜 격려가 돼서 빠르게 퍼지지
않을까 싶어서 오 한번 요약해
보았습니다 아직 아카이브에 있는
논문이기 하지만 이렇게 신박하게
블렌딩하는 방법으로 GPT 3.5
수준에 우월한 AI 모델을 만들 수
있는 정양화 모델을 바라보니 정말로
온디바이스 AI 할 수 있는게
무궁무진해질 거라고 기대하고 있는
안대 공학
 

 

728x90
반응형
LIST