본문 바로가기

say와 AI 챗봇친구 만들기 보고서

이미지 생성 이젠 실시간으로! 텍스트 입력하면 즉각 고퀄 이미지 생성, 애니메이션도 뚝딱! [기존 확산 모델과는 다른 LCM-LoRA 원리와 디자인 업계 판을 뒤바꿀 예시까지!]

728x90
반응형
SMALL

이미지 생성 이젠 실시간으로! 텍스트 입력하면 즉각 고퀄 이미지 생성, 애니메이션도 뚝딱! 기존 확산 모델과는 다른 LCM-LoRA 원리와 디자인 업계 판을 뒤바꿀 예시까지!

 

Stability AI에서 내놓은 Stable Diffusion 은 이후 Stable Diffusion XL 모델까지 내놓으며 점차 고퀄리티의 이미지 생성 툴로 진화하고 있는데요. 이제는 Latant Consitancy Model (LCM) 이라는 새로운 모델로 단계를 축소하여 빠른 속도로 이미지를 생성합니다. LoRA 모듈과 결합하여 빠르게 튜닝된 LCM-LoRA는 이제 디자이너들이 일러스트를 할 때에도 방법 자체가 완전히 바뀔 수도 있을 것으로 보이는데요. 그동안 늘 버퍼링으로 한참을 기다려야했던 것이 이렇게 빠르게 가능해지면서 생기는 변화와 다양한 예시들을 소개해드리겠습니다.

 

이렇게나 빨리 생성이 된다는 거죠
지금 보이세요 지금 바로 실행한
거거든요 그래서 저 정도로 뭔가
흡족할 만한 이미지가 생성이 된다라고
보시면 되겠고요 매트릭스 1 장면의
한 장면을 저렇게 애니메이션으로 바로
적용 할 수 있다라는 거 그럼
텍스트를 쳐 가지고 내가 원한
영상들을 바로바로 캐치를 할 수
있으니까 구조적으로 움직임에 따라서도
바로바로 즉각적으로 반응할 수
있도록네 여러분 반갑습니다 안대 공학
에러입니다 세상이 정말 빠르게 바뀌고
있습니다 그런데 또 한번 정말
엄청나게 변했는데요 11월 9일부터
이제 이미지 생선과 관련돼서
초고속으로 정말 빠르게 변환 부분을
알려 드리려고 합니다 바로 스테이블
디퓨전 LCM 로라라는 모델을
나옴으로써 지금 보시다시피 실시간으로
저렇게 뭔가를 인식하면 저에 대해서
바로바로 즉각적으로 정말 빠르게
이미지를 생성해 줘서 거의 동영상으로
쉽게 애니메이션을 만들 수 있는
그러한 모델이 소개가 되었습니다 사실
지금 보시는 요러한 것뿐만이 아니라
이걸 응용한 다양한 사례들이 있거든요
그래서 오늘 영상에서 이거의 원리에
대해서는 잠깐만 끄지 마세요 얼거 다
하고 나서 짧게만 다룬 다음에 굉장히
다양한 예시들을 제가 많이 보여 드릴
거예요 이제 여러분 디자이너분 분들의
일러스트레이션 하는 방식 디자인하는
방식 그림을 그리는 방식 자체가 아예
이러한 방식으로 실시간으로 어떻게
AI 상호작용하면서 이미지를 생성해
나가는 방식으로 바뀔 수도 있는
겁니다 그리고 이게
가능해짐으로써 disc 텍스트로
넣어도 바로바로 반응하면서 생성할 수
있으니까 이걸 터도 한 상당히 다양한
애플리케이션도 등장할 것으로
생각됩니다 이런 인사이트도 함께 같이
알아보도록 하시죠 최근에 이렇게 AI
생성된 이미지들 많이 보셨죠 진짜
실제로 있을 법한 아니면은 정말
아이디얼 하게 만든 거 같은
애니메이션 같기도 하고 이렇게
아리따운 여성분과 멋있는 남성분
이렇게 쉽게 생성할 수 있고 귀엽게
한다거나 아니면 섹시하게 한다거나
이런 것들 다 피처로 넣어 가지고
만들 수도 있죠 그래서 또 이제
문제가 되기도 한데 너무 또 문란하게
이렇게 생성하고 해서 어쨌든 이러한
것들이 가능해진게 바로 스테이블
디퓨저에 있는 디퓨전 모델을 실제로
상용화하면서 많은 사람들이이 디퓨전
모델이란 거 특히나 레이턴트 디퓨전
모델이란 걸 기반으로 해서 텍스트를
통해서도 이걸 토대로 이미지를 역으로
생성할 수 있게 하는 이런게 가능해
졌거든요 이거의 기본적인 원리를
간단하게만 후려쳐서 설명드리자면 흔
레이턴트 디퓨전 모델 ldm이라고
얘기를 하는데요 요게 텍스트를 입력을
해 넣으면은 이미지를 역으로
생산해내는게 되겠습니다 근데 이게
원리가 되게 재밌어요 어떤 식이야
원래는이 이미지를 요렇게 이미지
인코드 해 가지고 하면은 요거를 점차
이렇게 노이즈를 풀어요 이렇게 점점점
시커멓게 해 갖고 정말 나중에는
아무것도 안 보이는 포드 디퓨전 해서
트레이닝을 해 두면은 나중에는 역으로
이러한 노이즈로부터 특정한 이렇게
이미지 커맨드가 나오 지면은 그걸
통해서 여를 이렇게 생성을 해 낸다는
겁니다 즉 우리가 물에다가 잉크 한
방을 딱 떨어뜨리면 점점 확산하자
확산이 디퓨전 이죠 확산되는 그
개념의 역의 과정을 텍스트를 통해서
아무것도 없는 상태에서 점차 단계
단계 계산해서 이미지를 생성해
나간다는 거죠 그래서이 노이즈를 점차
이렇게 제거를 해 나가는 방식으로
역디 퓨전을 통해서 굉장히 고의
성도의 그리고 굉장히 고퀄리티의
이미지를 생성해 낼 수가 있는 것이
대요 여기서 확장된 모델이 이제 한
네배 정도 큰 모델인 스테이블 디퓨전
엑 라지라 모델입니다 SD XL이라고
부르죠 그래서이 스테빌리티 API
통해서이 개발자들이 요거를 이용을할
수 있도록 지원을 하고 있고이
스테이블 디퓨저 라지는 스테이블
디퓨저 2.1 1보다도 더 좋은
구성을 갖고 있습니다 근데 이것보다
한 단계 더 발전된게 이번에 나온
거예요 바로 기존에 있는 레이턴트
컨시스턴시 모델이라는 거를 제시를 한
건데요 아까는 레이턴트 디퓨전
모델이라고 했죠 디퓨전 확산을
시킨다는 거예요 단계별로 확산을
시키고 노이즈를 조금 넣고 또 조금
넣고 이렇게 단계 단계 단계 단계
여러 단계를 해 가지고 노이즈를 썼고
반대로 노이즈가 완창 섞여 있는
아무것도 없는 상태에서 또 단계별로
단계별로 벗겨내면서 이미지를
생성해내는 형태가 바로 기존의 ldm
모델이라고 했죠 레이턴트 디퓨저 모델
근데 LCM 컨시스턴시 모델이라는
거는 목적은 이거예요 빠르게 생성하고
싶다는 거예요 그러면은 우리가 잉크
한 방을 떨어뜨리고 두 방을
떨어뜨리고이 단계를 계속 단계 단계를
쪼개 갖고 해야지만이 고품질을 낼
수가 있었는데이 단계를 축소를 시키고
싶은 거예요 기존에는 수십번의이
스테이지가 있어야 됐거든요 그래서이
디퓨전 단계를 거치고 역 디퓨전
거치면서 고퀄리티의 저런 사진들을
내보낼 수 있었는데 지금은 여기
보이시죠네 번의 스텝의
인퍼런스만으로도 이렇게 고퀄리티의
이미지를 생성해 낼 수 있다라는 것이
되겠죠 이게 어떻게 가능하냐 좀
신기하죠 이거는이 역으로 확산하는
과정 있죠 거꾸로 이제 텍스트와이
노이즈가 왕창 섞인 거에서 역으로
이렇게 이미지를 생성해 나갈 때요 역
확산 과정에서 특정한 부분을 수식으로
아예 대체를 해 버렸어요 노이즈를
점점 벗겨지는 거를 정확하게 말해서
이제 프리티 플로 기반의이 미분
방정식 공대 다니신 분들 아시죠 미방
정말 싫은 거 미방을 통해서 이거
미방을 푸는 걸로 대체를 했다는
거예요 그러니까 여러 가지 스텝이
있었는데 요거를 어떤 특정한 방정식을
푸는 형식으로 대체를 해 버리니까
기존 방식보다 훨씬 더 빠르게이 다음
모델은 이렇게 될 거야라고 예측을
바로바로 해 버리니까 요걸 빨리 할
수 있었는데 이게 퀄리티도 괜찮았다는
겁니다 동단에 이러한 방식으로
하니까이 LCM 같은 경우에는
기존보다 훨씬 더 적은 시간 동안의
학습만으로 충분히이 데이터를 확보할
수 있는 이런 것도 되었다고 합니다
바로이 논문이 LCM 로라 로라도
나중에 설명드릴게요 어 유니버설
스테이브 디퓨전 엑셀러레이션 모주
이렇게 돼 있는데 실제 논문에
들어가서 보면은 뭐 대표적으로 피카츄
피카츄를 그냥 하면은 투스텝 포스텝
8스텝 할 때이 8스텝 보세요 8스텝
이거 뭐 조은 적기도 안니고 조금
애매하잖아요 32 스텝까지 가야 좀
봐줄 만한데 LCM 로라를 딱 갖다
붙였더니 토스텐 만에 오 포스텐 만에
오 8 스텝 번에 오 점점 잘 나오죠
이렇게 LCM 로라를 하면은 적은
단계이 적은 단계를 통해서도 이렇게
충분히 좋은게 나오더라 허인 패스도
이렇게 올라왔는데 예제들이 더
있습니다 자 이런 사진들 봅시다 한
번 추론을 때는 좀 뭉개져 있죠 두
번째도 좀 모고 왔는데 세 번째네
번째 충분히 어 흡족하지 그래서 점점
더 이제 정교화 되는 가정인데
이렇게나 빠르게 추론을 할 수
있으니까 여러분들이 실시간으로
텍스트를 넣더라도 이거를 바로바로
생성해낼 수 있다는 겁니다 여기서
LCM D 붙은 로라라는 거는 로랭크
어댑테이션 약자 든요 요게
어마어마하게 큰 모델이 있으면 이걸
미세 조정하는 방식을 말하는 건데
원래 이제 선생님이 되는 큰 모델이
있고 요거를 좀 추출해 가지고
디스틸레이션이라 하거든요 좀 작은
모델로 이렇게 미세 조정하는 형태를
우리가 디스틸레이션이라고 하는데
기본적으로 로랭크 어댑테이션이 모듈을
추가함으로써 기존 모델에 조금만
수정을 해 가지고이 LCM 적용을
한다는 겁니다 그러니까 기존에 있는
스테이블 디퓨전 이라든가 아니면
스테이블 디퓨전 엑스라지 로라를
적용해서 LCM 적용해서 빠르게
만들어 낼 수 있다는 거죠 즉 지금
바로 생성이 가능해서 수많은 예제들이
지금 나오고 있다는 겁니다 그래서
지금부터 제가 예제를 보여 드리면요
첫 번째 이런 거 이런 거 그냥
애니메이션 손쉽게 실시간으로 만들 수
있다는 겁니다 텍스트로 넣어 가지고
그리고 이런 것도 보세요 어 뭐라고
넣는지 모르겠지만 아 좀 섹시한
여자분이 나오시네요 LCM 로라를
이용해서 특정한 프롬프트를 넣으면은
이렇게나 빨리 생성이 된다 거죠 지금
보이세요 지금 바로 실행한 거거든요
그래서 저 정도로 뭔가 흡족할 만한
이미지가 생성이 된다라고 보시면
되겠고요 그리고 이거는 다른
애니메이트 디프 모델과 합성을 해
가지고 한 것으로 보이는데 매트릭스
원 장면의 한 장면을 저렇게
애니메이션으로 바로 적용할 수
있다라는 거 요런 것도 있습니다
동도나 인트로 때 보여 드렸다시피
이렇게 캔버스 상에서 적당히 아무
때나 그리면 는 아무때나 그려도
저렇게나 예쁘게 그려 준다는 겁니다
아 진짜 장난 아니지 않습니까 그래서
불을 저렇게 지글지글 하면은 불처럼
그냥 렇게 대충 보이고 모자를 씌우면
모자도 저렇게 씌워지고 알아서 이렇게
이미지를 텍스트에 즉각적으로
반응한다는 거죠 밑에 거를 일단
기본적인 텍스트로 이미지를 생성한
다음에 저기서 추가로 저렇게 할 수
있도록 벌써부터 애플리케이션을
조용해서 사용하고 있다는 걸로 보면
되겠습니다 기본적으로 스테이블 디퓨전
1.5 버전에도 저렇게 텍스트를 칠
때마다 저렇게 바로바로 나타나니까 야
이거는 진짜 혁명이죠 않습니까
그동안에는 항상 모든 기술들이
그렇지만 성능 우선적으로 끝까지
끌어올렸다가 이제는 이게 정말 빠르게
되면 어떻게 될까 하니까 완전히 다른
애플리케이션으로 확장할 수가 있다는
거죠 이게 메타버스에 들어가면은
즉각적으로 텍스트를 만들면 우리가
뭔가 바로 생성해서 나타나는 걸로 할
수 있겠고 그리고 뭘 치고 나서 한참
기다리면서 하는게 아니니까 콘텐츠를
생산하고 이미지를 생산하고
비주얼라이제이션 할 때 훨씬 더 빠른
생산성으로 지원을 할 수가 있겠죠
거기다가 저렇게 즉각적으로 바로
하니까 프레임을 다 만들어서 하면은
동영상처럼 저렇게 애니메이션으로
표현을 할 수도 있다던가 아까도
보여드렸지만 원래 있는 이미지에서 좀
더 구체화를 하기 위해서 저 포맷으로
해서 좀 더 확장을 해서 더 멋있게
만든다고 아니면 현재 있는 그림
저것도 적당히 이렇게 움직이면 자기가
원하는 대로 할 거니까 여러분 이걸
생각해 보세요 아 이렇게 하면은
스테이블 디퓨전이 혹은 AI 이런
식으로 반응을 하더라는 거를 점차
디자이너들이 감각을 익혀 나간다는
거예요 그러면은 아 이렇게 했을 때
이렇게 변하는 걸로 하자 이걸 잘하는
사람들이 오히려 디자인을 잘하는
사람으로 앞으로는 바뀔 수도 있다라는
그야말로 패러다임의 변화라고 볼 수
있지 않겠습니까 그리고 단순히
디자인에만 국한된게 아닙니다 저렇게
계속 이제 텍스트를 치잖아요 그럼
텍스트를 쳐 가지고 내가 원한
영상들을 바로바로 캐치를 할 수
있으니까 보통 이제 하나치 치고 한참
기다렸다 하면 아 이거면 됐다 적다
있자 이렇게 되는데 나한테 쏙 맞는
거를 바로바로 텍스트를 하니까 내
반응이 바로 즉각적으로 반응하니
거기에 대해서 내가 원하는 이미지를
더 정확하게 생성할 수 있는 가능성도
높아진게 되겠습니다 그래서 이렇게
여러분들이 원하시는 형태의 어떤
애니메이션 모습이나 뭐 가상 연화
친구라던 저기 가상 연화 친구인지
모르겠지만 어쨌든 저런 식으로 생성을
할 수 있다는 거 마지막으로 요런
예제도 신박하죠 저렇게 어떠한
구조적으로 움직임에 따라서도 바로바로
즉각적으로 반응할 수 있도록 요게
제가 좀 차아 보니까 텍스트로 저렇게
입력을 해서 생성을 한 다음에
웹캠으로 바로 저 이미지를 해서 저걸
다시 컨버팅하는 이런 식으로 뭔가
접근했다고 하는데 요거 방식도
신기하죠 그러니까 이게 빠르게
생성하는 것만으로도 다른 사람들이
집단지성을 이용해서 더 나은
애플리케이션을 적용할 수 있다라는게
우리가 주목해야 될 부분이 아닐까
싶습니다네 이렇게 AI 또 쏟아지고
12월에는 또 구글에서 재미 나이를
발표한다고 해서 오픈에는 또 빨리
gpt4 터보를 발표하고 계속해서
경쟁이 심화되는게 아닐까 싶은데요
어쨌든 지금 2023년을 살고 있는
우리 모두는 정말 어마무시한 기술의
혁신을 보고 있고이 기술의 혁신이
어떻게 파급이 되느냐 사업 자체를
바꿔 놓고 우리 생산성을 바꿔 놓고
심지어 기성의 직업들도 대체할 수
있는 그런 위험성까지 경종을 올리고
있는게 아닌가 싶습니다 이렇게 오늘도
빠르게 AI 소식을 전해드리고 있는
안배
공화였습니다
728x90
반응형
LIST