본문 바로가기

say와 AI 챗봇친구 만들기 보고서

동영상이 이제 정말 자연스럽게 생성됩니다. Runway, Pika Lab, Stable Video Diffusion 모두 이겨버린 구글... [압도적 성능의 이유는 시공간 결합?]

728x90
반응형
SMALL

동영상이 이제 정말 자연스럽게 생성됩니다. Runway, Pika Lab, Stable Video Diffusion 모두 이겨버린 구글... 압도적 성능의 이유는 시공간 결합?

 

 

안될공학 - IT 테크 신기술
 
 
구글 리서치에서 Github 통해 새로운 Text-to-Video, Image-to-Video 모델인 Lumiere를 공개하였습니다. 기존에는 Key Frame 이 되는 장면들을 기준으로 사이사이를 채워넣는 시간적 방법에 공간 업샘플링을 사용했다라고 한다면, Lumiere는 전체 생성 시간을 통째로 다 가져와서 생성하기 때문에 더욱 자연스러운 결과를 만들어내는데요. 이제 정말 영상 촬영자들이 필요 없을 정도로 영상 생성형 AI 가 고도화 되고 있습니다. 바로 서비스를 하지 않는 것을 보면 향후 Gemini 의 후속 세대에 탑재되지 않을까 생각이 되는데요. 실제 기술 내용과 함께 향후의 영상 업계 트렌드까지 생각해보겠습니다. #구글 #생성형AI #Lumiere

 

 

얼마 전에 재미 나이를 발표했 아아
바드가 그렇게 욕 먹고 나서 재미
나이를 발표하고 나서 갤럭시에
제미나이 온 디바이스로 막 들어가고
온 디바이스 아닌 버전으로 들어갑니다
그리고 곧 제미나이 울트라도 들어갈
텐데 요런 이제 영상 생선 관련해서도
결국 제미나이 다음 버전으로 들어가지
않을까네 여러분 반갑습니다 안델 공학
에러입니다 구글 리서치에서 새로운
텍스트 투 비디오 그리고 이미지 2
비디오 서비스를 발표했는데요이
서비스를 바로 하는 것은 아니지만
기터 브의 상세한 내용에 의 논문과
함께 지금 보시는 이렇게 다양한
형태의 어떤 이미지를 생성할 수 있는
것들을 발표를 했습니다 기존의 피카
랩이라는 아니면 런웨이 이러한 다양한
업체들에서 이러한 생성형 AI 모델을
제시를 하고 해서 좀 새롭게 느껴지지
않을 수가 있는데요 이게 또 구글이라
한다기보다는 기준에 있는 모든 것들을
압도하는 성능을 가지고 있기 때문에
좀 살펴볼 필요가 있을 것 같아서
오늘 좀 준비를 했습니다 지금
보시다시피 특정한 어떠한 어
그림체라고 하죠 그런 그림체가
있으면은 그런 형태로 이미지를 생성해
주기도 하고 특정한 부위만 저렇게
활성화해서 하는 거 저런 거는 이미
이제 런웨이 같은 데서 이제 하고
있는 거긴 하죠 거기다가 특정한
부분들을 저렇게 옷만 갈아입히는 저런
것도 가능하고 저게 영상으로
가능하다는 얘기입니다 그리고 하도
요즘 AI 업데이트가 많이 되니까
이런 것들이 별로 신기하지 않을 수가
있는데 오늘이 구글 루미에르 같은
경우에는 전체적인이 영상의 맥락을 다
이해한 다음에 그냥 짧은 클립으로
지원을 하는 것이 아니라 다양한
스토리 기반으로 좀 더 자연스럽게
표현할 수 있다는 점이 좀 주목할
만한 부분인 거 같습니다이 부분 좀
살펴 보시도록 하시죠 일단 발표된
홈페이지 보시면은 구글 리서치에
루미에르고 돼 있고 여기 보시죠
스페이스 스타임 디퓨전 모델 포
비디오 제너레이션 시공간적으로 디퓨전
모델을 썼다고 하는 부분인데이 뭐게
좀 핵심입니다 물론 뭐 다 이제
스페이스 타임 다 하고 있는데게
일관적으로 처리한 부분들이 있거든요
요거 나중에 좀 설명드릴게요 그러면서
텍스트툴 비디오 하면서 이렇게
사실적인 감각의 영상들을 자연스럽게
표현하는 부분들 있는데 전 특히
이렇게 회전하는 거 있잖아요 여기도
이제 지금 이제 연어회가 스시가
이렇게 나와 있는데 회전하는 형태가
좀 잘 고인이 안 됐거든요 회전하면
좀 약간 일그러지기 하고 좀 어색한
그런 연출이 많았는데 카메라 포인트
어 뷰에서 요렇게 생성을 할 때에
회전을 할 때 자연스러운 어떤 영상을
연출을 한다라는 것이 좀 상당히 좀
인상적인 부분이었어요 그리고 이미지가
딱 주어지면 이렇게 추가적으로
생성되는 거 코끼리가 막 이제
바닷속을 이제 걸어 다닌다거나 그리고
다양한 부분들이 있죠 요건 또 이제
유명한 곰돌이 이미지죠 그런데 상당히
좀 자연스러운 모습들 그리고이
아이스크림요 아이스크림 같은 경우에도
상당히 사실적으로 표현되는 부분들이
있습니다 사실 이렇게만 보면은 뭐가
다 나는지 사실 몰라요 이것도 이제
그림창 하나 주어지면이 합성 이미지로
생산을 하는 거죠 그래서 다양한
이미지들을 이렇게 비슷한 느낌으로
생산을 한다던가 그리고 그 뒤에 좀
이제 세부적인 내용들이 있는데 요거
는 제가 이제 논문들을 살펴보면서
어떤 것들이 이런 것을 가능하게
했느냐 그리고 핵심적인 부분은 기준에
있는 모든 이미지 투 비디오 혹은
텍스트 투 비디오의 성능을 압도한다는
거에 있어서 정말 압도하는 건지도 좀
살펴 봐야겠죠 그래서 이렇게 빈부분이
있더라도 이렇게 매끄럽게 생성을 할
수 있는 부분 이렇게 카파도키아의
어떠한이 열기구가 있더라도 이제
자연스럽게 생각하는 부분들 요런 것들
엄청나지 않습니까 일부 이미지 혹은
영상들이 망가져 있더라도 우리가
제대로 복원해낼 수 있는 그러한
비디오를 생산해낼 수 있다라는
측면에서 상당히 파급력 높을 것으로
예상이 됩니다 그래서 논문을 보시면은
루미르 어 스페이스타임 디퓨전 모델
포 비디오 제너레이션 이렇게 돼 있고
이보세요 페라리 같은 것도 이렇게
각도를 조절해 가면서도 잘 생성을
합니다 다양한 예시들이 있는데 사실
페이퍼로는 요게 이제 와닿지 않으니까
여기서는 이제 기술적인 부분들 좀
살펴보도록 할게요 관심 있으신 분들은
요러 것들 이미지들 예를 들어 뭐
이제 요런 것들 이거 프롬프트가
이렇게 되는 거예요 화성에서 걷고
있는 우주비행사라고 하면 이렇게 이제
영상으로 재생된다 그나 그리고 이런
명화 있죠 이게 진주 귀고리를 한
손이요 이런 것도 이제 재생해서 막
웃고 있는 걸로 변할 수 있는 것들
요것도 영상으로 보시면 재밌을 것
같습니다 일단 놀라운 부분은 바로
성능을 다른 어떠한 AI 모델보다 다
죄다 앞선다는게 핵심입니다 지금
보시는게 이제 논문에 나와 있는
텍스트 투 비디오 그리고 이미지 투
비디오 이렇게 이제 나와 있는 거죠
그래서 비디오 퀄리티와 텍스트
얼라인먼트 그리고 비디오 퀄리티를
각각 비교를 한 것이 되겠는데요
여기서 말하는 비디오 퀄리티라고 하는
거는 결국 각각의 이제 방법론들이
있죠 여기 이제 젠도 있고 피카
앱에서 나온 것도 있고 뭐 젠 2도
있고게 이제 런웨이 젠 2죠 그리고
애니메이트 디프 이런 것들 다 했는데
주황색이 기준도 있는 것들이고이
베이스라인의 에 비해서 구글의
루미에르가 훨씬 더 높죠 이게 두 배
이상 되는 것도 있고 굉장히 다
높습니다 비디오 퀄리티가 이정도
된다라고 얘기를 하는 것이고 텍스트
얼라인먼트라고 하는 것은 텍스트의
설명과이 프롬프트에 맞췄을 때이
비디오가 얼마나 잘 표현하느냐라는
거에 대해서 이제 사용자들 테 이렇게
평가를 내린 거죠 그래서 이제 평가를
해 보니까 기본 베이스 라인보다 훨씬
더 높은 수준을 가지고 있다 그리고
이미지 2 비디오 같은 경우에도 카랑
svd gen2 같은 경우에 훨씬 더
높다라고 하는 부분들을 보실 수가
있습니다 그러니까 사용자들의 선호도
자체가 기존에 있는 것보다 훨씬 더
높게 나왔다는 것에 상당히 의미가
있는 것이 되겠죠 뿐만 아닙니다
논문에 보시면은 여기 테이블 1에
각각이 메소드 별로 fvd is 아는
지표를 설명하고 있는데요 것도 이제
평가 지표 그든 fvd고 하는 거는
레체 비디오 디스턴스고 해서이 모델이
생성한 비디오의이 품질을 평가하는
매트릭 있니다 그니까 비교하자면 이런
거예요 예를 들 이제 어떤 로렉스
시계가 있어요이 로렉스 시계를 완전
짝퉁으로 하나 만든다고 칩시다 근데
이게 이제 겉면으로 보나 내부에 어떤
기어가 움직이는 장면으로 보나
배터리가 어떤 걸 쓰느냐를 비교를
했을 때나 각각의 어떤 차이점들을 다
발견해 가지고이 디퍼런스 차이를 다
다 계상하는 거예요 이걸 디스턴스
표현을 하고 그래서 얘네들의이
디스턴스 그이 다 합쳐졌을 때 가장
작은 것이 그만큼 진품에 비해서
짝퉁이 얼마나 비슷하게 만들어졌냐
지표가 되겠죠 이런 것처럼이 fvd
점수가 낮으면 낮을수록이 생성한
비디오가 원보 하의 특징과 비교해
봤을 때 상당히 가깝다고 판별할 수
있는 그런 기준이 된다라고 볼 수가
있겠죠 그래서 실제 비디오와
특징적으로 얼마나 더 유사하라고 봤을
때에이 루미에르가 32점을 가지고
있어서 거의 최하위권에 발생하는
정도죠 물론 svd 좀 더 낮은
수준을 가지고 있 긴 합니다 svd
이제 스테이블 디퓨전 이의 비디오인데
걔네들이 좀 더 앞서긴 한데 루미에르
좀 더 상당히 낮은 부분을 보실 수가
있습니다 거기다가 IS 같은 경우에는
높을수록 좋은 건데 이게 인셉션
스코라 해서이 생성된 비디오의 어떤
퀄리티랑이 다이버시티 그니까 다양성을
평가를 하는 거죠 예를 들어 어떤
미술 작품이 있다고 하면은 요걸 이제
전문가들이 심사원들이 봤을 때이
그림의 화풍이 아 이번 시대에
정확하게 표현이 되느냐 그럼 어떤
명확성 평가를 하지만 얼마나 또
다체롭게 표현되는지 이런 것들을
정성적으로 평가를 하게 되잖아요
우리가 이제 치킨 맛을 볼 때도
치킨을 먹을 때 아 정말 달콤해 근데
쌉사름한 것도 있고 좀 새콤하게 하고
근데 기존에 있는 맛은 아니고 이런
것들의 명확한 포지션 양념 치킨임도
불구하고 요러한 거짓을 가지고 있다
이러한 다양성을 풍미를 가져 하지만이
치킨이 아주 고품질의 어떤 치킨이라고
판정을 내리듯이이 is 그러한
면이라고 보시면 될 것 같아요 AI
스코로 봤을 때에이 비디오가 특정한
주제를 명확하게 전달하면서도 훨씬 더
다양한 장면을 표현할 수 있느냐 요런
것들을 평가를 하는데 요것도
3실점으로 상당히 낮은 스코어를
가지고 있죠 그래서 이거의 원인이
뭐냐는 좀 살펴보면은 기준에 있는
방식들을 생각해 보죠 여기 ts
이라고 돼 있는 거는 템포럴 슈퍼
레졸루션 내 줄의 말입니다
tsr이라는게 어 번역할 때는 뭐
초고해상도 이렇게 번역하기도 하는데
시간에 따라서 이러한 것들의 슈퍼
레졸루션 각 프레임 프레임의 뭔가
새로운 프레임을 채워 다라고 보시면
될 거 같아요 그래서 시간적으로
시간이 흐름에 따라서 동영상은 여러
개의 어떤 이미지 장면들을 넣음으로써
이제 이미지가 생성이 되잖아요 그리고
재생이 되는 건데 여기에서이
기본적으로 AI 모델들은 시간에
따라서이 떨어져 있는 주요 키프레임을
생성할 때이랑 키프레임 사이사이에
뭔가를 채워놓는 역할을 했다는 거예요
그래서이 키 프레임이라고 하면은 어떤
기점이 된다고 보시면 돼요 아이 시점
그리고요 시점 1초마다 한 번씩이
사이사이에 뭔가를 메워 넣어야겠다라고
하는 접근을 했거든요 그러면이 기본
단위가이 tsr 단위라는게이 키
프레임들의 어떠한 하나의 단위로서
요거에 하나의 맥락을 이해하는 형태로
접근 했다라고 보시면 되는데 그런
다음에 이제 공간적으로 이제 스페이셜
슈퍼 레볼루션은 공간적으로 이렇게 또
더 확장을 하는 거죠 그래서
시간적으로 이렇게 쫙 늘린 다음에
공간적으로 이게 뭐 비어 있는
부분이라든가 여기서 보시면 펜더가
움직일 때마다 그 빈 부분들을
채워주는 형식대로 하는게 기존 방식
이라면은 루미라 같은 경우에는 아예이
시간적인이 도메인을 하나로 쫙
합쳤어요 여기서 5 세컨드로 나와
있죠 5초에 해당하는이 영역의
전체적인 맥락을 다 이해한 다음에 한
방에 시간에 대한 것들을 생성을 하고
거기에 대해서 SSR 적용한다라고
보시면 될 거 같아요 이게 핵심적인
차입니다 그래서 여기서 말하는 st
유넷 스페이스타임 유닛이라고 하는
것은 결국 프리트레인 돼 있는이
텍스트 2 이미지 요런 유닛이 있죠
텍스트를 이제 이미지로 생성하는 요런
유닛이 있는데 비디오를 생성하기
위해서 이제 뭔가 규모를 더 줄인
다음에 다시 또 업샘플링 해서 변환해
가지고 뭔가를 생성하는 방식으로 접근
한다라고 보시면 되겠습니다 기존 유행
방식 그대로 사용하되 시간을 적절히
사용해서 생성했다고 보시면 되겠고요
그래서 여기 루션 베이스드 인플레이션
블록 여기 인플레이션이라고 하는게
결국 영상을 재생하기 위해서는
텍스트를 이미지로 변하고이 이미지를
또 비디오로 생성을 해야 되잖아요
점점 확장을 해 나가야 되는데 그러한
방식을 이제 2D 컨볼루션이라는 방식
우리가 흔히 이제 합성 고비라고
부르죠 요러 형태로 해가지고 비디오
표현을 좀 효율적으로 압축을 한
다음에 다시 업스킬링 해서 생성을
하는 방식으로 접근을 했다 그리고
어텐션 방식을 사용해 가지고 그 전에
CNN 방식보다 훨씬 더 멀리 떨어져
있는 그러한 맥락을 이해를 하는
방식으로 접근을 했다고 보시면 될 것
같습니다 그래서 이러한 이미지들이
생성되는 거죠 사실 이제 런웨이 아든
뭐 스테이블 비디오 디퓨전 같은 거
굉장히 잘 만들어지긴 했어요 여기서
조금 더 구글이 앞서 간다고 하는
것이 잠깐 재생하는 그런 비디오
클립들 같은게 결국 우리 일상에 어떤
영향을 미칠 거냐라고 보면은 좀
의미가 없을 수 있잖아요 그런데
요러한 것들을 특정한 전체
맥락으로서의 수 있는 거대한 모델로서
요거를 생성할 수 있다라는 것은 또
어떤 상용화 측면에서 상당히 큰
발전이라고 볼 수가 있습니다 동단
지금 이제 구글 리서치에서 이렇게
논문을 내놓으면서 기터브 이런 것들을
공기를 했지만 이거를 실제로 서비스로
아직 제공을 하고 있지 않거든요 요게
또 좀 주목을 해 볼 만한 건데 얼마
전에 재미 나이를 발표했 아아 바드가
그렇게 욕 먹고 나서 재미 나이를
발표하고 나서 갤럭시에 제미나이 온
디바이스로 막 들어가고 온 디바이스
아닌 버전으로 들어갑니다 그리고 곧
제미나이 울트라도 들어갈 텐데 요런
이제 영상 생성 관련해서도 결국
제미나이 다음 버전으로 들어가지
않을까 요런 것들을 미리 알리는게 될
거 같고요 오픈 AI 있도 비디오를
생성하는 GPT 5 같은 것들 점점
소식이 들려오고 있잖아요 거기에
선제적으로 뭔가 생성을 하면서 점차
서비스 제공으로 압수하는게 아닌가
싶습니다 이렇게 오픈 AI 비롯해서
다양한 업체들이 비디오 생성 관련해서
끊임없이 새로운 AI 모델을 제공하고
서비스를 제공하는 가운데 구글 역시도
뒤쳐지지 않고 모든 성능을 압도하는
새로운 비디오 생성 AI 내놓은 것에
흥분을 감추지 못하면서 간략하게
압축하여 소개드리고 있는 안대 공화
728x90
반응형
LIST