본문 바로가기

say와 AI 챗봇친구 만들기 보고서

챗GPT-5 멀티모달 기술 [6월 4주차 인공지능 뉴스레터]

728x90
반응형
SMALL

챗GPT-5 멀티모달 기술

AI 보이스피싱, AI 이미지 생성 주식하락, 딥페이크, ChatGPT 반지 기술 공개

 

 

 

안녕하세요, 여러분! 이번 영상에서는 다양한 인공지능 뉴스와 기술을 함께 살펴보려고 합니다. 우리가 살아가는 이 세상은 AI에 의해 점점 더 변화하고 있으니까요.

우리는 AI가 만든 가상의 미국 국방부 폭발 이미지와, 젊어진 해리슨 포드 이미지, 그리고 더욱 충격적인 AI 보이스피싱에 대해 다뤄볼 것입니다. 이러한 일들이 우리 주변에서 어떻게 일어나고 있는지 알아보는 것은 중요합니다.

 

더불어, 우리는 코디(Composable Diffusion)라는 새로운 기술을 살펴보며, 어떻게 다양한 형태의 입력을 통해 멀티모달 결과물이 생성되는지 살펴볼 것입니다. 이 기술은 다양한 데이터 유형을 혼합하여 최적화된 결과물을 만들어낼 수 있습니다.

 

마지막으로는 ChatGPT-5의 멀티모달 기능을 살펴보며, 이 기능이 어떻게 실세계와 가상 세계를 연결하는 메타버스 혹은 디지털 트윈기반의 인공지능 서비스에 활용될 수 있는지 예상해보겠습니다.

 

이 모든 내용을 통해 인공지능이 우리 삶에 어떤 영향을 끼치는지, 그리고 앞으로 어떤 변화가 있을 수 있는지 고찰해 보는 시간을 가질 것입니다. 함께 살펴보시죠!

 

 

요즘 날씨가 더워지네요. 마음이라도 시원해지시는 한 주 되시길 바랄게요. 오늘도 인공지능 뉴스레터를 보내드립니다.

  • Meta의 MusicGen - 메타에서 텍스트로 음악을 생성할 수 있는 모델을 발표했습니다. 코드와 페이퍼는 공개했고 허깅 페이스를 통해 데모를 사용할 수 있습니다.

Meta의 MusicGen - 텍스트로 음악 만들기

메타에서 텍스트로 음악을 만들 수 있는 인공지능을 발표했네요.

모델은 약 2만개의 음악으로 훈련되었다고 합니다. 코드는 github를 통해 공개했고 허깅 페이스를 통해 데모를 사용할 수 있습니다.

  • MusicGen 깃허브 : GitHub - facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable music generation LM with textual and melodic conditioning.
  • 허깅 페이스 스페이스 : MusicGen - a Hugging Face Space by facebook

허깅 페이스 스페이스에서 데모를 사용해 보세요. 현재 생성에는 약 90초가 걸리고 15초짜리 음악을 만들어 줍니다.

4개의 모델을 제공한다고 합니다.

  • small : 300M 모델
  • medium : 1.5B 모델
  • melody : 1.5B 모델
  • large : 3.3B 모델

B는 토큰의 개수를 이야기하는 것 같습니다. melody 버전은 text + 음악을 기반으로 음악을 생성할 수 있습니다. medium 기준 로컬에서 돌리려면 16GB GPU 메모리가 필요하다고 합니다.

허깅 페이스 스페이스에서 데모를 돌려본 모습. 15초짜리 음악을 꽤 잘 생성한다.

  • 어도비의 Generative Recolor 공개 - 어도비에서 이미지를 텍스트 프롬프트로 변경하는 모델을 일러스트레이터에 포함했습니다. 프롬프트를 입력하면 다양한 컬러 테마를 적용시켜 변화를 쉽게 만들어 낼 수 있습니다.

일러스트레이터 Generative Recolor - 텍스트 프롬프트로 색상 수정


어도비에서 Generative Recolor를 공개했네요. 일러스트레이터에서 벡터 파일을 텍스트 프롬프트로 변경을 하는 기능입니다.

예를 들어 “strawberry fields,” “faded emerald” 와 “terracotta desert” 같은 프롬프트를 입력하면 새로운 컬러 스킴이 적용된 버전을 몇 초안에 생성해 줍니다.


위와 같이 다양한 변형을 쉽게 만들 수 있습니다.

일러스트레이터의 Edit 메뉴의 Edit Colours에서 사용할 수 있습니다.

어도비에서 이미지 모델인 firefly를 기반으로 제품 디자인에 AI 기능을 다각도로 도입하고 있습니다.

  • ChatGPT API를 사용하면 데이터 트레이닝에 사용될까요? 대답은 아니오입니다. 제공한 데이터는 30일만 보관하고 삭제된다고 합니다.
  • 메타의 음성 생성 AI Vocebox - 이번에도 메타의 이야기네요. Voicebox는 text to speech 를 6개언어로 만들어낼 수 있습니다. 스타일 트랜스퍼로 특정 목소리의 스타일을 학습할 수 있고 노이즈 제거 및 음성 편집이 가능합니다. 오남용에 대한 우려 때문에 코드와 모델은 공개하지 않았고 페이퍼와 샘플을 공개했습니다. TTS 기반의 인터페이스는 앞으로 생성이 좀 더 쉬워지지 않을까 예측해 봅니다.

메타의 음성 생성 AI - Voicebox

메타에서 음성을 생성할 수 있는 AI인 voicebox에 대한 논문과 오디오 샘플을 공유했습니다. 다음과 같은 일들이 가능하다고 합니다.

  • 보이스박스는 6개 국어로 음성을 합성할 수 있습니다. text to speech를 6개의 언어로 표현할 수 있습니다.
  • 스타일 트랜스퍼 : 특정 목소리의 스타일을 참고하여 해당 스타일로 말하는 음성을 6개 국어로 작성할 수 있습니다.
  • 노이즈 제거 및 음성 편집 : 배경음에서 특정 노이즈를 지울 수 있고 (예를 들면 개가 짖는 소리 없애기), 잘못 발음한 부분이 있을 때 전체를 수정할 필요 없이 일부를 수정할 수 있습니다.
  • 여러 스타일의 보이스 샘플 작성 : 하나의 텍스트를 여러 스타일의 음성으로 만들어 낼 수 있습니다.

꽤 다양한 일을 할 수 있네요. 음성 합성 기능은 꽤 유용할 것 같습니다. 스타일 트랜스퍼 기능은 강력하기는 한데 위험성도 내포하고 있는것 같습니다. 음성 샘플만으로 해당 화자의 목소리를 만들어 낼 수 있다면 위험할 수 도 있는 것 같습니다. 메타에서도 이 일을 잘 알고 있으며 생성된 음성을 식별하는 classifier를 만들었고 코드와 모델은 공개하지 않고 페이퍼와 샘플만 공개한다고 합니다.

앞으로의 인터넷은 음성 인터페이스가 좀 더 많아지게 될까요? 음성 합성 (Text To Speech) 나 음성을 텍스트로 바꾸기 (Speech To Text) 인터페이스는 늘어날것 같기는 합니다.

 

Voicebox 소개: 최첨단 성능으로 작업 전반에 걸쳐 일반화되는 음성용 최초의 생성 AI 모델
 
  • GPT Engineer - 프롬프트를 입력하면 프로젝트 전체를 빌드해주는 파이썬 프로젝트. GPT-4 API를 사용하고 인공지능이 확실하지 않은 부분은 다시 물어봐서 프로젝트를 빌드해 줍니다.

 

  • ChatGPT API로 내 챗봇 만들기 강의 : 제가 ChatGPT API를 활용해서 챗봇을 만드는 강의를 만들어 봤습니다. 유료 강의 테스트 차 5000원 정도의 가격을 부여했습니다. 개발자나 비개발자 분들도 주말을 활용해서 챗봇을 만들 수 있게 구성했으니 관심 있으시다면 확인해 보세요 :)

ChatGPT API로 내 서비스 만들기

가격 : 5,000원
코스 구매하기

ChatGPT API를 활용해서 나만의 인공지능 챗봇을 만들어 보세요.

OpenAI ChatGPT API 사용법과 소개, 프론트엔드 코딩과 백엔드 코딩을 포함한 강좌입니다.

프론트엔드는 기본 HTML, CSS, JavaScript 구조 사용법을 익힐 수 있습니다.

백엔드는 Node.js로 ChatGPT API 통신을 안전하게 처리합니다.

JavaScript로 ChatGPT API의 토큰을 세는 방법과 토큰 제한을 넘지 않게 관리할 수 있는 방법을 배웁니다.

SSE를 활용하여 응답을 실시간 스트림으로 출력하고 프롬프트 엔지니어링을 활용해 나만의 커스텀 챗봇을 만들 수 있습니다.

무료 서버로 내 챗봇을 서빙하는 방법도 알려드립니다.

개발자 분들 뿐만 아니라 비개발자분들도 쉽게 따라해보실 수 있도록 구성했습니다.

주말이나 저녁을 활용해서 나의 챗봇 서비스를 만들어 보세요!

이런 챗봇을 만드실 수 있어요. https://chatgpt-api-chatbot.fly.dev

미래에 오신 것을 환영합니다.

코스 구매하기

목차

  • 허깅 페이스 AI QR 코드 : 허깅 페이스에서 텍스트를 입력하면 QR 코드를 관련된 이미지로 만들어 주는 기능을 공개했습니다. (url과 프롬프트를 입력하면 QR 코드를 만들어 줍니다.)

딥마인드의 robocat - 로봇 팔을 이용해 다양한 종류의 작업을 수행하는 AI 모델

Google의 DeepMind에서 RoboCat이라는 AI 모델을 개발했다고 합니다. 이 모델은 로봇 팔을 통해 다양한 종류의 작업을 수행할 수 있습니다.

  • 하나의 모델로 다양한 일을 수행할 수 있는 DeepMind의 AI 모델인 Gato를 기반으로 하고 있습니다.
  • Robocat은 시뮬레이션과 실제 생활에서 수집된 이미지와 행동데이터로 훈련되었습니다.
  • 훈련을 위해서 먼저 인간이 제어하는 로봇 팔을 사용해서 특정 작업에 대한 데모를 100개~1000개 수집합니다. 이 작업에 대해 파인 튜닝을 합니다. 그리고 평균 10,000번의 연습을 거친 특수화된 모델이 나온다고 합니다.
  • 총 253개의 작업에 대해 훈련되었으며, 이런 작업들의 141개의 변형에 대해 벤치마크를 수행했다고 합니다.
  • 딥마인드의 주장에 따르면 1000개의 인간이 조종한 예시들을 통해 Robocat이 다양한 로봇팔을 운영하는 것을 배울 수 있다고 합니다.
  • 1000개의 데모 데이터가 포함된 경우 수행 성공률은 13%~99%에 이르렀다고 합니다
  • 하지만 어떤 경우에는 100개의 데모만으로도 새로운 작업을 배울 수 있다고 DeepMind는 이야기 합니다.
  • 앞으로 연구팀은 RoboCat이 새로운 작업을 완수하는데 필요한 데모의 수를 10개 미만으로 줄이는 것을 목표로 하고 있다고 합니다.

적은 수의 데모 데이터만으로 특정 작업을 인공지능이 수행하는 것이 주요한 트렌드가 될 것 같습니다. 그런데 이 RoboCat은 특정 작업도 수행하지만 좀 더 일반적인 일들도 포함해서 수행하는 것을 목표로 하는 것 같습니다.

로보캣의 모습.

  • 딥마인드의 RoboCat : 구글 딥마인드에서 로봇 팔을 이용해서 다양한 작업을 수행할 수 있는 인공지능 모델을 개발했다고 합니다. 100~1000개의 사람이 조종한 로봇 팔을 활용해 특정 작업을 학습할 수 있다고 합니다. 이런식으로 샘플에서 패턴을 학습한 후 사용하는 방식은 앞으로 널리 쓰일 것 같습니다.

DeepMind의 RoboCat은 다양한 로봇 작업을 수행하는 방법을 배웁니다.

이미지 크레딧: 구글

DeepMind는 다양한 로봇 팔 모델에서 다양한 작업을 수행할 수 있는 RoboCat이라는 AI 모델을 개발했다고 말합니다. 그것만으로는 특별히 참신하지 않습니다. 그러나 DeepMind는 이 모델이 여러 작업을 해결하고 적응할 수 있는 최초의 모델이며 다른 실제 로봇을 사용하여 그렇게 할 수 있다고 주장합니다.

DeepMind의 연구 과학자이자 RoboCat 팀의 공동 기고자인 Alex Lee는 "우리는 하나의 대형 모델이 여러 실제 로봇 구현에 대한 다양한 작업 세트를 해결할 수 있고 새로운 작업과 구현에 빠르게 적응할 수 있음을 보여줍니다. 이메일 인터뷰에서 TechCrunch에 말했습니다.

텍스트, 이미지 및 이벤트를 분석하고 이에 따라 행동할 수 있는 DeepMind AI 모델인 Gato 에서 영감을 받은 RoboCat은 시뮬레이션과 실생활 모두에서 로봇 공학에서 수집한 이미지 및 동작 데이터에 대해 교육을 받았습니다. 이 데이터는 가상 환경 내부의 다른 로봇 제어 모델, 로봇을 제어하는 ​​인간 및 RoboCat 자체의 이전 반복의 조합에서 나온 것이라고 Lee는 말합니다.

 

RoboCat을 훈련시키기 위해 DeepMind의 연구원들은 먼저 인간이 제어하는 ​​로봇 팔을 사용하여 작업 또는 로봇에 대한 100~1,000개의 시연을 수집했습니다. (로봇 팔이 기어를 집거나 블록을 쌓는 것을 생각해 보십시오.) 그런 다음 그들은 작업에 대해 RoboCat을 미세 조정하여 평균 10,000번 작업을 연습하는 특수한 "스핀오프" 모델을 만들었습니다.

스핀오프 모델에서 생성된 데이터와 데모 데이터를 모두 활용하여 연구자들은 RoboCat의 교육 데이터 세트를 지속적으로 확장하고 후속 새 버전의 RoboCat을 교육했습니다.

이미지 크레딧: 딥마인드

RoboCat 모델의 최종 버전은 총 253개의 작업에 대해 교육을 받았으며 시뮬레이션과 실제 환경 모두에서 이러한 작업의 141가지 변형 세트에 대해 벤치마킹되었습니다. DeepMind는 몇 시간 동안 수집된 1,000개의 인간 제어 시연을 관찰한 후 RoboCat이 다른 로봇 팔을 작동하는 방법을 배웠다고 주장합니다.

 

RoboCat은 두 갈래 팔이 있는 네 종류의 로봇에 대해 훈련을 받았지만 이 모델은 세 손가락 그리퍼와 두 배 더 많은 제어 가능한 입력이 있는 더 복잡한 팔에 적응할 수 있었습니다.

 

RoboCat이 궁극적으로 로봇 제어 AI 모델의 전부가 되지 않도록 DeepMind의 테스트에서 작업 전반에 걸친 성공률은 로우엔드 13%에서 하이엔드 99%까지 매우 다양했습니다. 훈련 데이터에서 1,000번의 시연이 있습니다. 성공은 예상대로 시연 횟수의 절반으로 덜 일반적이었습니다.

그럼에도 불구하고 일부 시나리오에서 DeepMind는 RoboCat이 100번의 데모만으로 새로운 작업을 학습할 수 있었다고 주장합니다.

더 나아가 Lee는 RoboCat이 로봇 공학의 새로운 작업을 해결하기 위해 장벽을 낮출 수 있다고 믿습니다.

"새로운 작업에 대한 제한된 수의 시연이 제공되면 RoboCat은 새로운 작업에 맞게 미세 조정될 수 있으며 더 많은 데이터를 자체 생성하여 더욱 개선할 수 있습니다."라고 그는 덧붙였습니다.

 

앞으로 연구팀은 RoboCat이 새로운 작업을 완료하도록 가르치는 데 필요한 시연 횟수를 10회 미만으로 줄이는 것을 목표로 합니다.

 

 

태그: 

#AI #보이스피싱 #Deepfake #ChatGPT-5 #코디 #미국국방부 #해리슨포드 #인공지능뉴스 #멀티모달 #메타버스 #챗GPT #GPT  #챗GPT-5 #멀티모달  # AI 보이스피싱  # AI 이미지 생성 #딥페이크 #ChatGPT 반지 기술 # 해리슨포드 # 미국국방

 

 

https://www.youtube.com/hashtag/ai

 

www.youtube.com

 

 

 

728x90
반응형
LIST