생성적 AI: 창의적인 신세계
원의 대규모 언어 모델을 통해 기계는 신뢰할 수 있고 때로는 초인적인 결과를 작성하고, 코딩하고, 그리고 생성할 수 있습니다.
인간은 사물을 분석하는 데 능숙합니다. 기계는 훨씬 더 좋습니다. 기계는 일련의 데이터를 분석하고 사기 또는 스팸 감지, 배송 ETA 예측, 다음에 보여줄 TikTok 비디오 예측 등 다양한 사용 사례에 대한 패턴을 찾을 수 있습니다. 그들은 이러한 작업을 점점 더 똑똑하게 수행하고 있습니다. 이를 “분석 AI” 또는 전통 AI라고 합니다.
하지만 인간은 사물을 분석하는 데 능숙할 뿐만 아니라 창조에도 능숙합니다. 우리는 시를 쓰고, 제품을 디자인하고, 게임을 만들고, 코드를 작성합니다. 최근까지 기계는 창의적인 작업에서 인간과 경쟁할 기회가 없었습니다. 기계는 분석과 기계적인 인지 노동으로 전락되었습니다. 그러나 기계는 감각적이고 아름다운 것을 창조하는 데 이제 막 능숙해지기 시작했습니다. 이 새로운 범주는 "제너레이티브 AI(Generative AI)"라고 불리며, 이는 기계가 이미 존재하는 것을 분석하는 것이 아니라 새로운 것을 생성한다는 의미입니다.
생성적 AI는 더 빠르고 저렴할 뿐만 아니라 경우에 따라 인간이 손으로 만드는 것보다 더 나은 방향으로 나아가고 있습니다. 소셜 미디어에서 게임, 광고에서 건축, 코딩에서 그래픽 디자인, 제품 디자인에서 법률, 마케팅에서 판매에 이르기까지 인간이 독창적인 작업을 해야 하는 모든 산업은 재창조의 시기를 맞이하고 있습니다. 특정 기능은 생성적 AI로 완전히 대체될 수 있는 반면 다른 기능은 인간과 기계 간의 긴밀하고 반복적인 창의적 주기를 통해 성공할 가능성이 더 높습니다. 그러나 생성적 AI는 광범위한 최종 시장에서 더 좋고, 더 빠르고, 더 저렴한 창작을 가능하게 해야 합니다. 꿈은 생성적 AI가 창조 및 지식 작업의 한계 비용을 0으로 낮추어 막대한 노동 생산성과 경제적 가치를 창출하고 이에 상응하는 시가총액을 창출하는 것입니다.
생성적 AI가 다루는 분야(지식 작업 및 창의적 작업)에는 수십억 명의 작업자가 포함됩니다. 생성적 AI는 이러한 작업자를 최소 10% 더 효율적 및/또는 창의적으로 만들 수 있습니다. 즉, 작업자는 더 빠르고 효율적일 뿐만 아니라 이전보다 더 많은 능력을 갖게 됩니다. 따라서 Generative AI는 수조 달러의 경제적 가치를 창출할 수 있는 잠재력을 가지고 있습니다.
왜 지금?
Generative AI는 더 광범위하게 AI와 동일한 "왜 지금"을 갖고 있습니다. 즉, 더 나은 모델, 더 많은 데이터, 더 많은 컴퓨팅이 가능합니다. 카테고리는 우리가 포착할 수 있는 것보다 빠르게 변화하고 있지만, 현재 순간을 맥락에 맞게 설명하기 위해 최근 역사를 폭넓게 설명하는 것은 가치가 있습니다.
1차 파동: 작은 모델이 최고로 군림함(2015년 이전) 5년 이상 전에는 작은 모델이 언어 이해를 위한 "최신 기술"로 간주되었습니다. 이러한 소규모 모델은 분석 작업에 탁월하며 배송 시간 예측부터 사기 분류까지 다양한 작업에 배포됩니다. 그러나 범용 생성 작업에는 표현력이 충분하지 않습니다. 인간 수준의 글쓰기나 코드를 생성하는 것은 여전히 헛된 꿈입니다.
Wave 2: 확장 경쟁(2015~현재) Google Research의 랜드마크 논문( Attention is All You Need )은 병렬화 가능하고 요구 사항이 더 높으면서도 우수한 품질의 언어 모델을 생성할 수 있는 변환기라고 불리는 자연어 이해를 위한 새로운 신경망 아키텍처를 설명합니다. 훈련 시간이 훨씬 단축됩니다. 이러한 모델은 소수의 학습자이며 비교적 쉽게 특정 도메인에 맞게 사용자 정의할 수 있습니다.
주요 시퀀스 변환 모델은 인코더-디코더 구성의 복잡한 순환 또는 컨벌루션 신경망을 기반으로 합니다. 최고 성능의 모델은 어텐션 메커니즘을 통해 인코더와 디코더도 연결합니다. 우리는 반복과 컨볼루션을 완전히 없애고 주의 메커니즘에만 기반한 새로운 간단한 네트워크 아키텍처인 Transformer를 제안합니다. 두 가지 기계 번역 작업에 대한 실험에서는 이러한 모델이 품질면에서 우수하면서도 병렬화가 더 용이하고 학습에 소요되는 시간이 훨씬 적은 것으로 나타났습니다. 우리 모델은 WMT 2014 영어-독일어 번역 작업에서 28.4 BLEU를 달성하여 앙상블을 포함하여 기존 최고 결과보다 2 BLEU 이상 향상되었습니다. WMT 2014 영어-프랑스어 번역 작업에서 우리 모델은 새로운 단일 모델 최첨단 BLEU 점수 41을 설정했습니다. 8개의 GPU에서 3.5일 동안 훈련한 후 8.8, 이는 문헌에 있는 최고의 모델 훈련 비용의 작은 부분입니다. 우리는 Transformer가 크고 제한된 훈련 데이터를 사용하여 영어 선거구 구문 분석에 성공적으로 적용함으로써 다른 작업에 잘 일반화된다는 것을 보여줍니다.
AI 모델이 점점 더 커지면서 인간의 주요 성능 벤치마크를 능가하기 시작했습니다. 출처: © THE ECONOMIST NEWSPAPER LIMITED, LONDON, 2022년 6월 11일. 모든 권리 보유; SCIENCE.ORG/CONTENT/ARTICLE/COMPUTERS-ACE-IQ-테스트-여전히-멍청한 실수-다른 테스트-도움말
물론, 모델이 점점 더 커지면서 인간 수준, 그리고 초인적인 결과를 제공하기 시작합니다. 2015년에서 2020년 사이에 이러한 모델을 훈련하는 데 사용되는 컴퓨팅은 6배나 증가하며 그 결과는 필기, 음성 및 이미지 인식, 독해 및 언어 이해 분야에서 인간의 성능 벤치마크를 능가합니다. OpenAI의 GPT-3은 눈에 띕니다. 이 모델의 성능은 GPT-2에 비해 크게 향상되었으며 코드 생성부터 비열한 농담 작성에 이르기까지 작업에 대한 감미로운 Twitter 데모를 제공합니다.
모든 근본적인 연구 진전에도 불구하고 이러한 모델은 널리 보급되지 않았습니다. 규모가 크고 실행하기 어렵고(GPU 오케스트레이션 필요) 광범위하게 액세스할 수 없으며(사용할 수 없거나 비공개 베타에만 해당) 클라우드 서비스로 사용하기에는 비용이 많이 듭니다. 이러한 제한에도 불구하고 최초의 Generative AI 애플리케이션이 경쟁에 뛰어들기 시작합니다.
웨이브 3: 더 좋고, 더 빠르고, 더 저렴합니다(2022+). 컴퓨팅이 더 저렴해집니다. 확산 모델과 같은 새로운 기술은 추론을 훈련하고 실행하는 데 필요한 비용을 줄여줍니다. 연구 커뮤니티는 계속해서 더 나은 알고리즘과 더 큰 모델을 개발하고 있습니다. 개발자 액세스는 비공개 베타에서 공개 베타 또는 경우에 따라 오픈 소스로 확장됩니다.
LLM에 대한 액세스가 부족했던 개발자들에게 이제 탐색 및 응용 프로그램 개발을 위한 수문이 열려 있습니다. 응용 프로그램이 꽃을 피우기 시작합니다.
MIDJOURNEY로 생성된 일러스트레이션
4차 물결: 킬러 앱의 등장(현재) 플랫폼 계층이 굳건해지고, 모델이 계속해서 더 좋아지고, 더 빨라지고, 저렴해지고, 모델 액세스가 무료 및 오픈 소스로 추세화됨에 따라 애플리케이션 계층은 창의성이 폭발적으로 증가할 준비가 되었습니다.
모바일이 GPS, 카메라, 이동 중 연결과 같은 새로운 기능을 통해 새로운 유형의 애플리케이션을 출시한 것처럼, 이러한 대형 모델이 생성적 AI 애플리케이션의 새로운 물결을 촉진할 것으로 기대합니다. 그리고 10년 전 모바일의 변곡점이 소수의 킬러 앱에 대한 시장 개방을 창출한 것처럼 Generative AI를 위한 킬러 앱이 등장할 것으로 예상됩니다. 경주가 시작되었습니다.
시장 풍경
다음은 각 범주와 그 위에 구축될 잠재적인 애플리케이션 유형을 지원하는 플랫폼 계층을 설명하는 개략도입니다.
모델
텍스트는 가장 발전된 영역입니다. 그러나 자연어는 정확하기 어렵고 품질이 중요합니다. 오늘날 이 모델은 일반적인 짧은/중간 형식의 글쓰기에 꽤 능숙합니다(그럼에도 불구하고 일반적으로 반복이나 초안을 작성하는 데 사용됩니다). 시간이 지남에 따라 모델이 향상됨에 따라 더 높은 품질의 출력, 더 긴 형식의 콘텐츠 및 더 나은 수직별 튜닝을 기대할 수 있습니다.
GitHub CoPilot에서 볼 수 있듯이 코드 생성은 단기적으로 개발자 생산성에 큰 영향을 미칠 가능성이 높습니다. 또한 개발자가 아닌 사람들도 창의적인 코드 사용에 더 쉽게 접근할 수 있게 됩니다.
이미지는 최근에 나타난 현상이지만 점점 입소문이 퍼지고 있습니다. 텍스트보다 생성된 이미지를 트위터에서 공유하는 것이 훨씬 더 재미있습니다! 우리는 다양한 미적 스타일과 생성된 이미지를 편집하고 수정하는 다양한 기술을 갖춘 이미지 모델의 출현을 보고 있습니다.
음성 합성은 한동안 사용되어 왔지만(안녕하세요 Siri!) 소비자 및 기업용 애플리케이션은 점점 좋아지고 있습니다. 영화 및 팟캐스트와 같은 고급 응용 프로그램의 경우 기계적으로 들리지 않는 일회성 인간 품질 음성에 대한 기준이 상당히 높습니다. 그러나 이미지와 마찬가지로 오늘날의 모델은 실용적인 응용을 위한 추가 개선 또는 최종 출력을 위한 출발점을 제공합니다.
비디오와 3D 모델이 빠르게 발전하고 있습니다. 사람들은 영화, 게임, VR, 건축, 실제 제품 디자인과 같은 대규모 창의적 시장을 개척할 수 있는 이러한 모델의 잠재력에 대해 기대하고 있습니다. 연구 기관에서는 우리가 말하는 대로 기초적인 3D 및 비디오 모델을 공개하고 있습니다.
기타 영역: 오디오, 음악부터 생물학, 화학(생성 단백질 및 분자 등)에 이르기까지 다양한 분야에서 기본 모델 R&D가 진행되고 있습니다.
아래 차트는 기본 모델의 발전과 관련 응용 프로그램이 어떻게 예상되는지에 대한 타임라인을 보여줍니다. 2025년 이후는 단지 추측일 뿐입니다.
응용
다음은 우리가 기대하는 몇 가지 응용 프로그램입니다. 이 페이지에서 포착한 것보다 훨씬 더 많은 것들이 있으며, 우리는 창립자와 개발자가 꿈꾸는 창의적인 응용 프로그램에 매료되었습니다.
카피라이팅: 영업 및 마케팅 전략과 고객 지원을 촉진하기 위한 개인화된 웹 및 이메일 콘텐츠에 대한 수요가 증가함에 따라 언어 모델을 위한 완벽한 응용 프로그램이 되었습니다. 이러한 팀의 시간 및 비용 압박과 결합된 말의 짧은 형식과 양식화된 특성으로 인해 자동화되고 증강된 설루션에 대한 수요가 높아질 것입니다.
수직 특정 글쓰기 보조자: 오늘날 대부분의 글쓰기 보조자는 수평적입니다. 우리는 법적 계약서 작성부터 시나리오 작성까지 특정 최종 시장을 위한 훨씬 더 나은 생성 애플리케이션을 구축할 수 있는 기회가 있다고 믿습니다. 여기서 제품 차별화는 특정 워크플로우에 대한 모델 및 UX 패턴을 미세 조정하는 것입니다.
코드 생성: 현재 애플리케이션은 개발자를 강화하고 생산성을 훨씬 더 높여줍니다. GitHub Copilot은 이제 설치된 프로젝트에서 거의 40%의 코드를 생성합니다. 그러나 훨씬 더 큰 기회는 소비자가 코딩에 접근할 수 있게 되는 것일 수도 있습니다. 프롬프트를 배우는 것은 최고의 고급 프로그래밍 언어가 될 수 있습니다.
예술 세대: 이제 예술사와 대중 문화의 전체 세계가 이러한 대형 모델에 인코딩 되어 이전에는 마스터하는 데 평생이 걸렸던 테마와 스타일을 누구나 마음대로 탐색할 수 있습니다.
게임: 꿈은 자연어를 사용하여 조작 가능한 복잡한 장면이나 모델을 만드는 것입니다. 최종 상태는 아마도 아직 멀었지만 텍스처 생성 및 스카이박스 아트와 같이 단기적으로 더 실행 가능한 더 즉각적인 옵션이 있습니다.
미디어/광고: 대행사 업무를 자동화하고 소비자를 위해 즉시 광고 카피와 크리에이티브를 최적화할 수 있는 잠재력을 상상해 보십시오. 판매 메시지와 보완적인 시각적 요소를 결합한 다중 모드 생성을 위한 훌륭한 기회입니다.
디자인: 디지털 및 실제 제품의 프로토타입 제작은 노동 집약적이고 반복적인 프로세스입니다. 대략적인 스케치와 프롬프트를 바탕으로 한 고품질 렌더링이 이미 현실이 되었습니다. 3D 모델이 사용 가능해짐에 따라 생성적 디자인 프로세스는 제조 및 생산을 거쳐 텍스트에서 객체까지 확장될 것입니다. 다음 iPhone 앱이나 운동화는 기계로 디자인될 수도 있습니다.
소셜 미디어 및 디지털 커뮤니티: 생성 도구를 사용하여 자신을 표현하는 새로운 방법이 있습니까? Midjourney와 같은 새로운 애플리케이션은 소비자가 공개적으로 만드는 방법을 배우면서 새로운 소셜 경험을 창출하고 있습니다.
ILLUSTRATION GENERATED WITH MIDJOURNEY
생성적 AI 애플리케이션 분석
생성적 AI 애플리케이션은 어떤 모습일까요? 다음은 몇 가지 예측입니다.
지능 및 모델 미세 조정
Generative AI 앱은 GPT-3 또는 Stable Diffusion과 같은 대규모 모델을 기반으로 구축됩니다. 이러한 애플리케이션이 더 많은 사용자 데이터를 얻으면 다음과 같이 모델을 미세 조정할 수 있습니다. 1) 특정 문제 공간에 대한 모델 품질/성능을 향상합니다. 2) 모델 크기/비용을 줄입니다.
Generative AI 앱은 대규모 범용 모델인 '빅 브레인' 위에 있는 UI 레이어이자 '작은 브레인'으로 생각할 수 있습니다.
폼 팩터
오늘날 Generative AI 앱은 대부분 기존 소프트웨어 생태계에 플러그인으로 존재합니다. 코드 완성은 IDE에서 이루어집니다. 이미지 생성은 Figma 또는 Photoshop에서 발생합니다. Discord 봇조차도 생성적 AI를 디지털/소셜 커뮤니티에 주입하는 수단입니다.
카피라이팅을 위한 Jasper 및 Copy.ai, 비디오 편집을 위한 Runway, 메모 작성을 위한 Mem과 같은 소수의 독립형 Generative AI 웹 앱도 있습니다.
플러그인은 자신의 애플리케이션을 부트스트래핑하는 데 효과적인 도구가 될 수 있으며 사용자 데이터 및 모델 품질의 닭과 달걀 문제를 극복하는 현명한 방법이 될 수 있습니다. 모델을 개선하기 위해 충분한 사용량을 얻으려면 배포가 필요합니다. 사용자를 끌어들이기에 좋은 모델). 우리는 이러한 배포 전략이 소비자/사회적 시장과 같은 다른 시장 범주에서 성과를 거두는 것을 확인했습니다.
상호작용의 패러다임
오늘날 대부분의 Generative AI 데모는 "일회성"입니다. 입력을 제공하면 기계가 출력을 내보내고 이를 유지하거나 버리고 다시 시도할 수 있습니다. 점점 더 모델이 더욱 반복적으로 변하고 있으며, 여기서 출력을 사용하여 수정, 정교화, 수준 향상 및 변형 생성을 수행할 수 있습니다.
오늘날 Generative AI 출력은 프로토타입이나 첫 번째 초안으로 사용되고 있습니다. 애플리케이션은 창의적인 프로세스를 진행하기 위해 다양한 아이디어(예: 로고 또는 건축 디자인에 대한 다양한 옵션)를 제시하는 데 능숙하며, 최종 상태에 도달하기 위해 사용자가 다듬어야 하는 첫 번째 초안(예: 블로그 게시물 또는 코드 자동 완성). 모델이 부분적으로 사용자 데이터의 도움을 받지 않고 더욱 똑똑해짐에 따라 이러한 초안이 최종 제품으로 사용하기에 충분할 때까지 점점 더 좋아질 것으로 기대해야 합니다.
지속적인 카테고리 리더십
최고의 Generative AI 회사는 사용자 참여/데이터와 모델 성능 사이의 플라이휠을 끊임없이 실행함으로써 지속 가능한 경쟁 우위를 창출할 수 있습니다. 승리하려면 팀은 1) 탁월한 사용자 참여 → 2) 더 많은 사용자 참여를 더 나은 모델 성능으로 전환(신속한 개선, 모델 미세 조정, 레이블이 지정된 교육 데이터로 사용자 선택) → 3) 훌륭한 모델 사용을 통해 이 플라이휠을 작동시켜야 합니다. 더 많은 사용자 성장과 참여를 유도하는 성능을 제공합니다. 그들은 모든 사람에게 모든 것이 되려고 노력하기보다는 특정 문제 영역(예: 코드, 디자인, 게임)에 들어갈 가능성이 높습니다. 먼저 활용 및 배포를 위해 애플리케이션에 깊이 통합하고 나중에 기존 애플리케이션을 AI 기반 워크플로로 교체하려고 시도할 가능성이 높습니다. 사용자와 데이터를 축적하는 올바른 방법으로 이러한 애플리케이션을 구축하는 데는 시간이 걸리지만, 우리는 최고의 애플리케이션이 내구성이 있고 대규모로 성장할 기회가 있을 것이라고 믿습니다.
장애물과 위험
Generative AI의 잠재력에도 불구하고 비즈니스 모델과 기술에는 해결해야 할 문제가 많이 있습니다. 저작권, 신뢰 및 안전, 비용과 같은 중요한 문제에 대한 질문은 아직 해결되지 않았습니다.
눈을 크게 뜨고
생성적 AI는 아직 초기 단계입니다. 플랫폼 계층은 점점 좋아지고 있고 애플리케이션 공간은 거의 발전하지 못하고 있습니다.
분명히 말하면 Generative AI를 잘 활용하기 위해 Tolstoy 소설을 작성하는 데 대규모 언어 모델이 필요하지 않습니다. 이러한 모델은 오늘날 블로그 게시물의 초안을 작성하고 로고 및 제품 인터페이스의 프로토타입을 생성하는 데 충분합니다. 단기에서 중기적으로 발생하게 될 풍부한 가치 창출이 있습니다.
제너레이티브 AI 애플리케이션의 첫 번째 물결은 iPhone이 처음 출시되었을 때의 모바일 애플리케이션 환경과 유사합니다. 다소 교활하고 얇으며 경쟁 차별화와 비즈니스 모델이 불분명합니다. 그러나 이러한 응용 프로그램 중 일부는 미래에 어떤 일이 일어날지에 대한 흥미로운 시각을 제공합니다. 기계가 복잡하게 작동하는 코드나 뛰어난 이미지를 생성하는 것을 본다면 기계가 우리가 일하고 창조하는 방식에서 근본적인 역할을 하지 않는 미래를 상상하기 어렵습니다.
우리가 수십 년 동안 꿈을 꿀 수 있다면 Generative AI가 우리가 일하고 창조하고 즐기는 방식에 깊이 내장되어 있는 미래를 상상하기 쉽습니다. 상상할 수 있는 모든 것을 3D 프린팅 하세요. 텍스트에서 Pixar 영화로 이동합니다. 우리가 꿈꾸는 만큼 빠르게 풍부한 세상을 만들어내는 Roblox와 같은 게임 경험입니다. 오늘날 이러한 경험은 공상 과학 소설처럼 보일 수 있지만 진행 속도는 믿을 수 없을 정도로 높습니다. 우리는 몇 년 동안 좁은 언어 모델에서 코드 자동 완성으로 전환했습니다.
'say와 AI 챗봇친구 만들기 보고서' 카테고리의 다른 글
챗GPT VS 구글 람다… 누구와 채팅할 까? 람다, 챗GPT 능가할까? (1) | 2023.09.08 |
---|---|
챗GPT란 [사용법, 문제점, 가능성과 산업 전망] (0) | 2023.09.06 |
Microsoft Word 확장 설치 지침 (0) | 2023.09.05 |
민첩성을 유지하고 비용을 절감하며 성장을 견인하는 XaaS 혁신 (0) | 2023.09.05 |
운영자동화, 딜리버리 가속화 및 고객 만족 실현 (0) | 2023.09.05 |