데이터 라벨링 이란?
정의
데이터라벨링은, 이미지나 영상, 텍스트, 오디오 등 데이터를 인공지능이 학습할 수 있도록 다양한 정보를 목적에 맞게 입력하는 작업을 뜻합니다.
자동차를 운전하거나, 사진에서 사람을 식별하는 등 우리가 필요한 기능이 구현된 AI를 얻기 위해서는 그 목적에 맞는 정보를 가진 수많은 데이터셋이 필요합니다. 이를 위해 컴퓨터 비전(Computer vision), 자연어 처리(NLP) 등 다양한 기술이 발전했으며 지금도 계속 고도화되어가고 있습니다.
데이터라벨링을 수행할 수 있는 인력을 라벨러 (labeler, 레이블러)라고 부릅니다. 일반적으로 데이터 라벨링은 AI에게 필요한 데이터 형식에 맞게 이미지, 영상, 음성, 비디오 등의 다양한 데이터 위에 목적에 맞는 라벨(주석)을 다는 작업을 진행해야 합니다. 데이터 라벨링 후에는 json, csv, COCO, TFRecord 등 고객의 요청 맞춘 형식으로 결과물 데이터가 제공되고 있습니다.
Data Annotation vs. Data labeling
Data annotation과 Data labeling은 모두 데이터에 AI가 학습할 수 있는 분류, 태그처럼 데이터를 설명하는 메타 데이터 (meta data)를 입력하는 것으로 유사하게 사용되는 단어입니다. 한국뿐 아니라 전 세계적으로 데이터 어노테이션과 데이터 라벨링이 혼용되어 사용되는 단어이지만, 구체적으로 살펴보면 조금 다른 의미를 가지고 있습니다.
- Data Annotation: 이미지 내에 특정 Object(BBox, Polygon, etc..)에 주석을 다는 일
- Data Labeling: 다수의 Annotation된 데이터를 통칭하는 개념
데이터라벨링 유형
Image Annotation
Image annotation은 눈이 없는 컴퓨터를 위해 이미지의 구성요소를 설명하는 레이블을 입력하는 작업으로, 사람이 직접 입력하거나 컴퓨터에게 도움말을 지원받는 방법이 있습니다. Image annotation은 AI모델을 개발하는 엔지니어에 의해 미리 결정된 레이블에 따라 이미지 전체에 태그를 지정하거나 분류하고, 이미지 속에 개별 개체를 표시하거나, 인식할 수 없는 이미지 부분을 처리하는 방법이 포함되어 있습니다.
이미지 어노테이션은 Object Detection (객체 감지) , Classification (분류), Segmentation (분할) 등 Computer vistion (컴퓨터 비전) 모델 훈련에 필수적 작업입니다. 최근 자율주행 차량은 정교한 Image annotation 작업에 의존하고 있습니다. 자동차가 만나는 모든 환경의 물체, 예를 들어 차량, 사람, 신호, 차선 등에 레이블을 붙이면 차량의 컴퓨터가 그것을 인식하고, 교통 상황에 따라 행동을 결정하게 만들 수 있습니다.
의료 분야에서도 Image annotation은 매우 중요한 기술입니다. 의료 영상 분석을 통해 빠르고 정확한 질병 진단이 가능하며, 의사들의 합의를 통해 신뢰도 높은 치료방식을 도출할 수 있습니다.
Image annotation을 실제 산업에 적용할 때는 무엇보다 실시간성이 중요한 기준으로 떠오르고 있습니다. 이를 위해 YOLO(You Only Look Once) 모델이 다른 Image annotation 모델보다 많은 관심을 받고 있는 이유 역시, 이미지 분석 및 레이블링 과정을 한 번에 적용하여 속도를 높였기 때문이죠.
Image annotation 작업은 AI의 수행 목적에 따라 다음과 같이 여러가지가 존재합니다.
- Image classification
- Multi-label classification
- Object detection
- Instance segmentation
- Semantic segmentation
- Polygon
- Polyline
- Keypoint
- OCR
Text Annotation
머신러닝을 위한 Text annotation은 텍스트로 존재하는 정보를 컴퓨터가 이해할 수 있도록 변환하는 작업입니다. 좀 더 쉽게는 어디에 있는지, 무슨 의미인지, 어떤 의도인지 등을 지정하여 AI모델의 학습 데이터셋 구축에 사용하는 작업입니다. 예를 들면 다양한 자연어 처리(NLP) 및 컴퓨터 비전 등이 활용된 딥 러닝 및 머신러닝 모델의 사전 작업이 있습니다.
텍스트 어노테이션을 통한 학습 데이터 세트는 “이 영화가 좋아요!” 혹은 “이 영화는 별로예요.”처럼, 컴퓨터가 인지할 수 없는 감정 정보를 주석으로 처리한 텍스트 스니펫이 포함됩니다. 이를 통해 머신러닝 알고리즘은 텍스트에서 긍정 및 부정 감정과 연관된 패턴을 식별하는 방법을 학습합니다. 이외에도 토픽 모델링(Topic modeling), Named Entity Recognition (NER), 품사 태깅 등 머신러닝 모델로 수행할 수 있는 다양한 방법이 있습니다.
텍스트 정보를 통해 AI모델 학습이 완료되면, AI는 스스로 텍스트에 주석을 달고 감정과 취향을 예측하는 데에 사용할 수 있습니다. 주로 감정 및 언어의 맥락, NTT 분석, 텍스트 분류, 언어 주석 등으로 활용되며, 이를 통해 사용자의 리뷰나 소셜미디어의 반응을 분류해 고객 반응을 살펴보는 데에도 활용됩니다. 또한 챗봇 및 가상 비서에서 일상적인 대화의 의도를 구체적으로 이해하기 위해 적극적으로 사용하고 있습니다.
Text annotation 유형은 다음과 같습니다.
- NER
- Q&A
- Text analysis
Audio Annotation
오늘날 자동 음성 인식(ASR) 모델은 오디오를 전사하는 프로세스를 간소화하여, 음성 언어를 이해하는 AI 세대를 가능하게 했습니다. Audio annotation은 알렉사, 구글 어시스턴트 및 음성 인식을 사용하는 AI 기술 등 이미 많은 곳에서 활약하고 있습니다.
음성 어노테이션은 STT(Speech-to-Text)와 TTS(Text-to-speech)로 나눌 수 있습니다. STT는 음성을 텍스트로 변환하며, TTS는 텍스트를 다시 음성으로 변환하는 것을 의미합니다. STT의 경우 모델이 자신의 말을 듣고 텍스트로 정확히 변환하고 이해하는 것에 초점을 두고 있으며, TTS는 모델이 이해한 내용을 사람의 목소리처럼 자연어로 구현하는 것을 핵심으로 합니다. 유튜브의 자동 자막 생성이나 팟캐스트 및 라디오 프로그램에서 오디오 콘텐츠 생성에 적극적으로 활용하고 있죠.
ASR 시스템을 구축하기 위해서는 방대한 양의 레이블이 지정된 오디오 데이터가 필요합니다. 예를 들어, Whisper는 680,000시간 -약 77년- 분량의 오디오로 훈련 받은 모델입니다. 일부 모델은 억양 및 배경 소음이 있는 데이터를 포함하여, 다양한 조건의 샘플 데이터를 수집해야만 효과적인 성능을 보이기도 합니다.
Audio annotation 유형은 다음과 같습니다.
- Audio classification
- Tagging
- Audio to Text
Video Annotation
Video annotation은 이미지에 작업하는 것보다 더 까다롭습니다. 단일 사진이 아니라, 비디오 정보 프레임에 태그를 배치해야 하기 때문이죠. 기술의 발전에 따라 다중 프레임 또는 스트림 주석이라고 하는 연속 프레임 방법이 연구되었습니다. 비디오 어노테이션은 필연적으로 멀티 모달 작업이 됩니다. 프레임을 구성하는 이미지, 오디오를 인식해야 뿐 아니라, 그것의 맥락을 이해해야 하고 마지막으로 전 후 장면과 합쳐 흐름을 이해해야 하기 때문이죠.
컴퓨터 비전 기술은 본질적으로 기계가 비디오와 같은 시각적 데이터로부터 중요한 정보를 추출할 수 있는 능력을 기반으로 합니다. 즉, 컴퓨터 비전 기술은 인간의 시각적 인식을 원리로 작동하는 것입니다. 이를 위해서는 컴퓨터가 Video annotation 결과를 통해 학습하고 작동하는 것이 중요합니다. 신경망은 일종의 ‘블랙박스’ 형태로 세상을 볼 뿐, 그 영상에 의미를 부여하는 것은 Video annotation의 정확도에 달려있습니다.
Video annotation 유형은 다음과 같습니다.
- Object detection
- Segmentation
- Object tracking
- Classification
- Tagging
- Keypoint Skeleton pose
데이터 라벨링 작업에서 중요한 것은?
빠르게 급변하는 비즈니스 환경에서 99%의 Model-Centric AI보다는 1%의 Data-Centric AI가 유의미한 성과를 만들고 있습니다. 그럼에도 불구하고, 저품질 데이터로 인해 전체 AI의 15%만이 실제 산업에 적용되고 있습니다.
데이터 분석 기업인 Cognilytica에 따르면, AI 프로젝트 시간의 80%가 데이터를 수집, 구성 및 레이블링에 사용된다고 합니다. 모델을 학습하고 배포하기 전에, 적절하게 구조화된 데이터를 확보하는 데에 많은 시간을 쏟고 있는 셈이죠. 기존의 데이터 레이블링 프로세스는 대부분 비효율적이거나 비용이 많이 드는 구조적 문제점이 있었습니다. 이 때문에 기업은 인공지능을 도입하기에 앞서, 데이터 품질에 큰 리소스를 투입하기 어려워했죠.
비즈니스에 AI를 도입하기 위해서는 무엇보다도 학습 데이터의 품질을 중요하게 생각해야 합니다. 머신러닝 모델 구축에 앞서, 학습 데이터 구축을 위한 데이터 라벨링 작업의 중요성은 날이 갈수록 중요해지고 있습니다. 레이블링 된 데이터의 품질 문제는 모델 교육 및 모델 의사결정에 악영향을 미칠 수 있기 때문입니다. 따라서 품질 보증을 추가하거나, QA 프로세스를 통해 적극적인 개선이 필요합니다.
데이터라벨링 트렌드 - 한국정부의 데이터 품질 관련 정책
2023년 과학기술정보통신부가 주최하고 한국지능정보사회진흥원이 주관하는 ‘인공지능 학습용 데이터 구축 사업’에서 데이터 품질 확보를 위한 ‘인공지능 학습용 데이터 품질관리 가이드라인 및 구축 안내서’가 발간되었습니다. 다년간의 인공지능 학습용 데이터 구축사업을 통해 축적된 품질관리 활동 및 산출물을 프로세스 화한 문서입니다. 이 가이드라인 76 페이지에서 구체적으로 언급한 Data Labeling 주요 품질 관리 기준은 다음과 같습니다.
[품질관리 지표 - 데이터 정확성]
- 구문 정확성: Annotation Data를 구성하는 속성 값들과 원래 정의한 데이터 형식 및 입력값 범위와의 일치성을 측정하는 지표
- 의미 정확성: 의미 데이터의 참값(Ground Truth)을 확인하기 위해 정확도, 정밀도, 재현율, IoU, ROUGE, BLEU, Fβ-점수, EM 등을 측정하는 지표
데이터 라벨링의 현실 - 데이터라벨러의 전문성과 품질관리 필요
최근 동남아나 아프리카에 거주하는 저렴한 인건비의 데이터 라벨러를 고용하는 글로벌 업체 또는 중소 업체를 활용하면 비용을 절감할 수 있습니다. 그러나 이 경우 한국 사람과 다른 맥락으로 이해할 수밖에 없기 때문에 필연적으로 메타 데이터의 정확성이 부족하여 학습 데이터셋의 품질이 떨어지는 경우가 자주 발생합니다. 최악의 경우, 프로젝트 시간의 80%를 할당해야 하는 데이터 전처리/가공 과정을 다시 반복해야 할 수도 있죠.
한 번 모델을 구축하면 폐기 후 새로 구축하거나 확장하는 것이 쉽지 않은 만큼, 학습 데이터셋을 초기에 제대로 구축하는 것은 중요한 일입니다. 이에 따라 데이터 라벨러의 전문성이 더욱 중요해지고 있는 시점입니다. 이미 AI 산업을 리드하는 핵심 기업들은 데이터 라벨러 고용 및 관리 영역에서 아르바이트의 개념을 도입하는 것이 아니라, 전문 인력을 활용하는 데에 중점을 두고 있습니다.
최근 데이터헌트를 찾은 고객사들 중 이런 케이스가 특히 많았습니다. 데이터헌트는 인건비가 다소 높더라도, 숙련되고 작업 능력이 검증된 국내 라벨러를 활용하여 프로젝트를 진행하는 것이 더 좋은 선택이라 확신합니다.
최근 생성 AI를 다방면으로 활용하기 시작함에 따라, 모델의 파인튜닝을 위해 데이터 수집과 가공이 필요한 사례가 늘고 있습니다. 이 경우 Few-shot learning을 기반으로 한 학습 과정이 진행되기 때문에 데이터 라벨링 결과물의 품질이 더욱 중요해지고 있습니다. 생성 AI를 사업에 접목하려는 기업은 이에 대한 높은 이해도를 갖춘 파트너와 함께 원천 데이터 수집/가공과 함께 학습 데이터를 구축해야 합니다.
국내 데이터 라벨링 업체 비교
한국에 등록되어 있는 데이터라벨링 업체는 2023년 기준 700개가 넘는다고 합니다. 업체가 다양해 선택이 어려운 만큼 파트너를 선정하는 기업의 입장에서 주요 업체의 특징을 간략하게 소개해 보겠습니다.
크라우드웍스
- 전문 라벨러 육성을 위한 국민내일 배움 교육 커리큘럼 제공, 인력 파견 서비스 제공
- 단기간에 더 많은 데이터를 작업하기 위한 Smart Labeling Platform
AIMMO
- 웹 브라우저 작업 환경을 구축하여 안정적인 퍼포먼스 도출
- 품질 및 성과 관리 툴로 프로젝트 효율성 향상
데이터헌트
- 최대 정확도 99%, 작업 시간 및 운영 비용은 50%대로 절감한 Human in the loop 구조
- SaaS 플랫폼을 통한 오토 라벨링과 실시간 품질 관리 및 로그데이터 추출
- 해외 데이터라벨링 기업과 비교해도 높은 수준의 데이터 품질 역량 확보
테스트웍스
- 효율성과 생산성 증가에 특화된 품질 관리 시스템과 사후 관리를 통한 고객 만족 서비스
- 데이터 생성, 정제, 가공 및 관리까지 선순환 사이클 운영
셀렉트스타
- 25만 작업자가 이용하는 크라우드소싱 플랫폼으로 소규모 작업 진행도 가능
- 학습 데이터의 분포 및 특성을 볼 수 있는 시각화 기반 데이터셋 분석 도구
데이터헌트의 데이터 라벨링 경쟁력
오토 라벨링
데이터헌트는 SaaS 플랫폼을 적극적으로 활용하여 AI-Assisted auto labeling 구조를 구축했습니다. 이를 통해 데이터 정확도는 99%로 향상되었습니다. 더불어 비용과 시간 측면에서도 50% 이상 절감 효과를 가져올 수 있었습니다.
데이터헌트는 프로젝트에 앞서 고객사 AI 모델의 학습 데이터에 가장 적합한 어노테이션 모델을 선정합니다. 담당 PM과 전문 AI 엔지니어가 맞춤형 프로젝트 플래닝을 하는 과정이 필수적으로 진행되죠. 여기에는 Meta의 Segment-anythDatahunt's Auto labelinging, YOLO, BERT 등 다양한 모델을 프로젝트에 맞게 선택하고 개선하는 작업이 포함됩니다. 데이터헌트의 AI 개발자 및 PM들은 다양한 모델을 직접 테스트하고 연구하며 고객사의 비즈니스에 맞는 결과물을 도출하기 위해 적극적으로 노력하고 있습니다.
또한 AI를 활용한 결과물의 퀄리티를 높이기 위해 자체 알고리즘을 구축하고, 꾸준한 성능 개선 작업을 진행하고 있습니다. 데이터헌트의 라벨링 노하우를 통해 엄선된 모델은 Pre-labeling, Auto-labeling, validation 작업에 투입되어 프로젝트를 수행하고 있습니다. 그간 작업한 300M+ 데이터를 사전 학습한 모델은 고객사의 작업 시간을 50% 이상 단축할 수 있었습니다.
HITL(Human-in-the-loop) 검수로 정확도 관리
데이터헌트는 데이터 가공 과정에서 꼼꼼한 작업은 물론, 2차/3차 검수 과정을 거쳐 정확도 향상을 도모합니다. 이 과정은 사람과 인공지능이 함께 보완하는 HITL (Human-In-The-Loop) 방식으로 진행하고 있습니다.
데이터헌트의 AI 자동 검수는 1차적으로 작업한 데이터를 대상으로 작업 결과물 중 틀렸을 가능성이 높은 작업물을 찾아내어 수정을 제안하는 것입니다. AI가 작업의 신뢰도를 평가하면, 사람이 AI의 제안을 수락 또는 거절하면서 검수를 진행하는 과정을 거칩니다. 데이터헌트의 플랫폼은 고객의 요청에 따라 여태 작업한 데이터를 통해 모델을 학습시키고 있습니다.
언제나 발생할 수 있는 사람의 실수를 찾아내는 과정에서 AI가 큰 역할을 하는 셈입니다. 이를 통해 검수 시간을 절약할 수 있을 뿐만 아니라, 비용도 줄일 수 있습니다. 무엇보다도 최종적으로 획득할 수 있는 데이터의 품질을 크게 향상할 수 있다는 점이 데이터헌트의 가장 큰 강점입니다.
데이터 라벨러 관리
데이터헌트는 효율적이고 정확한 프로젝트를 위한 SaaS 플랫폼을 구축했습니다. Admin 기능을 통해 다양한 프로젝트 매니징이 가능합니다. 먼저 Time management를 위한 평균 처리시간, 작업 효율, 반려율 등 전반적인 프로젝트 진행 상황을 한눈에 볼 수 있습니다. 또한 Quality management를 위해 AI 연동을 통한 작업 정확도 예측치, 작업자 우수/불량 작업 예측치를 제공합니다.
또한 라벨러의 작업 로그 데이터를 통해 업무 숙련도를 평가하고 프로젝트에 배치할 수 있으며, 고객사에게는 SaaS 플랫폼을 통해 실시간으로 품질 관련 정보를 제공하고 있습니다.
요약: 데이터 라벨링은 학습 데이터셋 품질에 결정적인 역할을 하며, 이를 위해서는 라벨러 인력 및 기업의 핵심 역량이 점점 더 중요해지고 있다.
- 데이터 라벨링은 컴퓨터가 원천 데이터를 식별할 수 있게 하며, AI 모델이 학습할 수 있는 콘텍스트를 제공하는 기술입니다. 데이터 어노테이션과 비슷한 의미로 사용되며 머신러닝 모델의 학습을 위한 데이터셋 구축을 위해 데이터 포인트에 정보를 할당하는 작업을 의미합니다.
- AI 프로젝트 시간의 80%가 데이터 수집 및 구성 및 레이블링에 사용되는 만큼, 레이블링 된 데이터의 품질이 중요해지고 있으며 정부의 데이터 품질 관련 정책 역시 보다 구체적인 기준을 강조하고 있습니다.
- 오늘날 기업은 데이터 라벨링을 위해 크라우드소싱 및 일반 인력을 활용하는 방법을 채택하고 있습니다. 다만 라벨러는 알바의 개념보다 전문 인력으로써 능력이 강조되어야 하며, 이를 위해서는 프로젝트 이해도를 수반하는 지식과 비즈니스 요구에 유연하게 대응할 수 있는 능력이 필요합니다.
Generative AI (생성 AI) 란?
인간은 사물을 분석하는 데 능숙합니다. 기계는 훨씬 더 뛰어납니다. 기계는 일련의 데이터를 분석하고 그 안에서 패턴을 찾아내어 사기나 스팸 탐지, 배송 예상 시간 예측, 다음에 보여줄 TikTok 동영상 예측 등 다양한 사용 사례에 활용할 수 있습니다. 이러한 작업은 점점 더 똑똑해지고 있습니다. 이를 “Analytical AI” 또는 traditional AI라고 합니다.
Generative AI는 비정형 딥 러닝 모델을 사용하여 사용자 입력을 기반으로 콘텐츠를 생성하는 인공지능의 일종입니다. 이용자의 특정 요구에 따라, 결과를 능동적으로 생성하는 인공지능 기술을 통칭하고 있습니다. 예를 들어, ChatGPT에 질문을 입력하면 간단하지만 합리적이고 상세한 서면 답변을 제공하는 것과 같습니다. 또한 후속 질문을 입력하고 다시 답변받을 수 있으며, 이때 챗봇은 대화 초기의 세부 사항을 기억할 수 있습니다.
Generative AI, 생성 AI는 인간이 손으로 만드는 것보다 더 빠르고 저렴할 뿐만 아니라 경우에 따라서는 더 나은 결과를 만들어낼 수 있는 단계에 와 있습니다. 소셜 미디어에서 게임, 광고, 건축, 코딩, 그래픽 디자인, 제품 디자인, 법률, 마케팅, 영업에 이르기까지 인간이 독창적인 작업을 만들어야 하는 모든 산업이 재창조될 수 있습니다. 어떤 업무, 작업은 생성 AI로 완전히 대체될 수도 있고, 어떤 기능은 인간과 기계 간의 긴밀한 반복적 창작 주기를 통해 번창할 가능성이 높습니다. 제너레이티브 AI가 창작과 지식 작업의 한계 비용을 0으로 낮춰 막대한 노동 생산성과 경제적 가치를 창출할 것이라는 것에는 모두가 동의하게 되었습니다.
최근 Generative AI의 혁신이 가속화되면서 시장과 대중의 관심을 사로잡고 있습니다. OpenAI의 GPT는 사람이 쓴 것처럼 보이는 정확한 텍스트를 생성할 수 있습니다. 또한 DALL·E와 같은 Image generator는 단어 입력을 기반으로 사실적인 이미지를 생성할 수 있죠. 구글, 페이스북, 바이두를 포함한 다른 기업 역시 사람이 쓴 것처럼 생생한 텍스트와 이미지, 컴퓨터 코드를 생성할 수 있는 정교한 Generative AI 개발에 박차를 가하고 있습니다.
👉 AI의 정의와 역사, 유형에 대한 구체적 설명이 궁금하다면?
Generative AI 역사와 Landscape
Generative AI는 인공지능 역사 중에서도 오랜 기간 연구된 분야로, 1960년대 챗봇 Eliza에서 처음 개발되었습니다. 숨겨진 마르코프 모델(HMM)이나 가우스 혼합 모델(GMM)과 같은 이론은 1950년대에 처음 개발되었죠. 이안 굿펠로우의 GAN이 등장한 후, VAE(Variational Autoencoder)와 같은 다양한 Generative AI 알고리즘이 등장하여 더욱 발전해 왔습니다.
GenAI의 지형을 바꾼 몇 가지 중요한 순간을 소개합니다.
- WaveNet(2016)
딥마인드의 WaveNet은 Audio Generative Model의 발전에 획기적인 변화를 가져왔습니다. 웨이브넷은 실제와 같은 사람의 음성을 생성할 수 있었으며, 이를 통해 더욱 인간과 유사한 AI 챗봇이나 비서 등 고도로 정확한 텍스트 음성 합성을 구현할 수 있는 길이 열렸습니다. - Progressive GANs(2017)
엔비디아가 개발한 프로그레시브 GAN은 고해상도의 사실적인 이미지를 생성하는 데 있어 전환점이 되었습니다. GAN은 훈련 과정에서 레이어를 점진적으로 추가하여 전례 없는 디테일과 선명도를 갖춘 이미지를 생성할 수 있게 되었습니다. - GPT-2 및 GPT-3(2019, 2020)
OpenAI의 사전 훈련된 생성형 트랜스포머(GPT) 모델은 텍스트용 GenAI 분야에서 큰 도약을 이루었습니다. 일관되고 문맥에 맞는 문장을 생성하는 능력을 입증하여 작문 지원부터 챗봇에 이르기까지 다양한 애플리케이션에 유용하게 활용될 수 있었습니다. - DALL-E(2022)
2022년 OpenAI는 DALL-E를 대중에게 공개했습니다. DALL-E는 자연어 프롬프트에서 디지털 이미지를 생성할 수 있는 딥러닝 모델입니다. - ChatGPT(2022)
OpenAI는 GPT 기반의 대화형 챗봇인 ChatGPT를 출시했으며, 이 플랫폼은 5일 만에 사용자 100만 명을 달성했습니다. - GPT-4 (2023)
최신 GPT 모델은 더 정확하고 고급 추론 기능을 갖춘 것으로 알려졌습니다. 프리미엄 ChatGPT 사용자는 이제 챗봇 내에서 GPT-4에 선택적으로 액세스할 수 있습니다.
위의 Milestone을 통해 Generative AI는 계산 능력, 데이터 품질 및 학습 안정성과 관련된 문제를 극복하고 현재의 역량에 더 가까워졌습니다.
👉 ChatGPT3와 GPT-4의 원리와 성능 비교
주요 종류와 모델
Generative AI Applications
- Text
텍스트 생성은 가장 많이 발전된 영역입니다. 사람의 자연어 구사 능력은 제대로 구현하기 어렵습니다. 하지만 현재 우리에게 알려진 ChatGPT나 Bard 등의 모델은 일반적인 단문/중간 형식의 글쓰기에 꽤 능숙합니다. 일반적인 반복 작업이나 초안 작성을 넘어 보고서나 프레젠테이션을 제공할 수 있는 수준이 되었습니다. 모델이 더 개선됨에 따라 높은 품질의 결과물, 더 긴 형식의 콘텐츠, 더 나은 vertical fine tuning의 가능성을 기대할 수 있습니다. - Code Generation
최근 GPT에 code interpreter가 추가되면서, 개발자를 대신해서 코드를 생성하는 역할을 수행할 수 있게 되었습니다. 단기적으로 개발자 생산성을 크게 개선할 수 있으며, 비개발자가 코드를 배우지 않아도 개발 작업에 쉽게 접근할 수 있게 될 것으로 보입니다. - Image
이미지 분야는 creator 들에게 다양한 가능성을 열어주고 있습니다. 이미 소셜 미디어에서는 AI가 생성한 이미지가 많은 관심을 받으며 공유되고 있고 재미있다는 입소문이 퍼지고 있습니다. Midjourney가 생성한 미적으로 훌륭한 작품 뿐 아니라, adobe가 최근에 공개한 firefly는 캐쥬얼한 이미지 생성 또는 광고 분야에 적용될 이미지까지 훌륭한 성능을 보여주고 있습니다. - Speech synthesis
음성 합성 기술은 apple의 siri 또는 amazon의 Alexa 처럼 이미 소비자와 기업용 애플리케이션으로 많이 사용되고 있었습니다. 이를 뛰어넘어 현재는 텍스트만 입력되면 특정인의 음성으로 구어체 음성이 생성되는 기술로 발전하여 영화나 팟캐스트 등에 널리 쓰이고 있습니다. - Video and 3D models
비디오 및 3D 모델은 영화, 게임, VR, 건축, 실제 제품 디자인과 같은 대규모 크리에이티브 시장을 새롭게 개척할 수 있는 잠재력을 가지고 있습니다. 아직은 다양한 시도 중이지만, 대체현실, 디지털 트윈과 연계되어 빠르게 발전하고 있습니다. - Audio, Music, 그리고 다양한 산업군에 적용
생성 AI는 이제 음악 작곡부터 생물학, 화학에 이르기까지 다양한 분야에서 인간처럼 창의성 있는 작업을 할 수 있게 되었습니다.
위에 보이는 차트는 SEQUOIA capital에서 예측한 gen ai Foundation model이 어떻게 발전할 것으로 예상되는지, 그리고 관련 애플리케이션이 어떻게 가능해질지에 대한 타임라인입니다. 2025년 이후는 예측이지만 그 모습이 실제로 우리에게 나타날 시점이 기대됩니다.
생성 AI의 주요 모델과 구조
생성 AI는 먼저 방대한 양의 데이터를 GAN 프레임워크와 같은 딥 러닝 시스템에 입력하는 것으로 시작합니다. 지도 신경망은 데이터를 선별하고 성공에 대해 보상하고, 오류나 실수가 발생했을 때 불이익을 주는 시스템을 사용해서 발전합니다. 시간이 지나면 모델은 사람의 감독 하에 복잡한 관계를 식별하고 이해하는 방법을 배울 수 있습니다. 이를 Supervised neural network라고 합니다.
생성 모델에는 여러 가지 방식이 있습니다. 크게 두 가지로 나누자면, 학습 데이터의 분포를 기반으로 하는 Explicit Density와 데이터의 분포를 모르더라도 생성하는 Implicit density로 나눌 수 있습니다.
Explicit density
- Tractable density: 모델의 사전 분포를 가정하여 기존 값으로부터 데이터 분포를 추정
- Full visible belief Nets (NADE, MADE, PixelRNN/CNN)
- Approximate density: 모델의 사전 분포를 근사시켜 데이터 분포를 추정
- VAE, Markov Chain (Boltzmann Machine)
Implicit density
- 데이터의 확률 분포를 모르는 상태
- 모델이 명확히 정의되어 있지 않음
- 샘플링을 반복하여 특정 확률 분포에 수렴하여 추정
- GAN, Markov Chain (GSN)
주요 모델은 다음과 같습니다.
GAN (Generative Adversarial Networks)
- 두 개의 인공 신경망이 서로 적대적으로 경쟁하는 관계 속에서, 진짜 같은 가짜를 만들어 낼 때 끝이 나는 생성적 모델
AE (Auto-Encoder)
- 인코더와 디코더로 구성되며, 라벨링 되지 않은 데이터로부터 저차원의 특징을 학습하여 원본 데이터를 추출하는 네트워크
VAE (Variational Auto-Encoder)
- AE와 비슷하지만 확률적 및 생성적 개념이 추가된 Generative AI 모델
- 데이터를 잘 설명하는 특징을 추출하여 Latent Vector에 담고, 이를 통해 유사하지만 완전히 새로운 데이터를 생성
- 각 특징은 가우시안 분포를 따르고, Latent Vector는 각 특징의 평균과 분산값을 의미
실제 산업에 도입 가능한 Generative AI 서비스
ChatGPT Plugins
ChatGPT Plugins은 크롬 확장 프로그램과 유사한 형태로, ChatGPT를 비즈니스 목적에 맞게 다양한 방향으로 사용할 수 있는 서비스입니다. OpenAI ChatGPT Plugins 공식 홈페이지에서 설명하는 대표적인 기능은 다음과 같습니다.
- Browsing
일반적으로 웹 검색창에서 키워드나 문장을 입력하는 것으로 검색 경험이 이루어집니다. 하지만 이제 본격적으로 ChatGPT가 검색 엔진 시장을 잡을 것으로 보입니다. OpenAI는 Bing API를 활용해서 쉽게 인터넷 검색창에 접근하고 응답을 할 수 있다고 설명했습니다. 2021년 10월 이후의 데이터에 대해서 제대로 답변하지 못했던 ChatGPT의 아쉬운 점을 극복할 수 있을 것으로 기대를 모으고 있습니다.
- Code Interpreter
ChatGPT 내에 많은 양의 Python Code가 학습되어 있습니다. 이를 바탕으로 구축한 Plugin이 Code Interpreter입니다. Code Interpreter를 사용하면 샌드박스가 적용된 방화벽 환경에서 Python 코드를 실행할 수 있습니다. Code Interpreter는 여러 개의 코드 블록을 연속으로 실행할 수 있으며 서로 위에 빌드됩니다. 또한 현재 대화 작업 영역에 파일을 업로드하고 작업 결과를 다운로드할 수도 있습니다.
- Retrieval
오픈 소스 검색 플러그인을 통해 ChatGPT는 개인 또는 조직의 정보 소스에 액세스 할 수 있습니다. 이를 통해 사용자는 자연어로 질문하거나 요구 사항을 표현하여 파일, 메모, 이메일 또는 공개 문서와 같은 데이터 소스에서 가장 관련성이 높은 문서 스니펫을 얻을 수 있습니다.
- Third-party Plugins
ChatGPT의 Third Party Plugins은 다른 애플리케이션이 협력하는 구조입니다. ChatGPT를 통해 식당을 찾고 예약하거나 식료품 주문, 여행 계획 세우기 등 다양한 활동이 가능해질 것으로 전망하고 있죠. Plugins은 사용자의 요청에 따라 언어 모델이 작업을 수행할 수 있도록 지원하여 시스템의 유용성을 높일 것이라고 설명했습니다.
Cohere
Cohere의 Generative AI는 대규모 언어 모델을 기반으로 하는 챗봇을 통해 전자 메일이나 랜딩 페이지, 제품 설명 등의 고유한 콘텐츠를 제작할 수 있습니다. cohere의 모델에게 주제와 프롬프트를 주면 자동으로 블로그가 작성되며, 브랜드 목소리에 맞는 고유한 설명을 얻을 수 있습니다.
Cohere에서 제공하는 기능을 간단히 요약하면 다음과 같습니다.
- 확장 가능하고 경제적인 Generative AI 도구로 제품 설명이나 블로그 게시물, 기사, 마케팅 문구를 작성할 수 있습니다.
- 기사, 이메일, 문서에서 간결하고 정확한 요약을 추출할 수 있습니다.
- 영어 또는 100개 이상의 언어로 된 모든 문서 유형에서 고성능 Semantic Text 검색을 구축할 수 있습니다.
- 고객 지원 라우팅, 의도 인식, 감정 분석 등을 위해 Text classification을 실행할 수 있습니다.
👉 LLM (거대언어모델)의 원리, 구조, 대표모델, 적용 사례를 자세히 알고 싶다면?
뤼튼 Plugins
뤼튼은 글쓰기에 관련한 문제들을 풀어주는 국내 스타트업입니다. 뤼튼의 AI 글쓰기 연습 설루션인 ‘뤼튼 트레이닝’은 사용자가 한 편의 글을 완성시키는 과정을 반복하도록 도와줍니다. 사용자가 특정 주제를 입력하면, 인공지능이 질문을 던지면서 다음 문장을 유도합니다. ChatGPT보다 압도적인 한국어 학습량을 자랑하는 네이버의 하이퍼크로버를 기반으로 만들어졌습니다.
뤼튼은 초거대 자연어 인공지능이 무수한 경우의 수에서 최적의 단어와 문장의 조합을 찾아내는 ChatGPT와 기본적인 원리는 같습니다. 다만 ChatGPT가 대화에 집중한다면 뤼튼은 쓰기에 집중하는 유형입니다. 대화반응형 모델인 GPT는 검색 엔진의 대체제의 역할을 하지만, 뤼튼은 사용자의 생각을 정리하는 방식으로 사용자에게 글쓰기를 가르쳐주는 셈입니다
‘뤼튼’이 출시한 Plugins는 ChatGPT plugins과 동일한 아이디어로, 식당을 예약하거나 택시를 잡는 등 다양한 활동을 자동으로 할 수 있는 기능이 포함되어 있습니다. 그간 해외 앱들만 연결되어 있어 국내에서는 사용이 어려웠던 것을 극복한 것이죠. 뤼튼 AI의 Plugins는 20개의 대기업과의 계약을 성공적으로 마치면서, AI 업계의 ‘게임 체인저’로 가능성을 보여주었습니다.
한계
이외에도 LLM 기반으로 한 Generative AI는 산업에서도 다양한 변화를 이끌었습니다. 최근 AI를 사용자 편의나 필요, 목적에 맞게 사용하는 ‘Gen AI For ○○○업’이 비즈니스의 핵심 키워드로 떠오르고 있죠.
그러나 여전히 해결해야 할 문제들이 있습니다. 예를 들어, 위에서 언급한 챗봇들은 대부분 NLP 기반의 업무에 한정되어 있습니다. 또한 한 번에 처리할 수 있는 Token(말의 수)가 제한적입니다. 또한 범용적인 모델을 기반으로 만들어졌기 때문에 산업 개별 문제에 대한 도메인 지식이나 이해도가 부족하다는 지적이 따르고 있습니다. 이를 위해서 Generative AI의 Fine-tuning 역시 함께 주목을 받고 있습니다.
Generative AI fine-tuning 이란?
Fine-tuning이란, 특정 작업에 대한 범용 모델을 조정하기 위해 사전 훈련된 모델의 일부 매개변수를 레이블이 지정된 추가 데이터로 업데이트하는 것을 의미합니다. 이 기법을 사용하면 미세 조정된 모델이 사전 교육 프로세스에서 얻은 지식을 유지하면서, 사용자가 희망하는 전문 영역에 더 능숙해질 수 있습니다. 다만 한 영역에 과도하게 전문화되어 다른 작업의 수행 능력을 상실하는 과적합에 유의해야 할 필요가 있습니다.
fine tuning 방법
위의 그림을 토대로, fine-tuning의 방법을 요약하자면 다음과 같습니다.
- 작업을 식별하고 관련 데이터 집합 가져오기
- 데이터 세트 전처리
- 사전 학습된 가중치로 LLM 초기화
- 입력 계층 수정 및 모델 교육
- 평가 및 후기
이 과정에서 가장 핵심적인 것은 올바른 데이터를 선택하는 것입니다. 모델을 미세 조정할 때 데이터는 성능에 큰 영향을 미치기 때문입니다. 모델이 원래 학습된 데이터와 너무 유사한 데이터를 사용하면 큰 개선 효과를 볼 수 없을 것이고, 너무 다르면 새로운 작업에 잘 일반화하지 못할 수 있습니다.
따라서 데이터헌트는 모델이 수행하려는 작업과 관련된 데이터를 사용해 모델을 미세 조정합니다. 또한 사용하는 데이터에 오류가 없는지 철저히 검수해서 고품질의 데이터를 선별합니다. 가져온 데이터들은 모델이 실제 세계에서 접하게 될 데이터의 종류를 대표할 수 있어야 합니다.
위의 사진에서 설명하는 Pre-training (사전 학습) 이란, 기존에 임의의 값으로 초기화하던 모델의 가중치들을 다른 문제에 학습시킨 가중치들로 초기화하는 방법을 의미합니다. 예를 들어 감정 분석 문제를 학습하면서 얻은 언어에 대한 이해를 통해, 그 정보와 유사한 문제를 학습하는 데에 활용하는 것을 의미합니다. 반면 fine-tuning이란 사전 학습한 모든 가중치와 더불어 downstream task를 위한 최소한의 가중치를 추가해 모델을 추가 학습 및 미세 조정하는 방법입니다.
딥 러닝에서 사전 학습을 통해 효과적으로 hidden layer를 쌓으면 효율적인 훈련이 가능하다는 장점이 있습니다. 또한 사전 학습은 레이블 된 학습 데이터가 필요하지 않고 unsupervised learning (비지도 학습) 이 가능하기 때문에, 레이블이 없는 빅데이터를 가지고 훈련할 수 있습니다. 그러나 이것만으로 원하는 태스크를 수행하는 인공지능 엔진을 완성할 수 없기 때문에, 여기에 기반해 Fine tuning을 한 번 더 진행해야 합니다.
👉 AI모델의 성능을 평가하는 f1 score 알아보기
Prompt engineering 이란?
Prompt engineering은 GPT-3에서 등장한 방법론입니다. 고정 모델이 상황 내의 학습에 의해 다양한 작업을 수행하도록 조건을 지정하는 방식으로 진행합니다. Zero-shot, few-shot 등의 텍스트 프롬프트를 직접 작성하여 특정 작업에 대한 모델을 조정합니다. 수동 작업이 많이 필요하다는 단점이 있으며, fine tuning에 비해 다소 성능이 떨어진다는 단점이 있습니다.
유사한 개념으로 Prompt-tuning 및 Optimization 방법론이 있습니다. 프롬프트를 조정 가능한 매개변수로 처리하여 LLM 성능을 최적화하는 방식입니다. Fine tuning보다 리소스를 절약할 수 있으며, Prompt engineering보다는 높은 품질의 출력을 제공하죠. 또한 프롬프트 제작에 필요한 수동 작업의 필요성을 축소할 수 있다는 장점이 있습니다.
실제 사례
Stable diffusion Model의 인기가 많아짐에 따라, 이 모델을 파인튜닝하는 Dreambooth도 함께 주목받고 있습니다. Dreambooth는 구글 연구진이 발표한 논문에서 사용한 학습 방법의 이름으로, Imagen이라는 text-to-image 생성 모델을 어떤 subject에 대한 몇 장의 사진으로 Fine-tuning 하여 개인화된 text-to-image generative ai를 만들고, 해당 subject를 새로운 context에서 높은 fidelity로 이미지를 생성할 수 있게 해주는 학습 방법입니다.
Dreambooth를 사용하면 몇 장의 사진만으로 주제의 시각적 특징에 대한 높은 충실도를 유지하면서, 새로운 맥락의 사진을 합성할 수 있습니다. 또한 몇 장의 이미지만을 가지고 text-to-image diffusion 모을 fine-tuning 하면서도, 기존 모델의 Semantic Knowledge를 유지할 수 있다는 장점이 있습니다.
fine tuning에서 Data quality
Few shot learning은 모델이 주어진 문제를 해결하는 방법을 학습하는 것입니다. 이 접근 방식에서 모델은 매우 제한된 수의 샷을 제공받고, 이 정보를 사용하여 해당 작업에 적응하고 수행하는 것을 목표로 합니다. 이는 기존 지도 학습에서 사용할 수 있는 데이터가 충분하지 않을 때 유용한 방법론이었습니다. 대규모 언어 모델에서 새 작업과 관련된 작은 데이터 세트로 fine tuning을 하는 것이 few-shot learning의 주요 용도이기도 하죠.
일부 다른 점도 있지만 Fine tuning 작업 자체는 few shot learning과 유사한 점이 있다는 것을 알 수 있습니다. 따라서, 두 작업 모두 성공적으로 수행하기 위해서는 데이터가 중요하다는 것을 알 수 있습니다. 적당한 양이든, 소량의 양이든 고품질의 데이터를 통해 학습해야만 모델의 학습이 잘 이루어지고 적합한 결과를 도출할 수 있기 때문입니다.
Generative AI의 fine tuning은 방대한 데이터가 필요한 일인 만큼 개인이 python 등의 도구를 사용해 진행하기 어려울 수 있습니다. 아래는 AI fine tuning에 도움이 될 기업 리스트입니다.
결론: Generative AI에 대한 관심은 지속적으로 이어질 것이므로, 어떤 방식으로 적용하고 활용할 것인지에 대해 고민해야 합니다.
현재 전문가들은 AI가 고객 서비스의 게임 체인저라고 설명합니다. 기업이 고객 서비스와 관련해 직면한 오랜 과제를 해결할 수 있는 열쇠이기 때문이죠. 많은 기업들은 AI를 통해 숙련된 노동력 부족과 의사결정 속도, 규모에 따른 대량 개인화 등의 문제를 극복할 수 있게 되었습니다.
배리 쿠퍼(Barry Cooper) NICE CX 사업부 사장은 최근 포브스 기고문을 통해 제너레이티브 AI가 모든 산업과 조직의 성장 궤도에 빠르게 얽히면서 가까운 미래에 사람들이 기술과 상호작용하는 방식을 변화시킬 것이라고 전망했습니다. 하지만 기술이 아무리 빠르게 발전하더라도, 산업적 특징에 맞는 Generative AI를 채택하지 못한다면 성공으로 이어지기는 어렵습니다.
데이터헌트는 고객사의 비즈니스를 분석하여 AI를 활용할 수 있는 방향성을 적극적으로 파악하고 AI 서비스를 구축하고자 노력하고 있습니다. 경쟁이 치열한 비즈니스 환경에서 입증된 실적이 있는 숙련된 회사와 연결되면 AI를 도입하고 사용하는 과정에서 경쟁에서 우위를 점할 수 있습니다.
고도화된 Generative AI의 시작은 고품질 데이터의 분포에서 시작되므로, 학습 모델 데이터부터 세심하게 고려해야 합니다. 이제 기업은 Generative AI를 빠르게 활용할 수 있도록 필요한 기술 전문성과 데이터 아키텍처, 운영 모델 등에 대한 식견이 넓은 전문가와 함께할 필요가 있습니다.