Multimodal 적용 썸네일형 리스트형 ChatGPT의 학습방법 ChatGPT의 학습방법 ChatGPT(GPT-3.5)의 학습 과정은 일단 수많은 데이터셋으로 GPT 구조를 Pre-training 했다는 것을 전제로 아래와 같은 과정을 거칩니다. 질문(Query)에 대해 정답 예시가 있는 데이터셋으로 GPT를 학습 (데이터셋은 사람이 직접 만듦) 이제 하나의 질문을 넣으면 모델이 여러개의 답변을 내놓도록 설계 여러개의 답변을 두고 사람이 랭킹을 매김 매겨진 랭킹을 기반으로 강화학습(Reinforcement Learning) 수행 랭킹을 활용해서 어떤 방식으로 강화학습의 손실함수를 설계하는지는 모르겠지만 위와 같이 사람이 직접 강화학습에 참여하는 방식을 RLHF(Reinforcement Learning from Human Feedback)이라고 부릅니다. .. 더보기 이전 1 다음