본문 바로가기

say와 AI 챗봇친구 만들기 보고서

ChatGPT로 데이터 과학을 배우는 방법(다시 시작할 수 있다면)

728x90
반응형
SMALL

ChatGPT로 데이터 과학을 배우는 방법(다시 시작할 수 있다면)

AI로 데이터 과학을 스스로 학습하기 위한 2023년 로드맵.

 
 

배우는 방법을 배우는 것은 당신이 기를 수 있는 가장 유용한 기술 중 하나입니다.

2018년에 처음으로 프로그래밍과 데이터 과학을 가르치기 시작했을 때 수많은 온라인 과정에 등록했습니다. 과정을 마치고 수료증을 받을 때마다 순간적인 성취감을 느꼈습니다.

마치 새로운 것을 배운 것처럼.

그러나 그 느낌은 항상 찰나였습니다. 배운 것을 실천하려고 할 때마다 실패했기 때문입니다.

이론적으로 클래스, 메서드, 개체 지향 프로그래밍이 작동하는 방식을 이해했습니다. 랜덤 포레스트와 의사 결정 트리, 그리드 검색과 베이지안 최적화의 차이점을 알고 있었습니다.

그러나 실제 데이터 세트로 작업할 수 없었습니다.

새 프로젝트를 만들려고 할 때마다 장애물과 내가 몰랐던 또 다른 주제에 부딪히곤 했습니다.

그런 다음 내 지식의 공백을 메우기 위해 새로운 온라인 과정을 수강하는 토끼굴로 내려갈 것입니다.

이 끝없는 주기는 튜토리얼 트랩 으로 알려져 있으며 저는 2년 동안 거기에 갇혀 있었습니다.

내가 배우는 법을 배우기 전까지는.

이미 해당 분야에서 일한 프로그래머 및 데이터 과학자들과 이야기를 나눈 후 데이터 과학 로드맵을 큐레이팅하여 이 주제를 독학했습니다.

불과 몇 달 만에 이 로드맵은 내가 현장에서 일자리를 얻는 데 도움이 되었습니다.

비슷한 로드맵을 사용하여 회사 사다리를 오르고, 커뮤니케이션 및 데이터 스토리텔링 기술을 향상하고, Pyspark 및 SQL과 같은 새로운 언어를 배우고, Medium에 흥미로운 기사를 쓰고, 첫 번째 데이터 과학 온라인 과정을 만들었습니다.

 

하지만 이전에 만든 모든 학습 로드맵은 작년에 ChatGPT가 출시되기 전에 적용되었습니다.

ChatGPT는 새로운 기술을 배우기 위한 게임 체인저입니다.

회사에서 시계열 예측 모델을 구축하고, 몇 년 동안 건드리지 않은 데이터 시각화 프레임워크로 작업하고, Excel로 고급 데이터 조작을 수행해야 하는 새로운 역할로 전환했을 때(전에는 거의 사용하지 않았습니다. ), ChatGPT에 도움을 요청했습니다.

그리고 이러한 주제를 학습하는 데 소요되는 시간을 극적으로 줄였습니다.

솔직히 몇 년 전에 데이터 과학을 독학하기 시작했을 때 ChatGPT가 있었으면 좋았을 텐데요.

이 기사에서는 이전에 게시한 데이터 과학 로드맵을 재구성한 버전을 만들 것입니다. 이 버전은 학습 프로세스의 모든 단계에서 ChatGPT를 개인화된 데이터 과학 멘토로 사용하는 방법을 보여줍니다.

여기에 언급된 특정 자습서 및 리소스에 초점을 맞추기보다는 이 가이드를 학습 방법 학습의 프레임워크로 사용하는 것이 좋습니다.

내가 나열한 온라인 과정은 대부분 동일한 주제를 다루기 때문에 언제든지 다른 과정으로 바꿀 수 있습니다. 여기에서 가져가길 원하는 것은 생성 AI를 개인 튜터로 활용하는 방법을 보여주는 프레임워크입니다.

 

1단계: 프로그래밍 과정 수강

데이터 과학자가 되려면 코딩 방법을 알아야 합니다 .

ChatGPT와 같은 AI 모델이 코드 생성에 정말 능숙해지고 있지만, 저는 데이터 과학자가 여전히 프로그래밍의 기본을 이해해야 한다는 제 입장을 고수합니다.

저는 직장에서 Python 코드를 생성하기 위해 ChatGPT를 사용하지만 10번 중 9번은 여전히 ​​코드를 디버깅하거나 올바른 방향을 가리키는 프롬프트를 입력해야 합니다.

이해하지 못하는 모델 생성 코드를 복사하여 붙여넣기만 하면 데이터 과학 작업을 효율적으로 완료할 수 없습니다.

이제 데이터 과학자가 되려면 코딩 방법을 알아야 한다고 확신했으므로 로드맵으로 돌아가 보겠습니다.

프로그래밍을 배우기 위해 하나의 온라인 과정을 수강하는 것이 좋습니다 . 개인적으로 사용하기 쉽고 다재다능하기 때문에 Python을 언어로 선택해야 한다고 생각합니다.

365DataScience는 훌륭한파이썬 소개언어 구문의 기초를 배우기 위해 수강할 수 있는 과정입니다.

대신 무료 옵션을 원하는 경우 Freecodecamp는 YouTube에서 동일한 주제의 대부분을 다루는 4시간 분량의 Python 자습서를 제공합니다.

몇몇 사람들이 ChatGPT로 Python을 처음부터 배우는 것을 추천하는 것을 보았지만, 위에서 추천한 것과 같은 비디오 자습서를 먼저 수강하는 것이 좋습니다.

대화식이며 실제 사례로 가득 차 있으며 업계 전문가가 가르칩니다. 또한 현장에서 직접 경험한 사람들로부터 동영상을 통해 배우는 것이 더 매력적이라고 ​​생각합니다.

2단계: ChatGPT로 코딩 기술 연습하기

이제 프로그래밍의 기초를 이해하고 변수, 데이터 구조, 함수 및 메서드와 같은 개념에 익숙해졌으므로 이러한 기술을 연습 해야 합니다.

내 경험상 이것은 온라인 과정을 수강하는 것보다 훨씬 어렵습니다.

실제 학습이 이루어지는 곳이기도 합니다.

귀하의 프로그래밍 경험 수준에 맞는 연습 질문을 ChatGPT에 요청하는 것이 좋습니다.

기본 Python 코딩 과정을 방금 완료했다고 가정하면 여전히 초급-중급 수준입니다.

코딩 연습을 위해 ChatGPT를 사용하는 예:

다음은 프로그래밍 연습을 위해 ChatGPT에 입력할 수 있는 프롬프트입니다.

방금 초급 프로그래밍 과정을 마쳤으며초급 프로그래밍 과정을 막 마쳤으며 
Python 코딩 기술을 실습하고 싶습니다. 초중급 수준 
의 프로그래밍 챌린지 질문을 해줄 수 있나요 ?

내 메시지에 대한 ChatGPT의 응답은 다음과 같습니다.

작성자의 이미지

좋습니다. 회문 검사기를 만들고 3과 5의 배수를 기반으로 "FizzBuzz"를 인쇄하고 간단한 계산기를 만들 것을 제안합니다.

이 자습서를 위해 "FizzBuzz" 질문을 살펴보겠습니다.

계속해서 구축할 수 있도록 ChatGPT에 이에 대한 자세한 설명을 요청할 것입니다.

"FizzBuzz" 질문의 요구 사항을 설명할 수 있습니까? 
그리고 샘플 입력 및 출력을 제공하십시오.
작성자의 이미지
작성자의 이미지

ChatGPT는 3의 배수인 숫자를 입력하면 프로그램이 "Fizz"를 출력해야 한다고 말합니다.

그리고 5의 배수인 경우 "Buzz"를 인쇄해야 합니다. 3과 5의 배수 모두 "FizzBuzz"를 인쇄해야 합니다.

계속해서 다음 코드를 코딩해 보겠습니다.

def  fizbuzz ( input_num ): 
    if (input_num% 3 == 0 ): 
        if (input_num% 5 == 0 ): 
            return  'FizzBuzz' 
        return  'Fizz' 
    elif (input_num% 5 == 0 ): 
        return  'Buzz' 
    else : input_num 
        반환

이것은 ChatGPT가 제공한 요구 사항을 기반으로 "FizzBuzz"를 해결하려는 첫 번째 시도입니다. 피드백을 받기 위해 이것을 ChatGPT에 붙여넣겠습니다.

다음은 FizzBuzz를 해결하는 코드입니다. 
이것이 정확합니까? 정확하지 않다면 올바른 답을 얻을 수 있도록 안내해 주시겠습니까?
작성자의 이미지

ChatGPT는 내 코드가 올바른 길을 가고 있지만 초기 요구 사항에서 1에서 100까지 반복하도록 요청했을 때 개별 번호에 대해서만 작동한다고 말합니다.

또한 더 나은 가독성을 위해 내 중첩된 "if" 문을 단순화하도록 요청하고 나를 위해 코드 리팩터링을 진행했습니다.

이것은 개인 프로그래밍 멘토를 갖는 것과 같습니다.

HackerRank 및 LeetCode에서 코딩 문제를 해결하기 시작했을 때 내 코드를 수정하거나 올바른 방향을 알려줄 사람이 없었습니다. 정답을 얻으려면 다른 사람의 솔루션을 읽고 StackOverflow로 이동해야 합니다.

ChatGPT를 사용하면 사용 사례에 맞는 피드백을 받을 수 있습니다.

올바른 방향으로 안내하도록 요청하거나 정답을 실제로 공개하지 않고 힌트를 제공하도록 요청할 수도 있습니다.

이런 종류의 끊임없는 연습과 반복적인 피드백은 당신이 현재 어떤 수준에 있든 더 나은 프로그래머가 되는 데 도움이 될 것입니다.

진행하면서 ChatGPT는 현재 레벨을 기억할 수 있으며 진행하면서 더 고급 질문을 생성하도록 할 수 있습니다.

이는 점점 더 어려워지는 프로그래밍 문제를 해결할 수 있는 맞춤형 접근 방식입니다.

Python으로 문제를 해결하는 방법을 확실히 이해할 때까지 이러한 프로그래밍 연습 문제에 하루에 약 3-4시간을 할애하는 것이 좋습니다.

3단계: ChatGPT로 데이터 과학 기초 배우기

이제 데이터 과학의 기초 학습을 시작할 수 있습니다. 기계 학습의 세계에 발을 들여놓기 위해 데이터 과학 과정이나 부트캠프를 수강하는 것이 좋습니다.

시작하려면 Udemy에서 Jose Portilla의 데이터 과학 부트캠프를 수강하는 것이 좋습니다 . Udemy는 몇 주마다 큰 폭의 할인을 제공하므로 이 과정을 구매하기 전에 프로모션 중 하나를 기다리는 것이 좋습니다. 최저 $10에 받을 수 있습니다.

또한 이 학습 과정이 반드시 순차적일 필요는 없다는 점을 지적하고 싶습니다.

이 과정을 수강하는 동안에도 Python 코딩 기술을 계속 연습할 수 있습니다.

또한 데이터 과학 및 분석과 관련된 프로그래밍 과제를 제공하도록 ChatGPT에 요청하는 것이 좋습니다.

예를 들어 과정을 수강하고 K-Means 클러스터링과 같은 새로운 모델이나 Plotly와 같은 새로운 라이브러리에 대해 배우면 ChatGPT에 해당 특정 개념이나 도구에 대한 테스트를 요청할 수 있습니다.

ChatGPT Plus에 유료로 가입했다면 Code Interpreter 플러그인을 사용하여 프로그래밍 기술을 연습할 수도 있습니다.

작성자의 이미지

ChatGPT의 새로운 Code Interpreter 플러그인에 대해 아직 들어보지 못했다면 제 비디오를 시청하여 자세한 내용을 알아볼 수 있습니다. 데이터 과학 작업의 게임 체인저입니다.

이 플러그인은 Pandas 라이브러리에 대해 자세히 알아보는 데 도움이 되는 샘플 데이터세트를 생성했으며 이 데이터세트를 기반으로 10개의 챌린지 질문을 제시했습니다.

작성자의 이미지

막히거나 원하는 출력에 도달하지 못하는 경우 언제든지 돌아가서 ChatGPT에 지침을 요청할 수 있습니다. 질문이 너무 쉽다고 생각되면 원하는 난이도를 지정할 수 있습니다.

이렇게 하면 온라인 과정에서 정보를 소비하는 데 그치지 않습니다.

학습한 모든 주제에 대해 ChatGPT를 테스트하여 지식의 공백을 메우고 있습니다.

4단계: ChatGPT로 데이터 사이언스 프로젝트 구축

온라인 과정을 완료하고 다루는 모든 데이터 과학 개념에 익숙해지면 지금까지 배운 모든 내용을 보여주는 프로젝트를 만들 수 있습니다.

이렇게 하면 학습한 이론적 기계 학습 개념을 내면화하는 데 도움이 됩니다.

Titanic Survival Prediction 데이터 세트와 같은 간단한 Kaggle 데이터 세트에서 모델을 구축하여 시작할 수 있습니다.

처음부터 모델을 만드는 것이 좋습니다. 막히면 코드를 ChatGPT에 붙여넣고 올바른 방향으로 안내하라는 메시지를 표시하세요.

모델을 성공적으로 구축했다면 ChatGPT에 정확성을 개선할 수 있는 방법에 대한 제안을 요청하세요.

이를 통해 데이터 전처리 및 하이퍼파라미터 조정 기술에 대한 지식을 확장할 수 있으며 직접 해봄으로써 학습할 수 있는 좋은 방법입니다.

예를 들어 저는 최근에 ChatGPT를 사용하여 고객 세분화 모델을 구축하는 방법에 대한 기사를 썼습니다.

다음은 K-Means 클러스터링 모델을 구축할 때 클러스터 수 "K"를 결정할 수 있는 방법을 ChatGPT에 요청한 예입니다.

작성자의 이미지

데이터 세트를 ChatGPT 인터페이스에 붙여넣고 어떤 유형의 분석 또는 모델을 구축할 수 있는지에 대한 아이디어를 요청할 수도 있습니다.

하지만 ChatGPT를 비서 로 사용하세요 .

여기서 귀하의 목표는 학습하는 것이므로 ChatGPT가 실제로 코드를 작성하도록 하는 대신 올바른 방향을 알려줍니다.

 

다음 단계 — 생성 AI는 데이터 과학자에게 무엇을 의미합니까?

이 기사를 마치기 전에 ChatGPT와 같은 생성 AI 모델이 데이터 과학에 미치는 영향에 대해 언급하고 싶습니다.

ChatGPT는 코드를 작성할 수 있으며 OpenAI의 최신 LLM인 GPT-4는 머신 러닝 벤치마크에서 대부분의 최신 모델을 능가했습니다.

이로 인해 많은 사람들이 데이터 과학 작업이 생성 AI로 대체될지 궁금해했습니다.

결정적인 답은 없지만 데이터 업계에서 일한 경험을 바탕으로 최선을 다해 이 질문에 답하도록 노력하겠습니다.

생성 AI와 같은 LLM은 프로그래밍 워크플로우를 가속화하고 데이터 과학 프로젝트를 완료하는 데 필요한 처리 시간을 단축할 수 있습니다.

McKinsey 연구에 따르면 이제 생성 AI를 사용하면 코딩 작업을 최대 2배 빠르게 완료할 수 있습니다. 이 기사는 계속해서 이러한 생산성 향상으로 인해 기업이 직원을 "더 높은 가치의 작업"으로 전환할 수 있다고 설명합니다.

즉, 생성 AI의 도움으로 프로그래밍, 데이터 분석 및 기계 학습 모델링과 같이 이전에는 어려운 것으로 판명된 작업을 이제 어느 정도 운영화하고 더 빠르게 수행할 수 있습니다.

이로 인해 데이터 사이언스의 역할이 특정 도구나 프로그래밍 언어에 초점을 맞추기보다 점차 비즈니스 중심으로 전환될 것이라고 믿습니다.

내 생각에 이 역할에는 AI를 프로젝트 관리하여 데이터를 사용하여 비즈니스 가치를 창출 할 수 있는 기계 학습 및 프로그래밍 배경을 가진 전문가가 필요합니다 .

데이터 과학자이거나 해당 분야에 진출하려는 경우 재무 또는 마케팅과 같은 영역에서 주제 전문 지식을 얻는 것이 좋습니다 .

이렇게 하면 생성 AI 및 데이터 과학의 힘을 활용하여 비즈니스 요구 사항을 해결하고 산업별 문제를 해결할 수 있습니다.

728x90
반응형
LIST