본문 바로가기

카테고리 없음

[속보] 구글 새로운 인공지능 Gemini 기습 공개! [ChatGPT 뛰어넘는 아이언맨 자비스 현실판?]

728x90
반응형
SMALL

[속보] 구글 새로운 인공지능 Gemini 기습 공개! ChatGPT 뛰어넘는 아이언맨 자비스 현실판?

 

안녕하세요! 지식 100°C입니다. 오늘은 '구글에서 새로 공개한 ChatGPT를 뛰어넘는 인공지능 Gemini'에 대해서 이야기를 나누어 보았습니다. 지식과 관련하여 궁금한 것이 있으시면 언제든지 댓글로 남겨주세요. 저희가 여러분의 호기심을 해결해 드리겠습니다. 구독, 좋아요, 그리고 알림 설정은 채널을 운영하는 데 큰 힘이 됩니다. 감사합니다!

 

 

그래서 저는 시간을 낭비하지 않을 것입니다. 이 비디오는 Google Gemini에 대해 알아야 할 모든 것과 우리가 먼저 보게 될 내용을 요약한 것입니다.
0:06
물론 Google이 동영상 후반부에 공개한 예고편입니다. 물론 다소 놀랍고 절대적으로 벤치마크가 있을 것입니다.
0:13
Gemini에 대해 알아야 할 모든 것 우리가 처음부터 AI에 관심을 갖게 된 이유 중 하나를 알고 계십니까?
0:19
우리는 항상 우리의 사명을 시대를 초월한 사명으로 여겼습니다.
0:24
세계의 정보를 보편적으로 접근하고 유용하게 만들지만,
0:30
정보의 규모와 복잡성이 커졌습니다. 문제가 더욱 어려워지고 있기 때문에 우리는 항상 우리가
0:37
발전하려면 더 깊은 돌파구가 필요했습니다. 나는 평생 AI 분야에 종사해 왔습니다.
0:44
왜냐하면 나는 항상 그것이 가장 유익하고 결과적일 것이라고 느꼈기 때문입니다.
0:49
Technology For Humanity 우리 사회의 인간은 오감을 갖고
0:55
우리가 만든 세상과 우리가 소비하는 미디어는 어, 전혀 다른 양상을 띠고 있어서 정말 자랑스럽고
1:01
진정한 범용 AI 모델인 Gemini 접근 방식을 향한 첫 단계인 Gemini 시대의 시작을 발표하게 되어 기쁩니다.
1:08
다중 양식은 당신이 원하는 모든 종류의 일입니다. 어 인공 지능 시스템이 할 수 있고
1:14
이는 전통적으로 다중 모드 모델이 구현되기 전에는 컴퓨터에 실제로 존재하지 않았던 기능입니다.
1:21
텍스트만 연결하여 생성됨 비전 전용 모델과 오디오 전용 모델
1:27
보조 상태에서 최적이 아닌 방법 Gemini는 처음부터 다중 모드입니다.
1:33
여러 양식에 걸쳐 원활하게 대화하고 최상의 결과를 제공할 수 있습니다.
1:38
가능한 응답 Gemini는 우리의 가장 크고 가장 유능한 모델입니다. 이는 Gemini가 주변 세계를 이해할 수 있다는 것을 의미합니다.
1:46
우리가 하는 방식으로 어 그리고 모든 유형의 입력과 출력을 흡수합니다.
1:51
대부분의 모델과 마찬가지로 텍스트도 있지만 오디오 이미지와 비디오도 코드화할 수 있다는 점이 놀랍습니다.
1:57
Gemini에 관해서는 훈련이 끝날 무렵부터 많은 일을 너무 잘한다는 것입니다. 어 우리는 보기 시작했습니다
2:04
예를 들어 각각의 매우 중요한 벤치마크에서 Gemini는 다른 어떤 모델보다 우수했습니다.
2:10
우리가 테스트한 50가지 다양한 주제 영역은 음, 해당 영역의 최고의 전문가만큼 훌륭합니다.
2:17
기초적인 수준에서 기술을 연구하면서 동시에 우리 모두에게 영향을 미칠 수 있는 경우는 거의 없습니다.
2:24
우리는 모바일 장치 액세스부터 데이터 센터까지 모든 분야에서 실행할 수 있는 모델 제품군을 만들었습니다.
2:31
실제로 동급 최고입니다. Gemini는 세 가지 크기로 제공됩니다. Gemini Ultra는 가장 성능이 뛰어나고 가장 큰 모델입니다.
2:38
매우 복잡한 작업의 경우 Gemini Pro는 광범위한 작업에 가장 적합한 모델이고 Gemini Nano는 가장 성능이 좋은 모델입니다.
2:44
온디바이스 테스트를 위한 효율적인 모델을 제공하고자 합니다.
2:49
빌딩 블록을 구축한 다음 우리는 음 개발자와 기업 고객이
2:55
Gemini I 기본 모델을 더욱 개선할 수 있는 정말 창의적인 방법을 찾아낼 것이며 그 잠재력은 다음과 같습니다.
3:02
거의 무한에 가깝기 때문에 Google에서는 불가능과 가능성을 건전하게 무시합니다.
3:08
이는 우리가 이러한 시스템을 통해 함께 대담하고 책임감 있게 행동하도록 지향했습니다.
3:13
더욱 유능해지면 이러한 모든 능력은 또한 우리가 무엇을 의미하는지 생각해야 하는 새로운 질문을 제기합니다.
3:20
예를 들어 이미지가 그 자체로 무해하거나 텍스트가
3:26
그 자체로는 무해하지만 그 결합은 공격적이거나 해로울 수 있습니다.
3:32
처음에는 Google Deep Mind에서 Gemini를 통해 이러한 일을 해왔습니다. 우리는 사전 예방적인 정책을 개발하고 이에 적응합니다.
3:39
그런 다음 해당 정책에 대해 엄격한 테스트를 수행합니다.
3:45
분류자 및 필터와 같은 접근 방식으로 식별한 피해를 방지하려면
3:50
지난 10년 동안 AI의 근본적인 혁신을 살펴보세요. Google은 그 중 많은 부분에서 선두에 있었습니다.
3:56
제미니는 그 풍부한 전통이 일종의 엄청난 기념비적 존재였다고 계속 생각합니다.
4:03
지금까지 해오던 엔지니어링 작업은 매우 어려웠지만 매우 흥미로웠습니다. 저는 꽤 오랫동안 Google에 근무해 왔습니다.
4:10
제가 여기 있는 이유는 정말로 회사의 사명을 믿기 때문이고 제미니는 그 사명에 있어서 큰 진전이라고 생각합니다
4:16
전반적인 임무를 통해 우리는 결국 더 많은 지식을 갖고 사람들이 정보에 더 많이 접근할 수 있는 세상을 만들게 됩니다.
4:22
그렇지 않으면 AI를 사용할 수 없게 되므로 AI를 모든 사람에게 도움이 되도록 만들 수 있는 기회가 생겨서 기쁩니다.
4:30
에서
4:42
이제 여러분이 보게 될 것은 Google의 다중 모드 기능 중 하나입니다.
4:47
이전에 Google이 이야기한 내용은 Gemini가 주로 다중 모드 분야에 집중하는 방식에 관한 것이었습니다.
4:54
여러분이 곧 시청하실 이 예는 Google이 얼마나 발전했는지를 명확하게 보여줍니다.
5:01
Gemini의 진정한 다중 모드 기능
5:17
IDE입니다. 이제 Gemini 테스트를 시작하겠습니다.
5:23
자, 무엇이 보이는지 말해주세요. 탁자 위에 종이 한 장을 올려놓는 모습이 보입니다.
5:30
구불구불한 선이 보입니다. 이제 등고선은 매끄럽고 날카롭지 않게 흐르고 있습니다.
5:37
각도나 들쭉날쭉한 가장자리가 나에게는 새처럼 보이는데 흠 뭐
5:43
내가 이것을 가지고 있다면 새는 물 속에서 헤엄치고 있는 것입니다. 목은 길고 부리는 오리입니다.
5:50
예, 오리는 가족 inat Day에서 물의 일종입니다. 오리는 거위와 백조와 밀접한 관련이 있습니다.
5:57
파란색인 것으로 보입니다. 이는 오리에게 일반적인 색상은 아니지만 일반적으로 파란색인 일부 품종의 파란색 오리가 있습니다.
6:04
다른 오리 품종만큼 흔하지는 않습니다. 오리는 갈색, 검은색 또는 흰색을 띠는 것이 더 일반적입니다. 내가 무슨 소리를 하는 것인지 확실합니까?
6:13
방금 블루덕에 대해 얘기했는데 지금 당신이 블루덕을 들고 있는 건 나보다 블루덕이 더 흔한 것 같군요
6:18
이게 떠있을 거라고 생각했는데 어떤 재료로 만들어졌는지는 모르겠지만 겉으로는 그럴 것 같아요
6:24
고무나 플라스틱일 수도 있겠지만, 삐걱거리는 소리가 난다면 어떨까요? 삐걱거리는 소리가 난다면 그건
6:30
확실히 뜰 거예요 H 좋아요 고무 오리예요 물보다 밀도가 낮은 재질로 만들어졌어요 가능해요
6:37
이것을 다른 언어로 말하는 방법을 가르쳐 주고 몇 가지 옵션도 주세요.
6:43
만다린어 1을 발음하세요 yy는 만다린어의 첫 번째 성조로 발음됩니다
6:51
단어의 뜻을 구별하는 데 꼭 필요한 성조가 4가지 있는데, 첫 번째 성조는 높은 음조입니다.
6:58
알았어 오리는 바다 한가운데에 있어. 근처에 오리를 위한 땅이 없어
7:03
휴식을 취하거나 음식을 찾기 위해 오리를 찾을 가능성이 거의 없습니다. 여기 오리는 자연스럽게 괜찮습니다.
7:09
보시는 것에서 게임 아이디어를 생각해 보세요. 그리고 이모티콘을 사용해 보세요. 이건 어때요?
7:15
우리는 나라 추측이라는 게임을 할 수 있어요. 그럼 한 번 해보죠.
7:20
이 나라는 캥거루 코알라와 그레이트 배리어 리프의 고향입니다. 아 그렇죠
7:26
쉬운 단서 두 번째, 이 나라는 축구를 사랑하고 축구 역사상 가장 많은 남자 월드컵에서 우승했습니다.
7:37
아 당신은 나에게 컵 아래에 있는 종이 공을 찾도록 하려고 한 것이었습니다. 나는 그것을 받아들입니다.
7:44
컵을 왼쪽으로 챌린지
7:52
좋아요 당신이 하는 일을 알아요 가위바위보를 하고 있어요 지금 손가락이 어떻게 보이나요
7:59
나비의 날개처럼 펼쳐져 있는데 뭐야 이 큰 귀와 개가 짖는 입
8:09
좋아요 동전은 오른쪽 손 아래에 있어야 합니다. 안녕하세요 동전이 오른쪽 손 아래에 있는지 모르겠어요
8:15
동전이 있는 것처럼 보이도록 약간의 손 기술을 사용하여 왼손
8:22
사라졌습니다 두 물체 모두 둥글고 평평했습니다. 둘 다 음식이거나 더 건강한 것입니다.
8:30
쿠키 시트러스보다 선택이 안정될 수 있고 안절부절 못함도 마찬가지입니다.
8:37
장난감은 둘 다 어린이와 성인 모두가 오랫동안 즐겨온 인기 있는 장난감의 예입니다.
8:44
몇 년이 지나면 이것으로 무엇을 만들 수 있을지 아이디어를 얻을 수 있을 것 같아요. 분홍색과 녹색 실이 보이네요. 용은 어떤가요?
8:51
과일이나 핑크색 하트가 있는 녹색 케이크는 어때요? 이 색깔은 어때요?
8:57
그리고 나에게 동물 몇 마리를 보여줄 수도 있겠네요. 이제 파란색과 분홍색 털실이 보이네요.
9:02
파란 귀를 가진 돼지나 문어, 핑크색 코를 가진 토끼에 대해서 우 그럴게요
9:09
Duck Go가 어느 방향으로 가야 하는지 명심하세요
9:14
왼쪽은 친구인 오리로 이어집니다. 오른쪽은 적인 곰으로 이어집니다. 친구를 사귀는 것보다 낫습니다.
9:21
적이므로 오리는 왼쪽으로 가야 합니다. 현명한 선택입니다. 이것은 게 사진입니다.
9:30
맞아 이게 맞는 순서야 아니 올바른 순서는 태양 지구야
9:39
Saturn의 설계에 따르면 어느 쪽이 더 빨리 갈 것인지 오른쪽에 있는 차가 더 빠를 것입니다.
9:48
오른쪽에 있는 것이 루프가 있어서 더 재미있어 보이는 공기 역학적입니다. 이 사람이 무슨 말을 하고 있을 것 같나요?
9:55
어때요 우후오 그거 정말 마음에 드네요
10:03
당신이 그림을 그리는 걸 보니
10:08
기타, 앰프를 추가했습니다. 이제 일렉트릭 기타입니다. 아주 시끄러운 음악을 만들 수 있습니다.
10:17
이제 드럼을 추가했으니 8s 머리카락은 어때요?
10:23
금속 알겠습니다. 그림에 야자수를 추가하셨군요. 해변으로 바꿔 보세요.
10:32
여기에서 연기하는 영화는 어떤 영화인가요? 매트릭스의 유명한 불렛타임 장면을 연기하는 것 같아요
10:39
오 좋아, 다음엔 무슨 일이 일어날 것 같아?
10:45
고양이가 벽으로 뛰어올라 착지할 거예요. 착지는 완벽할 거예요.
10:50
10 아 그리고 아쉽네요. 너무 멀리 있었던 것 같지만 그러지 마세요.
10:55
고양이는 타고난 운동선수라서 금방 다시 돌아올 테니 걱정하지 마세요. 알겠습니다. 하나 더 드릴께요.
11:03
제가 만든 그림을 설명하자면 쌍둥이자리의 간단한 선그림입니다 캡쳐를 잘하셨어요
11:10
쌍둥이자리의 아름다움 좋아요 그게 다예요 이제 끝난 것 같아요 이제 하나를 살펴볼 시간이에요
11:16
Gemini와 관련된 가장 중요한 사항은 물론 벤치마크입니다. 이제 여기에서 볼 수 있습니다.
11:22
이는 대규모 언어 모델의 다음 단계이지만 현재 GPT 4는
11:29
거의 모든 면에서 Gemini Ultra를 능가했습니다.
11:34
일반 기능 Gemini Ultra가 90%를 받은 MML U 및 GPT 4
11:41
추론 탭까지 아래로 스크롤하면 큰 벤치에서 볼 수 있듯이 86.4%를 받았습니다.
11:47
드롭에서 열심히 Gemini Ultra는 더 나은 결과를 얻었지만 미미할 수도 있지만 더 나은 결과를 얻었습니다.
11:53
이 카테고리에서 유일하게 그렇지 않은 카테고리는 87.8%를 달성한 지옥 같은 장식물이었습니다.
12:00
GSM 8K에서 볼 수 있는 수학 벤치마크와 코드 벤치마크를 보면 여전히 매우 존경할 만합니다.
12:07
Gemini Ultra는 94.4%를 받았고 GPT 4는 92%를 받았습니다.
12:12
대수학 기하학 사전 미적분학 및 기타 성취한 문제를 포함하는 어려운 문제를 포함하는 수학 작업
12:18
GPT 4의 52.9%와 비교하여 53.2%이며 인간 평가를 통한 코딩에서 달성되었습니다.
12:24
74.4%에 비해 gbt 4는 67%, Natural 2 코드에서는 74.9%를 달성했습니다.
12:31
GPT 4의 73.9%와 비교하면 전체 Gemini Ultra는 7년 만에 GPT 4를 능가합니다.
12:37
이 8가지 범주 중에서 지금 당장 사용할 수 있는 최고의 대규모 언어 모델이 됩니다.
12:43
AI 공간 이제 우리는 다중 모드 벤치마크를 갖게 되었으며 이는 Gemini와 GPT 4가 사용하는 다중 모드 벤치마크입니다.
12:49
정말 놀라운 점은 이 페이지의 모든 단일 벤치마크에 걸쳐 Gemini Ultra가 비교되었다는 것입니다.
12:55
GPT 4의 이전 기능을 능가했기 때문에 모든 이미지 벤치마크에서 Gemini가 59%를 달성했음을 알 수 있습니다.
13:02
77% 82% 및 90%이며 이 모든 범주에서 GPT 4를 능가합니다.
13:09
물론 gp4 이후로 이미지 분석도 가능한 최신 모델인 Vision 탑재 GPT 4 입니다.
13:15
비디오가 없습니다. 그들이 한 일은 Gemini Ultra를 깊은 광산인 Flamingo와 비교한 것입니다.
13:20
물론 동일한 모델인 심층 광산 점수 56에 비해 62.7%를 달성했습니다.
13:26
같은 회사가 이전에 상당한 개선을 보였으며 또한 매우 흥미로운 점은
13:32
우리는 오디오에서도 Gemini Pro가 눈을 뜨고 V2를 속삭이는 것을 능가하는 것을 보았습니다.
13:37
Google Gemini가 현재 진정한 최첨단 대형 언어 모델임을 보여주는 Whisper V3
13:43
다중 모드 AI 시스템 이제 추론과 측면에서 Gemini의 매우 인상적인 기능을 살펴보겠습니다.
13:50
여기에서 사용자에게 필요한 것이 무엇인지 진정으로 이해하려면 Gemini의 다중 모달 추론 기능 데모를 확인하세요.
13:57
사용자 의도 사용 도구를 이해하고 추론하며 맞춤형 사용자 생성
14:02
채팅 인터페이스 이상의 경험을 통해 생일 파티 테마에 대한 영감을 찾고 있다고 가정해 보겠습니다.
14:09
제 딸 제미니가 제가 도와드릴 수 있다고 하는데 그 딸이 어떤 사람인지 말해줄 수 있나요?
14:14
관심이 있어서 그 사람이 동물을 좋아한다고 확신하고 우리는 이 시점에서 대신 야외 활동을 하는 것을 생각하고 있습니다.
14:21
Gemini는 내가 아이디어를 탐구하는 데 도움이 되는 맞춤형 인터페이스를 만들고 많은 아이디어를 얻었습니다.
14:29
시각적으로 풍부합니다. 이제 상호작용이 가능합니다. 이 중 어느 것도 코딩되지 않았습니다. 모두 Gemini에 의해 생성되었습니다. Gemini
14:37
광범위한 결정부터 최종적으로 추론의 더 높은 해상도를 높이는 일련의 추론 단계를 사용합니다.
14:43
코드와 데이터에 먼저 접근하는 것은 UI가 필요한지 여부를 Gemini가 고려하는 것입니다.
14:49
텍스트 프롬프트 좋습니다. 알겠습니다. 많은 정보가 필요한 복잡한 요청입니다.
14:55
체계적으로 제시되기 위해 쌍둥이자리는 도움이 될 만큼 충분히 알고 있는지 이해하려고 노력합니다.
15:01
모호함 딸의 관심사가 무엇인지, 내가 원하는 파티가 무엇인지 알 수 없어서
15:07
우리가 야외 파티에 대해 생각하고 있고 내 딸이 동물을 좋아한다고 말했을 때 질문을 명확히 하기 위해 Gemini는 추론했습니다.
15:14
진행하기에 충분한 정보가 있었지만 어떤 종류의 동물과 어떤 종류의
15:20
이것은 중요하며 Gemini가 제품 요구 사항을 작성하는 중요한 단계는 다음 야외 파티 유형입니다.
15:27
문서 또는 PRD에는 경험이 갖게 될 기능 종류에 대한 계획이 포함되어 있습니다.
15:33
이제 이 PRD 지니를 기반으로 다양한 파티 테마의 활동과 음식 옵션을 보여줘야 합니다.
15:41
사용자의 여정에 가장 적합한 경험을 디자인하려고 하며 사용자가 다음 목록을 탐색하고 싶어할 것이라고 생각합니다.
15:47
옵션을 사용하지만 세부 사항을 자세히 조사하고 싶을 수도 있습니다. 이를 사용하여 목록을 디자인합니다.
15:52
이 디자인에서 앞서 본 세부 레이아웃은 인터페이스를 퇴비화하기 위해 Flutter 코드를 작성합니다.
15:59
위젯에서 필요한 기능을 작성하고 마침내 필요한 데이터를 생성하고 검색합니다.
16:05
경험을 렌더링하기 위해 다양한 콘텐츠와 이미지가 채워지는 것을 볼 수 있습니다.
16:11
섹션 아 농장 동물 인터페이스를 클릭하고 싶은 것
16:16
codat 도로에서 렌더링할 데이터를 재생성합니다. 아, 그녀가 컵케이크를 좋아한다는 걸 알아요. 이제 아무거나 클릭할 수 있어요.
16:23
인터페이스를 살펴보고 단계별로 말할 수 있는 추가 정보를 요청하세요.
16:28
이것을 굽는 방법에 대한 지침을 제공하고 이번에는 새로운 UI를 생성하기 시작합니다.
16:34
단계별 지침을 제공하는 데 가장 적합한 UI를 디자인합니다.
16:39
나에게 농장 동물 Ki를 보여주는 사람들에게 적합한 킥 토퍼
16:45
이 시점에서 Toppers는 시각적으로 풍부한 경험을 만들기로 다시 결정하고 갤러리를 생성합니다.
16:51
이미지는 상단의 드롭다운을 확인하고 도움이 될 것이라고 결정했습니다.
16:56
다양한 옵션을 보여줌으로써 탐색해 보세요. 양이 재미있을 것 같네요. 그 사람이 그걸 좋아한다는 걸 알고 있고, 이제 선택하는 데 도움이 되네요.
17:03
양 걷어차기 ERS 이거 정말 멋지네요. 재미있는 생일 파티가 될 것 같아요
17:09
Gemini가 무엇을 할 수 있는지 잠깐 보셨기를 바랍니다. 여기서 무엇이 가능한지 정말 기대됩니다.
17:14
Ai에서의 흥미로운 시간을 보내게 되어 기쁩니다. 이제 Gemini의 Ultra 다중 모드를 살펴보겠습니다.
17:21
부모로서 누군가의 숙제를 돕는 능력
17:26
자녀의 숙제를 도와야 합니다. 저는 확실히 여기에서 Gemini가 이 데모를 도울 수 있습니다.
17:32
우리는 간단한 인터페이스를 만들었으며 내부적으로 몇 가지 영리한 프롬프트를 통해 Gemini의 기능을 실제로 활용할 수 있습니다.
17:38
Gemini를 사용하여 물리학과 같은 주제를 학습할 수 있는 수학 추론 및 다중 모드 기능을 업로드할 수 있습니다.
17:46
워크시트에 손으로 쓴 답변 사진은 Gemini가 이러한 문제를 해결할 수 있을 뿐만 아니라 놀랍습니다.
17:52
부분적으로 답변을 읽고 무엇이 옳고 무엇이 그른지 이해하고 필요한 개념을 설명할 수 있습니다.
17:59
좀 더 명확하게 설명하여 Gemini는 문제 1과 3에서 몇 가지 실수를 식별했습니다.
18:04
여기서 세 가지를 살펴보겠습니다. Gemini는 다음을 식별합니다.
18:12
공식은 정확했지만 높이 계산에 실수가 있었습니다. Gemini에게 그 이유를 더 자세히 설명해 달라고 요청할 수 있습니다.
18:19
높이는 50m가 아니라
18:27
6 쌍둥이자리에게 설명을 부탁할 수 있어요
18:35
여기에서 Gemini가 문제 해결을 위한 단계별 세부 사항을 설명합니다.
18:41
Nuance 정보를 이해하고 복잡한 주제와 관련된 질문에 대답하는 Gemini의 능력 때문에 문제가 발생합니다.
18:49
배우려는 주제에 대한 맞춤형 설명을 제공할 수 있으며, 마지막으로 더 자세히 알고 싶다면
18:55
그냥 물어봐도 돼
19:01
Gemini는 여기서 실수를 바탕으로 개인화된 연습 문제를 제공할 것입니다. 저도 비슷한 문제가 있습니다
19:08
고양이의 속도와 라운드의 높이를 알아내야 합니다.
19:14
더블 아 예, 이제 Gemini가 과학 데이터에서 데이터를 찾고 추출하는 방법을 살펴보겠습니다.
19:21
연구 논문 과학자들이 직면하는 일반적인 문제는 과학 논문에서 추출한 데이터를 찾고 사용해야 한다는 것입니다.
19:27
과학자들은 핵심 정보를 찾기 위해 수천 개의 과학 논문을 검색해야 하기 때문에 이것이 어렵습니다.
19:33
손으로 추출하는 것은 매우 일반적인 작업 흐름이며 실제로 Google의 일부 과학자들에게는 시간이 많이 소요됩니다.
19:40
Deep Mind는 Gemini가 놀라운 이해력을 가지고 있기 때문에 Gemini를 사용하여 문제를 해결하는 바로 그 문제에 직면합니다.
19:45
과학 Taylor가 더 자세히 설명할 것이므로 우리는 2022년의 이 연구를 보고 있었습니다.
19:51
저자는 수만 개의 과학 논문과 유전학을 검토하여 데이터 세트를 만들었습니다.
19:57
관련 정보가 포함된 수백 개의 ERS 문서를 발견했습니다. 손으로 추출하여 테이블에 수집했습니다. 이와 같은 연구에는 많은 시간이 걸릴 수 있습니다.
20:04
지난 몇 년 동안의 새로운 내용으로 이 데이터 세트를 업데이트하는 데 시간이 많이 걸렸지만 이는 200,000개가 넘는 새로운 내용입니다.
20:11
2021년부터 이 도메인에 Open Access 논문이 추가되었으므로 이 작업을 수동으로 수행할 수 없습니다.
20:16
그래서 먼저 Gemini에게 도움을 요청했고 관련 과학 논문을 필터링해야 했고 방금 프롬프트를 작성했습니다.
20:23
Gemini가 할 수 있는 고급 추론 기능을 통해 무엇을 찾아야 할지 정확히 알려주는 것과 같습니다.
20:30
연구와 관련된 논문과 우리가 작성한 관련 논문과 관련이 없는 논문을 구별하기 위해
20:37
Gemini에게 논문을 읽고 핵심 데이터를 추출해 달라고 요청하는 유사한 프롬프트를 Gemini에게 추가하도록 요청할 수도 있습니다.
20:43
주석은 Gemini가 논문에서 우리가 대규모로 실행한 정보를 찾은 위치를 정확하게 보여주었습니다.
20:51
점심 시간에 지니는 우리를 위해 200,000개의 신문을 읽었고 그것을 250개로 필터링했습니다.
20:56
데이터를 추출했으므로 이제 이 데이터 세트의 새로 고쳐진 버전이 생겼지만 Gemini는
21:03
다중 모드는 텍스트의 정보에 대해 추론할 수 있을 뿐만 아니라 숫자에 대해서도 추론할 수 있으므로 보여드리겠습니다.
21:09
새로 고침 데이터 세트를 사용하면 정말 멋진 작업을 수행할 수 있습니다. 이제 Gemini에게 처음에 수행한 원래 연구의 그래프를 업데이트하도록 요청할 수 있습니다.
21:17
Gemini에게 이 그림의 스크린샷을 제공한 다음 이를 플롯하는 데 필요한 코드를 생성하도록 요청하고 이를 제공했습니다.
21:24
새로운 데이터 세트를 코딩하면 업데이트된 수치를 얻을 수 있습니다. 이제 이 수치를 볼 수 있습니다.
21:30
2023년까지의 데이터가 포함되어 있으므로 Taylor는 Gemini를 사용하여
21:35
관련 논문에 대한 대규모 문헌을 수집하고 해당 논문에서 주요 정보를 추출하고 수치를 업데이트합니다.
21:42
물론 이러한 기능은 생물학자나 과학자뿐만 아니라 어떤 분야로든 자연스럽게 확장되는 데 도움이 될 수 있습니다.
21:48
법률이나 금융과 같은 대규모 데이터 세트에 의존하는 도메인이 Gemini를 통해 가능하며 우리는
21:54
Gemini로 무엇을 만들 수 있을지 기대됩니다. 이제 Gemini의 세부 사항에 대해 알아보겠습니다.
22:01
본질적으로 실제 모델의 작동 방식과 일부 기능에 대해 자세히 설명하는 기술 보고서입니다.
22:07
실제 기능이므로 여기서 볼 수 있는 것은 사용자의 입력 이미지를 볼 수 있고 사용자는 기본적으로
22:13
휴대폰으로 사진을 찍고 물론 음성을 사용하여 Gemini와 대화하면 Gemini가 기본적으로 응답합니다.
22:20
이 사람이 여기서 하려는 것은 본질적으로 오믈렛을 만들려고 하는 것이므로 오믈렛 사진을 찍었습니다. 모델이 표시되는 것을 볼 수 있습니다.
22:25
그 사람은 계란을 깨서 그릇에 넣고 휘저은 다음 물론 그 사람이 가서 고맙다고 말합니다.
22:31
지시 사항 오믈렛 만들기 시작했어요 이제 준비된 것 같나요 거의 다 된 것 같으니 뒤집어 보세요
22:36
그런 다음 그 사람은 왜 준비되지 않았는지 묻고 계란이 아직 작동 중이기 때문에 준비되지 않았다고 대답합니다.
22:41
그런 다음 이제 어떡하지? 준비된 것 같으니 이제 불을 끄고 드시면 됩니다.
22:47
AI가 우리가 일상적으로 하는 일에 어떻게 내장되는지 확인할 수 있는 간단한 상호 작용을 통해 확실히
22:54
멀티모달 기능을 사용하면 많은 작업이 더 쉬워지므로 더 많은 응용 프로그램이 있다고 생각합니다.
23:00
주로 소프트웨어를 기반으로 하는 대규모 언어 모델보다
23:05
이미지 인식과 이를 결합하여 사용자에게 정말 좋은 경험을 제공할 수 있다는 것
23:11
제가 정말로 이해하고 싶었던 것은 Gemini의 컨텍스트 길이가 정확히 무엇인지 정확히 이해하고 싶었다는 것입니다.
23:17
여기에서 Google Gemini의 컨텍스트 길이는 물론 32 컨텍스트 길이이므로 Gemini를 알 수 있습니다.
23:23
모델은 매우 긴 데이터 시퀀스, 특히 32,000 768 토큰을 처리하도록 훈련되어 본질적으로 다음을 가능하게 합니다.
23:30
컨텍스트 길이가 긴 모델의 효율성을 합성 검색 테스트를 사용하여 테스트했습니다.
23:38
여기에는 긴 텍스트 문자열의 시작 부분에 키 값 쌍을 배치한 다음 모델이 다음을 수행할 수 있는지 확인하는 작업이 포함됩니다.
23:43
중간에 많은 텍스트가 있어도 키가 주어졌을 때 값을 정확하게 검색할 수 있다는 점 또한 놀랍습니다.
23:48
이는 이제 전체 컨텍스트 길이에 걸쳐 쿼리할 때 98% 정확도로 올바른 값을 표시했다는 것입니다.
23:55
시퀀스 위치가 증가한다는 것은 텍스트에 더 깊이 들어갈수록 모델이 감소한다는 것을 의미합니다.
24:02
전체 32k 토큰까지 텍스트 전체 길이에 걸쳐 컨텍스트 정보를 효과적으로 사용할 수 있습니다.
24:09
길이이므로 본질적으로 이 섹션에서는 처리 및 검색을 위한 모델의 고급 기능을 강조합니다.
24:14
모델에 비해 크게 개선된 매우 긴 텍스트의 정보
24:20
훨씬 더 짧은 텍스트만 처리할 수 있었습니다. 이제 여기에 추론 및 코드 생성에 대한 더 많은 내용이 있습니다.
24:26
이전에 GPT 4에서 본 것과 매우 유사해 보일 것이므로 매우 흥미롭습니다.
24:33
OPM 검색이라는 웹 앱을 만들고 기본적으로 우리는 당신이 만들 때마다 다섯 가지 지침을 받았습니다.
24:39
검색어는 동일한 검색어가 포함된 Google 검색으로 리디렉션되어야 하지만 그 앞에 oosome이라는 단어가 있어야 합니다.
24:45
Google 로고 대신 Google 검색과 시각적으로 유사하며 인터넷 반대자를 위한 사진이 있어야 하며 단일이어야 합니다.
24:50
HTML 파일 별도의 JS 또는 CSS 파일이 없습니다. 바닥글에 Google 검색을 통해 제공된다고 표시되어야 합니다. 그러면 당연히 볼 수 있습니다.
24:57
다음 슬라이드에서 이것이 바로 우리가 얻은 것입니다. 물론 이것은 기억에 남는 것입니다.
25:03
이것은 물론 검색 및 계획 기능을 포함하는 강력한 Alpha 코드 2에 의해 구동됩니다.
25:09
이 식물이 무엇인지 아시나요? 어떻게 하면 이 식물을 가장 잘 관리할 수 있나요? 라고 답하는 다양한 질문이 있습니다.
25:16
이 식물이 정확히 무엇인지, 그리고 지금 이 식물을 가장 잘 관리하는 방법에 대한 자세한 답변을 제공한다는 것을 알 수 있습니다.
25:22
어떤 식물이 무엇인지 정확히 식별할 수 있다는 점에서 매우 훌륭한 기능을 가지고 있습니다.
25:29
구체적인 내용은 수백만 가지의 다양한 지식과 결합되어 많은 사람들에게 도움이 될 것입니다.
25:35
식물을 사용하면 이 모델이 다양한 사용 사례에 얼마나 좋은지 정확히 알 수 있습니다.
25:41
이미지를 인터리브하고 생성을 확인하면 뉴욕 여행에 대한 블로그 게시물을 작성해 달라는 메시지가 표시됩니다.
25:47
개와 그의 주인은 다양한 랜드마크에서 행복하게 포즈를 취하는 개 사진 몇 장을 포함하여 많은 즐거움을 누렸습니다.
25:53
여기서 우리는 이것이 이미지를 생성하고 다음의 지시를 따를 수 있다는 것을 알 수 있습니다.
26:00
텍스트와 밀접하게 관련된 블로그 게시물을 생성하고 수준을 보여줍니다.
26:05
모든 이미지에서 개와의 일관성이 유지되므로 이와 같은 것이 정말 효과적이라고 생각합니다.
26:12
이는 다중 모드 기능을 결합하면 훨씬 더 놀라운 결과를 얻을 수 있다는 것을 다시 한 번 보여줍니다.
26:17
이전 언어 모델보다 우수하므로 일관성 측면에서 실제로 GPT 4에서는 이 작업을 수행할 수 없습니다.
26:24
이전에 본 것보다 한 단계 더 발전한 것은 물론 물체에 대한 정보를 찾는 데도 있습니다.
26:29
다중 모드 입력을 사용하여 퍼즐을 푸는 것을 볼 수 있으며 이러한 이미지의 개체를 인식하고
26:35
두 개체를 연결하는 공통성은 물론 차트를 이해하고 데이터에 대한 추론을 할 수 있습니다.
26:41
그리고 이건 사실 구글이 정말 잘했던 일이에요. 제가 어제 테스트 보드를 하고 완전한 튜토리얼을 만들었거든요.
26:47
bod를 사용하는 방법에 대해 설명하고 제가 테스트해 봤을 때 차트에서 데이터를 검색하는 데 실제로 정말 좋은 결과를 얻었습니다.
26:53
이를 해석하면 실제로 차트에서 눈에 띄는 데이터 포인트 포인트를 찾아내고 그 포인트가 무엇인지 알 수 있습니다.
26:59
그런 다음 표시된 모든 데이터에 대한 자세한 인하 테이블을 생성하면 여기에서 표시되는 것을 볼 수 있습니다.
27:06
이 표의 정확한 데이터를 보면 눈에 띄는 데이터 포인트가 미국 매립 플라스틱 폐기물이라고 나와 있습니다.
27:11
이는 73%이므로 이 제품은 확실히 고급 기능을 갖추고 있음을 보여줍니다.
27:18
다중 모드 차트를 이해한다면 물론 제가 가장 좋아하는 기능 중 하나가 있습니다.
27:23
비디오를 이해하면 사용자가 이 질문에 어떻게 하면 기술을 향상시킬 수 있는지 알 수 있습니다.
27:29
물론 제미니는 이 축구 선수가 발의 공 타격 메커니즘을 연마해야 한다고 말했습니다.
27:34
공과의 접촉이 제대로 이루어지지 않아 공이 위로 날아가서 골대에서 멀어지게 됩니다.
27:40
몸의 위치를 ​​잡는 데 힘쓰고 차지 않는 다리를 차는 다리 앞에 두고 샷을 향해 몸을 기울여서 따라야 합니다.
27:46
발을 차는 모습을 통해 Gemini는 실제로 완전히 다중 모드이며 이 비디오는 입력이고 이 출력은
27:52
그들이 준 것은 꽤 훌륭했기 때문에 축구를 해본 적이 있거나 영국에서 축구를 해본 적이 있다면
27:58
그들이 말하는 것이 꽤 사실이고 그들이 사용하는 기술이 실제로는 정확하지 않다는 것을 알고 있습니다.
28:03
어쨌든 Gemini를 사용하게 되어 정말 기쁩니다.
28:08
현재 이러한 비디오 기능이 얼마나 좋은지 정확히 알고 다음 단계를 살펴봐야 합니다.
28:14
Google Gemini는 분명히 이것은 시작일 뿐이므로 hbus는 Google을 말합니다.
28:19
Deep Mind는 이미 Gemini가 로봇 공학과 결합되어 세계와 물리적으로 상호 작용할 수 있는 방법을 조사하고 있습니다.
28:25
터치와 촉각 피드백을 포함하고 싶은 진정한 다중 모드가 되면 많은 가능성이 있다고 말합니다.
28:31
이러한 종류의 기반 유형 모델을 로봇 공학에 적용하고 있으며 이를 집중적으로 탐구하고 있으므로 미래처럼 보입니다.
28:38
휴머노 로보틱스나 어떤 종류의 로보틱스가 일종의 기반 모델과 결합될 예정입니다.
28:44
이러한 대규모 언어 모델 또는 AI 시스템이 새로운 방식으로 세계와 상호 작용할 수 있는 기능을 제공합니다.
28:51
이는 확실히 매우 흥미로운 일이 될 것입니다. 왜냐하면 이것은 우리가 다른 사람들에게 행해진 것을 본 적이 없기 때문입니다.
28:56
아직 수준이 높지 않은데다가 더 놀라운 점은 그들이 내년에 관해 이야기를 했다는 것입니다. 그래서 이것은 폭넓은 기사입니다.
29:03
설명에 링크를 남겨 두겠습니다. 기본적으로 기사에서는 AI 에이전트가 안정적으로 작동하도록 읽습니다.
29:08
이를 지원하는 알고리즘은 훨씬 더 똑똑해져야 합니다. 개방형 AI는 다음을 위해 설계된 dou qar 프로젝트를 진행하고 있습니다.
29:13
아마도 핵심 기술인 강화 학습을 사용하여 AI 모델의 조정 기능을 향상시킬 수 있습니다.
29:19
alpha go aabis는 그의 회사가 우리가 이야기했던 것과 유사한 라인을 따라 연구를 하고 있다고 말합니다 6
29:25
몇 달 전 Aabis는 실제로 검색 및 계획에 집중하고 있다고 밝혔습니다.
29:31
계속해서 이런 것들을 발명한 세계 최고의 강화 학습 전문가가 있다고 말합니다.
29:38
알파고 이후의 상태 발전은 향후 모델의 계획 및 추론을 개선하는 데 도움이 되기를 바랍니다.
29:44
오늘과 같이 그는 우리가 향후 버전에 적용하기 위해 노력하고 있는 몇 가지 흥미로운 혁신을 가지고 있다고 말했습니다.
29:49
그리고 당신은 내년에 많은 급속한 발전을 보게 될 것입니다. 이제 나는 정말로 이 진술을 세분화하고 싶습니다. 왜냐하면 당신은
29:56
그가 사용한 단어를 살펴보지 않으면 이러한 주요 진술 중 일부를 놓칠 수 있습니다. 그는 우리가 흥미롭다고 말했습니다.
30:02
혁신과 신속한 발전 이것이 두 가지 핵심입니다. 첫 번째는 혁신 부분입니다. 이제 혁신은
30:08
핵심 단어는 그가 우리가 이 모델을 더 좋게 만들 것이라고 말하지 않았기 때문입니다. 그가 말한 것은 우리가 이제 혁신을 할 것이라는 것입니다. 그것이 의미하는 바는 다음과 같습니다.
30:15
우리는 본질적으로 내년에 우리가 이전에 본 적이 없는 새로운 것을 보게 될 것입니다.
30:22
AI 분야의 누구에게나 정말 흥미로운 한 해입니다. 왜냐하면 우리는 다양한 모델과 새로운 것을 많이 보게 될 것이기 때문입니다.
30:27
이전에 본 적 없는 기술을 Alpha go와 이전 모델에서 수행한 작업을 기억해야 합니다.
30:32
Google Deep Mind의 기능을 진심으로 이해하고 있으며 빠른 발전이 있을 것이라고 말합니다.
30:38
내년에는 우리가 확실히 미친 상황에 처해 있음을 보여줍니다.

728x90
반응형
LIST