728x90
반응형
SMALL
NVIDIA가 AI 시대를 얼마나 잘 준비했는지 짐작되는 기술... GPU 간, CPU-GPU 간 빠르게 통신할 수 있는 NVLINK 4.0 (feat. CXL, PAM4)
GPU는 CPU에 비해 병렬 연산에 특화되어있다고 하죠. 그런데 그러한 GPU 수만개가 병렬로 되어있는데 ChatGPT 같은 LLM을 돌리기 위해선 GPU 끼리의 통신 속도도 충분해야 병목이 되지 않고 빠르게 돌릴 수 있습니다. 기존 PCI Express (PCIe) Gen5 보다도 7배나 높은 900GB/s의 속도를 보여주는, NVIDIA의 자체 칩 간 통신 규격 NVLINK에는 일반적으로 사용되는 NRZ와 같은 방식을 쓰지 않고 PAM4라는 기술로 초당 보낼 수 있는 정보를 대폭 늘리고, 고속도로 차선 수를 늘린 것처럼 링크 수도 확대했는데요. AI 시대 NVIDIA가 얼마나 부지런히 준비했는지를 보여주는 대목입니다.
엔비디아의 h 100이 MV 링크라는
파격적인 규격을 채용을함으로써
엄청나게 주목을 받고 지금 돈을 많이
벌듯이 cxl 마찬가지로 그런 식으로
주목을 받을 수가 있다라는
거예요네 여러분 반갑습니다 안대 공학
에러입니다 엔비디아의 GPU 몇 만
개씩이나 사가는 빅테크 기업들 근데
이게 한 방에 어떻게 다 처리가 될
수 있을까 요런 거 궁금하지
않으십니까 그러니까 GPU 많이 사가
않는데 이런 것들이 어떻게 다 연기가
돼 가지고 그 엄청난 LM 채치 PT
같은 것들 제미나이 같은 것들 런
것들을 어떻게 돌 것이냐 요런게 또
하드웨어가 지원이 되어야 되는
거거든요 근데 이게 가능하도록
엔비디아가 만들었기 때문에 빅테크
기업들이 요거를 사갈 수밖에 없는
이유도 있거든요 그래서 오늘 그
이유를 설명드리려고 왔는데 바로 MV
링크와 관련된 얘기입니다 어떻게
보면은 엔비디아가 AI 데이터
센터라는 새로운 형태의 데이터 센터를
구축하는데 가장 큰 공신을 했다는
것이 바로 MV 링크라고 볼 수도
있는데요 요즘 핫한 cxl 같은 것도
다 이런 것들과 연관이 있는 거거든요
그래서 오늘이 MV 링크에 대해서
간략하게 설명드리도록 하겠습니다
실제로 보면 는 저 PCI J 5보다
일곱 배나 빠른 속도로 움직인다고
하면서 보여지는 거 보이시죠 그러면서
저렇게 스택으로 쌓아가면서 트레이드를
쌓고 저거를 또 MV 링크 스위치라는
걸로 해서 각각 연결을 해 가지고
케이블 카트리지에 따다다닥 꽂아
가지고 dgx gh 20000 저렇게
레그로 구성을 해 가지고 저거를 쫙
확장을 해서 만들면 하나의 데이터
센터가 구축이 되는 겁니다 슈퍼
파라고 부르죠 근데 저렇게 많이
했는데 어떻게 GPU 그리 서로
커뮤니케이션 하면서 할 것이냐라는
부분인데 이걸 알려면 기존의 컴퓨팅
방식을 우리가 이해를 해야 됩니다
입니다 원래 우리가 CPU GPU
있다 결국 얘네들이 각각 계산을 하는
애들이잖아요 CPU CPU 나름대로의
어떤 특화된 작업들 GPU GPU
작업들을 이렇게 하게 되는데
일반적으로 이런 CPU GPU은
각각이 자기가 쓰고자 하는 램이
있습니다 CPU 쓰는 시스템 메모리가
있고 GPU 쓰는 램이란게 있죠
그래서 어떻게 보면은 물론 뭐 애플
같은 경우에는 이제 공용으로
유니파이드 메모리라고 해서이 메모리를
gpus 가져가고 cpus 가져갈 수
있도록 서로 접근할 수 있도록 이렇게
설계를 했는데 기본적으로 원칙상으로는
CPU 할당돼 있는 램이 따로 있고
GP에 할당돼 있는 는 램이 따로
있습니다 그 그래서 만약에 CPU
GPU 이제 협업을 해서 같이
계산해야 될 수도 있잖아요 예를 들어
우리가 어떤 특정한 텍스트를 받아들일
때는 CPU 처리를 했다가 그
텍스트로 체체 피트로 막 이렇게 쳐
가지고 다시 추론할 때는 GPU 뭐
행렬 연산을 막 어마무시하게 해
가지고 그 값을 다시 메모리에 넣어
놨다가 그 값 다시 표 가져와서 그걸
다시 네트워크로 내보내고 이런
가정들을 잘 해야지 AI 데이터
센터가 잘 이제 운용을 하게 되는
거죠 그러니까 우리가 채치 피을 잘
쓰게 되는 거죠 근데 이게 각각의
메모리가 가지고 있다라고 하면은이
PCI 익스프레스는 버스를 이용해
가지고이 왔다 갔다 하게 되는데 가
썼던 램을 다시 이쪽 CPU 옮기고
또 옮긴 거를 다시 또 CPU 썼다가
다시 옮기고 이러 과정을 막 반복을
하게 된다는 거죠 그것뿐만 아니라
여러 곳에 램을 왔다 갔다 해야 되는
필요성뿐만 아니라이 PCI
익스프레스고 하는 요러한 특정한 버스
요러한 속도의 제한이 걸려 가지고이
많은 양을이 속도 제한이 밴드위스
제한에 따라서 많은 양을 한 번에
보내지 못할 수도 있다는 거
되겠습니다 그래서 엔비디아가 새롭게
자기들의 독자 규격으로 만든 MV
링크라는 것이 뭐냐 지금 보시는게 저
GPU window 저 하나하나가
코어라고 보시면 되고 저 GPU
있는데 다른 다른 GP 커뮤니케이션을
하고 싶은 거예요 그럼 기존에는 이제
PCI 익스프레스를 이용해 가지고 저
밴드위스만큼 제가 보낼 수 있는 어떤
특정한 용량만큼만 보낼 수 있었는데
GPU GPU끼리 다이렉트로 저렇게
통신할 수 있도록 MV 링크라는
규격을 만들었다는 것이 되습니다
그러니까 기존의 PCI 익스프레스에서
사용하는 그러한 것들을 이용하지 않고
피지컬리 그리고 신호처리으로도 새로운
기술들을 도입했거나 보니까 MV 링크
GPU 그리 빠르게 통신을 할 수
있으니까 PCI 익스프레스 다 훨씬
더 더 많은 데이터를 한 번에 내보낼
수 있다라는 것이 되겠어요 그래서
지금 보 보시면은 CPU 있고 GPU
있어서 요렇게 GPU 그리 서로
연관을 지으려고 하면은 특별하 이게
스위치가 있어 가지고 CPU 이렇게
연결이 될 수 있겠죠 이렇게
하이라키컬 하게 연결이 될 수 있어서
커뮤니케이션 하게 되는데 요거를
만약에 스위치를 바깥으로 두고이
사이사이를 CPU이 서로 통신할 수
있게끔 MV 링크가 구성을 할 수
있게 되면은 얘들끼리 빨리빨리
처리해서 CPU 그리 통신할 수 있는
것만 처리할 수 있다 즉 GPU
어마무시하게 많다 하더라도 GPU
그리 서로 통신하면서 묶어서 처리할
수 있는 것이 되겠죠 현재이 4세대에
접어든 MV 링크 같은 경우에는 최대
초당 900gb 전송이 됩니다 이게
PCI J 5의 일곱 배거 지금 가장
최근에 나온 SSD 아고 하더라도
PCI Z 4 혹은 J 5로 나오게
되는데 그런 것들 속도보다도 일곱
배가 넘는 대역폭을 가지고 있다는게
되겠습니다 그래서 GPU CPU MV
링크를 통해서 직접적으로 통하는 요란
MV 링크도 있고 GPU끼리 얘네들
그리 이렇게 서로 통하면서 밴드
위치를 넓혀 가지고 많은 데이터를
서로 통신하면서 처리할 수 있도록
이렇게 할 수 있는 것이 되겠죠요
밑에 있는게 하이밴드 위 그래픽
메모리 그래서 어마무시한 양의
데이터들이 왔다갔다 거잖아요 이미지를
생성하던 비디오를 생성하던 채치
피트를 하든 행렬 연산과 온갖
연산들을 많이 할 텐데 그러한 메모리
용량을 늘리는 것뿐만 아니라 매물만
늘리면 뭐 합니까 이게 또 왔다 갔다
빨리 해야 되지 않습니까 그래서
그거를 넓히기 위해서 MV 링크라는
독자 규격을 사용하였다 이렇게 이해를
하시면 되겠고요 그래서 2세대
300gb 3세대 600gb 4세대
900gb 아지 올리고 있는데이
기술을 어떻게 mbd가 구했느냐 사실
기술적으로 봤을 때는 물리적인 영향을
더 키운게 영향이 커요 여기 링크라고
돼 있죠 gpo 당 링크라 라는 거를
여섯 개 12 개 18개 그러니까 더
많은 고속도로를 배치해서 한 번에
보낼 수 있는 고속도로를 만들었다라는
돼요 그만큼 돈이 많이 들겠죠 근데
그렇게 돈이 많이든만큼 그만큼 더
비싸게 파니까 요렇게 한다고 보시면
되겠고요 볼트 아키텍처 암페어
아키텍처 호퍼 아키텍처 이거는 다
VB a00 h 100이라고 보시면
됩니다 그 GPU 구성에 맞게 맥시멈
레인 수를 더 많이 늘렸다고 보시면
돼요 그렇게 해서 훨씬 더 많은
컴퓨팅을 지원할 수 있게 얘기를
했다라고 보시면 될 거 같고요 그래서
지금 h00 4가는이 마이크로소프트나
메타 같은 곳에는이 18개 링크를
사용해 가지고 밴드 스를 넓힌 것이
되겠습니다 결국 돈을 많이 때려
넣었다고 보시면 돼요 독자적으로 만든
h 100이라는 GPU ES 독자적인
링크를 사용하니까 이렇게 지원을 하게
되는 것이 되겠고 그래서 h 백에서
이제 GPU 아고 GPU 그리
요렇게이 레인 수를 18개를 해서
서로 엄청나게 빠르게 통신할 수
있도록 하고 또이 토폴로지를 여러 개
이렇게 인터커넥트를 잘해 가지고
통신할 수 있도록 연결 한다라고
보시면 될 거 같고요 더욱 재밌는
것이이 칩 2칩 링크를 봤을 때는
원래이 두 개의 프로세서를 단일
패키지 안에 결합해 가지고 슈퍼칩
만드는 버전을 얘기를 하는 건데 요
대표적게 바로 이제 그레이스 하퍼
슈퍼칩 있죠 걔들 같은 경우에는
GPU CPU 결합을 한 구조가
되니까이 치투 칩 링크를 MV 링크
규를 통해서 훨씬 더 많은 데이터를
빠르게 전송할 수 있도록 그러니까
hpc 나 AI 작업에 제대로 대응할
수 있도록 만들었다고 보시면 될 거
같고요 이제이 컴퓨팅에 이제 레고
링크라고 부리는 요런 MV 링크 같은
경우에는 마치 레고 조각으로 이렇게
딱딱딱 꽂는 것처럼 엄청나게 많이
연결되 있는 GPU 연산을 하기
위해서 특히 이제 dgx 시스템 같은
것들이 그렇죠 모든 여덟 개의 GPU
있는 MV 링크의 MV 스위치 칩을
통해서 직접 이렇게 빠르게 소통할 수
있도록 로 스위칭을 해 준다는게
되겠습니다 아까 말씀드렸다시피 여섯
개 12개 18개로 이제 링크 수를
점차 늘려가면서이 속도를 물리적으로
고속도를 넓힌 거를 통해서 두 배
이상 빠르게 만들었거든요 근데
그것뿐만이 아니에요 이걸 링크
어그리게이션이라고 하는데이 링크를
점차 적적 쌓았다는 거죠 근데 거기에
더해서 GPU 포트가 더 몇 개가
있느냐고 네트워크 스위치가 얼마나
좋으냐에 따라서 또 증가를 한게 된
것이 되겠습니다 여기에 더해서 m
링크는 PCI 엑스프레스가 안 쓰는
새로운 신호처리 기술을 썼는데 그게
바로 지금 보시는 팜 4라고 하는
겁니다 팜 4 원래는 보통 이제 넌
리턴 to 0라고 해서 아날로그
신호를 디지털 신호로 바꿀 때 요렇게
아날로그로 돼 있는 파형을 디지털
신호로 바꿀 때 0 0 1 0 0 1
1 요렇게 보내죠라 레벨을 구성해서
나눠 가지고 특정 단위 시간 동안
0과 1을 하나씩만 보내도록 했는데
판포 같은 경우에는 이렇게 레벨을
같은 시간에 하나 둘 셋 넷네 가지
측위를 나타내는 펄스 앰플리튜드
모듈레이션 요러한 방식을 쓰다는
거예요 이렇게 되면은 같은 시간에
서로 다른 층위의 어떠한 아날로그
시너를 디지털 신너로 바꿈으로 돼서
더 많은 정보를 보내 수가 있겠죠
대신에 이러한 신호처리 빠르게 잘해
주기 위해서는이 신호의 인테그리티 잘
보장을 해 줘야 되는데 요러한
고속에서 MV 링크 규격을 잘 맞출
수 있는 것들로 설계를 했다라고
보시면 되겠습니다 제가 오늘
엔비디아의이 HB GPU이 여러 개
모였을 때 얘네들이 어떻게
커뮤니케이션을 해 하느냐를 굳이
설명드린 이유는 앞으로 AI
데이터센터가 어마무시하게 많이 지어질
거고 이와 관련된 기술들이 쏟아질
겁니다 왜냐면은 여기에 대한 니즈가
엄청나게 많은데 h 100만 중요한게
아니에요 HB도 많이 써야 되고
그리고 거기에 들어가는 또 CPU
있어야 될 거예요 CPU 들어간다
하면은 그 CPU GPU 소통을 할
수 있는 그런 규격도 있어야 되는데
그렇다 보니까 지금 다시 주목받는
게이 cxl 같은 거죠 엔비디아의
00이 MV 링크라는 파격적인 규격을
채원을함으로써 엄청나게 주목을 받고
지금 돈을 많이 벌듯이 cxl
마찬가지로 그런 식으로 주목을 받을
수가 있다라는 거예요 그래서
앞으로는이 단일칩 뿐만이 아니라 칩간
커뮤니케이션이라는 향고 데이터 규격
같은 거 요런 것들도 주요 기술들의
포인트가 될 거고 요것과 관련해서도
많은 시장이 만들어질 거고 우리가
사용하는 데이터 규격도 바뀌어질
것이기 때문에요 부분도 계속해서 팔로
하면서 소식 전해드리도록 하겠습니다
이렇게 엔비디아 젠슨의 배짱 장사는
다 이유가 있다라는 측면에서 기수
설명을 하고 있는
안공였습니다
728x90
반응형
LIST