AICA X NVIDIA Cluster GPU 교육 시리즈
1. NVIDIA GPU 및 데이터센터 플랫폼 소개
홍광수 박사 (솔루션 아키텍트, NVIDIA))
NVIDIA x AICA Cluster GPU 활용 캠프 (2024/08/26 - 09/05)
•
NVIDIA GPU 기술의 동향과 발전과정 및 소구점을 알아본다.
•
NVIDIA GPU 가속 솔루션의 요점을 파악한다.
NVIDIA GPU 기술 동향
2016 GPU간 데이터 전송 병목 개선
•
NVLink의 등장 - DGX-1
•
PCIE 16GB/s 보다 더 빠른 전송을 위해 NVLINK 도입.
•
그 결과, Bandwidth를 2배씩 향상시키는데 성공함.
2018 더욱 빠른 연산: Tensor Core의 등장 - V100
•
CUDA Core → Tensor Core 가속화 도입.
•
딥러닝 워크로드에 특화된 가속화.
•
점점 더 많은 Data Type을 지원함.
2019 노드에서 클러스터로.
•
Infiniband의 GPU-Direct RDMA.
•
GPU간 통신 및 Node간 데이터 전송 병목 개선.
2022 CPU-GPU간 데이터 전송 병목 개선.
•
Grace Hopper Superchip
•
SuperChip 형태로 설계 (PCIE → GRACE)
2024 서버간 데이터 병목 개선 - Cluster를 하나의 노드로.
•
Grace Blackwell - GB200 + External NVLINK.
•
NVLINK의 넓은 Bandwidth를 이용해서 클러스트를 하나의 노드처럼 묶음.
•
기존의 서버단위에서 랙단위로 판매하기 시작함.
NVIDIA Product 목록:
•
네이밍:
◦
알파벳 - 아키텍처 (H : Hopper, L: Light, A: Amphere)
◦
숫자 - 연산량 (100 < 200 < …)
•
제품군:
◦
Train용도와 Inference 용도를 구분해서 설계됨.
◦
H100, H200, A100 - Train용도에 적합
◦
L40, A40, A10, A2 - Inference 용도에 적합.
◦
A16 - GPU 메모리가 16GB X 4개가 들어있는 특이한 Product. VDI Remote VGPU 기술용. (Multiuser)
폼팩터 (Form Factor):
•
PCIE, SXM (NVLink)로 나누어짐.
•
NVLink의 Bandwidth는 매우 파워풀함.
DGX H100 System Topology:
•
NVLink + Mick 카드로 구성됨.
•
서버간 더 빠른 커뮤니케이션 가능
•
IDMA이라는 기술을 활용함.
•
원래 원격으로 메모리를 읽고 쓰는 기술이었음.
•
시스템의 메모리를 직접 Access하는 것이 아니라 GPU의 메모리에 접근함.
Computing Resource (Tensor Core)
Hopper Architecture
•
작업을 분배하는 스케줄러 내장
TensorCore
•
Matrix 곱을 하나의 Instruction으로 처리함.
•
Tensor Core는 Transformer Architecture를 많이 가속화 시킬 수 있음.
•
Data Type의 Precision을 낮추면 가속화 여지가 더 많아짐.
Data Type의 Precision을 낮추는 이유:
Trade-off of Low Precisions:
•
장점:
1.
FLOPs를 더욱 증가시킬 수 있음.
2.
메모리 사용량과 Bandwidth workload를 감소시킬 수 있음.
•
단점:
◦
표현가능한 범위가 적음.
◦
작은 값에 대해서 overflow가 발생함.
Hopper 아키텍처:
•
이런 단점들을 해결할 수 있는 문제가 솔루션안에 녹아있음. (Mixed Precision Training)
Blackwell 아키텍처:
•
FP4까지 더욱 낮은 Precision을 지원함.
MIG: GPU를 더 쪼개보자.
하드웨어 인코딩 및 디코딩 기술
•
비디오 디코딩을 하드웨어에서 처리함.
•
비디오 스트리밍등의 속도 개선.
렌더링 가속화 기술: Ray Tracing
•
렌더링 속도: 얼마나 많은 Vertex를 연산할 수 있는가?
◦
예전에는 사실적 렌더링을 위해 몇일 ~ 몇주가 소요되었음.
•
Ray Tracing: 빛의 경로를 역추적하는 기술.
◦
현실 세계에서 사람이 보는 것을 사실적으로 표현함.
◦
Bounding Volume Hierarchy 알고리즘 도입
•
트리를 만든 후 빛의 경로를 추적함.
•
RT Core - 렌더링 시 BVH를 효과적으로 처리할 수 있는 워크로드.
◦
해당 기술은 L40등에 적용되어 있음. (H100에는 미적용)
NVIDIA AI Enterprise 라이선스
•
Urgent한 Issue가 생겼을때, 지원을 빠르게 받을 수 있음.
•
다양한 Software Stack들에 대해서 지원을 받을 수 있음.
•
하드웨어 기반 가속화 솔루션 개요.
Beyond GPU
•
클러스터 단위의 솔루션
◦
네트워킹, 전력 등을 추가로 고려해야 함.
•
매니지먼트 소프트웨어 역시 중요함.
◦
Backend.ai 등의 솔루션.
•
NVIDIA는 “Platform” 이라는 표현을 씀.
•
하나의 플랫폼은 GPU 뿐 아니라 NVLink, NIC등의 요소들을 포함.
Data Center의 비용 함수:
•
최적의 Data Center 구축을 위해서는 Workload의 Throughput과 Utilization을 높이는 기술이 필요함.