[리뷰] GTC2021 (April) Keynote (1)
이제부터 NVIDIA를 CPU 회사, 그리고 Super Computer 업체로 불러야 한다….
2021년 4/12~4/16일(미국시간) 동안 진행되었던 젠슨 황의 GTC2021 April Keynote의 주요 내용을 정리하였다. 이번 GTC2021 April에 여러가지 새로운 발표가 있었지만 그중에서 아래 주제위주로 2회에 걸쳐 리뷰를 하고자 한다.
GTC2021 (April) Keynote (1)
- Grace CPU, DPU, GPU
- Cloud의 ARM기반 Processor
- Automotive SOC: Orin & Atlan (Orin Next)
GTC2021 (April) Keynote (2)
- AI Data-Center : DGX
- Enterprise를 위한 EGX system: NVIDIA-Certified System, Aerial, Morpheus
이번 GTC2021 April의 첫번째 감상….
젠슨 황은 여전히 가죽자켓을 입고 GTC2021 April Keynote에 등장하시였다.. 다만 예전과 다르게 머리가 긴 모습으로 나타나서 그런지 예전보다 늙어보는 것은 나만이 느낌인지 모르겠다. (이렇게 애처로운 눈빛을 가진 황 회장님이 한때 황구라라고 불리울 때가 있었다니…. 세상 일은 알 수 없다.)
1.Grace CPU, DPU, GPU
이번 GTC에서 가장 주목할만한 발표는 역시 Grace GPU의 공개였다. ARM 인수를 발표할 때부터 이미 예상은 하였지만 GTC2021에서 AI/HPC용 Grace CPU를 발표하였다. 이로서 NVIDIA는 CPU, DPU, GPU를 모두 갖춘 회사가 되었다.
GPU, DPU 그리고 올해 발표된 Grace CPU는 ARM의 차기 아키텍처인 Neoverse 아키텍처기반이며 NVIDIA의 데이터센터 로드맵의 핵심으로 각 아키텍처는 2년마다 새로운 아키텍처를 출시될 예정이다.
(1) Grace CPU (GPU의 Co-processor??)
NVIDIA는 미해군 최초의 여성 제독이자 프로그래밍 언어 ‘코볼’의 개발을 주도했던 컴퓨터 과학자인 Grace Hopper의 이름을 따 Grace CPU로 명명하였다. (마음에 드는 이름이다..)
NVIDIA는 그동안 x86 CPU-GPU 링크의 속도와 GPU-GPU의 속도의 불균형으로 성능 향상에 제약을 받아왔다. GPU-GPU는 nvlink를 사용하여 고속통신이 가능했지만 x86 CPU-GPU는 느린 PCIe를 사용하였기 때문에 CPU Memory- GPU Memory간 데이터 이동이 연산 bottleneck으로 작용하였다. 또한 x86은 메모리 채널 증가에 제약이 있어 메모리 대역폭을 크게 증가시킬 수 없다.
따라서 x86 CPU-GPU 환경에서 현재 AI framework는 AI Pipeline 중에 data pre-processing과 input feeding, GPU scheduling을 제외한 가능한한 모둔 AI 연산은 GPU에서 실행한다.
Grace CPU는 이러한 문제를 해결하기 위해 CPU-GPU간 연결에 nvlink를 이용하여 대역폭을 10배이상 증가시키고 CPU Memory(LPDDRX)에 Multi-CPU 구성을 통해 Memory 채널을 늘려 CPU Memory 대역폭을 크게 증가시킨다.
위의 그림에서 Grace CPU가 GPU의 Co-processor로 보이는 것은 느낌적인 느낌이라고 할까.. 물론 ‘23년을 기다려봐야 하지만 CPU와 GPU가 tightly-coupled 되면서 NVIDIA는 GPU기반의 heterogeneous computing을 구현하게 될 것으로 보인다.
예를들어 MS의 DeepSpeed ZeRO-Offload는 AI 학습시 Optimizer States와 Activation을 CPU Memory로 migration 시켜서 Optimizer의 연산을 CPU에서 실행하는 반면, Weight/Gradient는 GPU Memory에 저장하면서 Forward/Backward 연산을 GPU에서 실행하되, Optimizer States와 Activation으로 채워지던 GPU Memory 공간을 Weight/Gradient에 할당할 수 있다. 따라서 DeepSpeed를 이용하면 AI 학습 시 더 큰 크기의 모델과 입력 Batch 크기를 늘릴 수 있기 때문에 Single GPU에 돌리기 힘든 더 큰 모델을 돌릴 수 있고(최대 10x 더 큰 모델), 늘어난 Batch 크기만큼 GPU 사용률도 더 높아져 더 큰 모델을 더 적은 GPU로 실행시킬 수 있으며 학습 시간도 단축할 수 있다.
MS DeepSpeed ZeRO-Offload의 성능는 CPU Memory의 대역폭이 낮고 CPU에서 Optimizer가 실행될 때 주로 element-wise 연산과 같이 memory-intensive 연산이 많아 CPU Memory의 대역폭이 bottleneck이 된다. 만일 CPU Memory의 대역폭을 대폭 늘릴 수 있다면 MS DeepSpeed ZeRO-Offload의 성능 bottleneck 문제를 해결할 수 있다. GPU는 CPU를 Co-processor로 사용하여 성능을 향상시킬 수 있다.
Grace CPU의 또 하나의 장점은 바로 CPU에 근접한 LPDDRX를 GPU에서 적극적으로 사용할 수 있게 되어 좀더 저렴한 비용으로 전체적인 Memory Capacity가 증가하는 하는 효과를 거둘 수 있다는 점이다. A100 GPU의 경우, 40GB 또는 80GB HBM2 Memory를 탑재하여 HBM2 Memory는 LPDDRX에 비해 훨씬 비싸므로 Memory Capacity를 증가시키려면 비용 budget이 크게 늘어날 수 밖에 없다. 만일 CPU Memory의 대역폭과 CPU-GPU간 nvlink의 대역폭이 크게 증가하면 GPU가 자체 HBM2 뿐만이 아니라 CPU의 LPDDRX를 GPU Memory처럼 사용할 수 있어 GPU의 메모리를 HBM2를 사용하는 것보다 HBM2+LPDDRX 조합이 비용면에서 동일한 Capacity를 기준으로 했을 때 Memory의 비용을 크게 낮출수 있을 것으로 예상된다.
마지막으로 x86이 아닌 ARM CPU를 사용함으로써 ARM CPU Core를 추가하여 성능을 손쉽게 Scale-out할 수 있다는 것과 저전력 측면에서 훨씬 유리하다.
Grace CPU는 x86과 직접 경쟁하기 보다는 AI 연구자들을 위한 DGX 시스템이나 Automotive SOC인 Atlan에 최초 적용 예정이며 Swiss National Supercomputing Center와 Los Alamos National Laboratory의 Super Computer에 적용 예정이다.
(2) DPU
GTC2021에서 BlueField-3 (‘22년 출시)와 BlueField-2 Flash를 발표하였습니다. BlueField-3는 16x Cortex-A78 core를 탑재하여 BlueField-2 (8x Cortex-A72 Core)에비해 2배이상의 연산 성능을 달성하였다. DPU는 기존 CPU에서 실행되는 스토리지, 네트워크, 보안 서비스를 DPU로 오프로딩하여 CPU의 부하를 경감시킨다. 또한 ‘24년에 출시 예정인 BlueField-4는 BlueField-3보다 무려 67배 증가한 성능을 제공한다고 하니 BlueField-4에는 GPU 아키텍처와 ‘23년 출시예정인 Grace CPU가 모두 통합된 구조가 예상된다.
(3) GPU (A10, A30)
작년 GTC2020 (April)에서 A100을 발표한지 1년 만에 새로운 Enterprise용 GPU A10과 A30를 발표하였다. A10과 A30은 고성능과 저전력을 목표로 하며 AI 추론, 그래픽, 기존 Enterprise 컴퓨팅 워크로드에 적합하다. A10과 A30의 용도는 다음과 같으며 A10 또는 A30을 탑재한 NVIDIA Certified System의 인증을 받은 서버는 올해 말 출시 예정이라고 한다. (황금색의 GPU 카드라니 구매욕구가 생기지 않은가… 하지만 반도체 shortage로 돈이 있어서 살 수 없을 것 같다…)
- A10 GPU: 딥러닝 추론, Interactive Rendering, CAD, Cloud Gaming과 같이 AI와 Graph이 Mixed된 환경에 적합
- A30 GPU: 광범위한 AI 추론, 추천 시스템, 대화형 AI와 컴퓨터 비전과 같은 메인스트림 Enterprise Compute 워크로드에 적합함
2.Cloud의 ARM기반 Processor
HPC/Cloud/Server 시장에서 ARM Processor는 항상 dark-horse로 여겨져왔지만 Mobile/Embedded 시장에서의 눈부신 성과와 달리 미미한 성장을 거듭해왔다. NVIDIA가 ARM을 인수한 후 GTC2021에서 ARM기반 Processor 업체와 파트너십을 통해 ARM Processor와 NVIDIA의 GPU를 결합하여 HPC/Cloud/Server 시장을 공략하는 전략을 발표하였다.
- Amazon과의 협력: AWS Graviton2 CPU와 NVIDIA GPU를 묶어 ARM기반 안드로이드 게임 스트리밍과 AI 추론을 21년 하반기 출시할 예정이다.
- Ampere Computing과의 협력: Ampere의 ARM 아키텍처기반 Altra CPU과 협력하여 ARM Native Cloud 시장에 진출한다. Ampere Altra는 Modern Cloud의 요구사항인 Predictability&Performance, Scalability, Power Efficiency를 만족하기 위해 설계된 세계 최초의 Cloud Native Processor이다. 가장 먼저 Ampere Alta와 T4 GPU를 결합하여 ARM Native Cloud로 서비스하는 Infortainment & IOT, VMI, App Development, Cloud Gaming 시장에 진출한다. 또한 Cloud HPC & Scientific Computer Market을 겨냥하여 Ampere CPU x1와 A100 x2, BlueField-2 x2가 포함된 NVIDIA ARM HPC Developer kit을 제공한다.
3.Automotive SOC (Orin & Atlan)
NVIDIA는 ‘18년 Parker를 시작으로 Automotive SOC를 2년마다 출시하고 있다. ‘22년 출시 예정인 차기 Automotive SOC Orin은 이전 Xavier보다 7배이상 성능이 향상되고 ‘24년 출시 예정인 Atlan은 무려 1000 TOPS의 성능을 제공하여 L5 Robottaxi에 필요한 총 연산량보다 더 높은 성능을 제공할 예정이다.
- Orin: L2~L5 자율주행시스템의 연산량에 따라 Dual Orin 또는 Quad Orin이 사용될 예정이다.
- Atlan (Orin Next): 이번 GTC에서 Atlan은 “data center infrastructure on a chip”로 부를만큼 Grace-Next CPU, Ampere-Next GPU, DPU 총 3개 chip에 DLA가 모두 통합된 SOC로 1000 TOPS를 제공하여 자율주행을 위해 Atlan 한 개만으로 구성이 가능하게 될 것으로 예상된다.
Reference
- https://nvidianews.nvidia.com/news/nvidia-sets-ai-inference-records-introduces-a30-and-a10-gpus-for-enterprise-servers
- https://www.nvidia.com/en-us/data-center/a100/
- https://www.nextplatform.com/2021/04/15/nvidia-rounds-out-ampere-lineup-with-two-new-accelerators/
- GTC2021 Session: Drive AGX Hardware Update with NVIDIA Orin [SE3071]
- https://images.nvidia.com/gtc/keynote/gtc21-jensen-huang-keynote.pdf