[리뷰] NVIDIA GTC Fall Keynote with Jenson Huang (AI 위주)
9 min readSep 24, 2022
NVIDIA는 2022년 9월 19~22일까지 GTC 2022 Fall 행사를 개최하였다. 이번 Jenson Huang의 keynote는 NVIDIA의 최신 AI, Metaverse, Robotics, Game 기술을 소개하였다.
최근 채굴 수요가 끝나 엔비디아 주가는 나락으로 가고 있으나, 신사업 동력인 AI, Metaverse, Robotics를 착실히 준비하는 모습을 보여주었다.
전통적으로 GTC Fall 행사는 GTC Spring 행사에 비해 SW/HW 발표 섹션이 작은 수준이다. 금번 GTC 2022 Fall의 가장 큰 소식이라면 새로운 Ada Lovelace 아키텍처와 이를 기반한 Geforce RTX 40-series 발표였다.
다음은 Jenson Huang의 GTC 2022 Fall keynote에서 AI와 관련 부분위주로 요약한 것이다.
1.Ada Lovelace 아키텍처 & GeForce 40-series
Ada Lovelace의 딥러닝을 위한 specs
- 4th-Gen new tensor cores
- 1.4 peta FLOPS
- Hopper FP8 Transformer Engine
GeForce 40-series
GeForce RTX 4090
- $ 1599
- 22년 10월 12일 출시
GeForce RTX 4080
- $ 1199 (16GB G6X)
- $ 899 (12GB G6X)
2. NVIDIA AI
RAPIDS관련 업데이트
- Merlin, Morpheus, cuOpt, Clara, Triton & 그외 NVIDIA SDK의 기초
- 이제 윈도우 기반 파이썬 개발자들은 WSL을 통해 RAPIDS에 접근가능함
- ARM 서버기반 시스템 아키텍처를 지원
- Spark 3용 플러그인을 갖추고 Delta Lake 및 Apache Iceberg와 통합을 지원함
- AT&T는 RAPIDS 가속 Spark를 사용하여 광고 파이프라인 처리 시간을 단축 → 처리 속도를 4배 증가시켰고, 비용을 70% 절감함
- NVIDIA RAPIDS 가속 Spark는 이제 GCP Data Proc에 통합되었음
Tritron관련 업데이트
- GPU, x86 외 ARM CPU, AWS Inferentia, 모든 주요 프레임워크를 지원
- 인도의 제2 무선통신업체인 AirTel은 Triton을 사용하여 ASR 및 음성분석을 제공함
- MS는 실시간 문법 검사, Amazon은 실시간 맞춤법 검사에 Triton을 사용
- On-demand로 모델을 자동 로드하여 GPU 및 메모리 리소스를 효율적으로 할당하는 새로운 모델 오케스트레이션 동작을 수행함
- 신규기능으로 멀티 GPU 및 다중 노드 실행을 포함한 대규모 언어 모델을 지원함
DGL(Deep Graph Library) & Pytorch Gemetric관련 지원
- 그래프 데이터베이스는 그래프에 개체와 이들의 관계를 node와 edge로 저장함
- 사기 감지, 신약 개발, 공급망 최적화, 제품 추천, 접촉 추적, 소셜 미디어에서 패턴과 관계를 찾는 것이 중요함
- 금융 서비스, 소매, 헬스케어 및 제조 부문의 업체들은 그래프 데이터베이스에 데이터를 저장하고 있음
- 딥러닝을 통해 거대한 규모의 패턴과 관계를 학습하고, 해당 데이터베이스에서 예측 모델을 학습할 수 있음
- NVIDIA는 이를 위해 DGL과 Pytorch Geometric 두 가지를 가속화함
CV-CUDA Opensource Project
- Imaging 및 CV를 위한 GPU 가속 라이브러리
- CV-CUDA는 다른 라이브러리와 딥러징 프레임워크에 효율적으로 통합할 수 있도록 Zero-copy 인터페이스를 갖는 높은 성능의 CV 커널 셋을 제공
- 10배 이상의 E2E 프로세싱 throughput을 가속할 수 있음
- Early Access 버전 available
QODA
- Hybrid 양자 가속 컴퓨팅을 위한 플랫폼으로 양자 프로세서에 구애받지 않는 개방형 플랫폼임
- 양자 가속 컴퓨팅용 프로그래밍 모델을 연구자들에게 제공함
- cuQuantum으로 DGX에서 실행되는 QODA는 양자 가속 컴퓨터를 완전히 에뮬레이션함
JAX 지원
- JAX는 ML 연구를 위한 매우 인기가 많은 라이브러리가 됨
- NLU, RL, 신약 개발, 뉴럴 렌더링 및 물리 시뮬레이션을 아우르는 300개 이상의 라이브러리로 이루어진 에코시스템을 갖추고 있음
- DeepMind는 AlphaFold를 JAX로 제작함
- NVIDIA는 Google Research과 DeepMind와 협력하여 22년 4분기에 출시될 주요 제품에 JAX를 최적화시킬 계획임
- JAX 컨테이너용 NVIDIA AI는 멀티 GPU 및 다중 노드 scaling, 모든 CSP 플랫폼에 최적화, Hopper의 FP8 transformer 엔진을 지원함
3.Large Language Models
Nemo LLM service
- Nemo는 prompt learning 프레임워크로 작은 예시 세트를 통해 prompt 인코더를 학습하고 prompt 임베딩만 업데이트됨
- Prompt learning이 진행되는 동안, pre-trained LLM 파라미터가 고정되어 언어 모델을 각 작업에 맞게 미세 조정하는 비용과 시간이 크게 줄어듬
- NVIDIA는 Customer가 제공하는 example로 task를 수행하도록 LLM을 학습시키는 클라우드 서비스인 Nemo LLM service를 제공할 예정 (early access 버전은 10월에 coming soon)
- Megatron 530B Cloud API를 생성하기 위해 NeMo를 사용함
- 530B는 DGX SuperPod에서 실행되는 NVIDIA 관리형 서비스로 사용자의 애플리케이션에 연결할 수 있음
- 이미 몇가지 prompt-tuned 기능을 제공함: Summarization, Paraphrasing, Story generation
BioNeMo
- Transformer와 LLM은 디지털 생물학 혁신의 핵심으로 생물학과 화학에 관한 언어를 읽고 쓰는 법을 배울 수 있음
- MegaMolBART는 화학에 관한 언어를, ESM-1과 ProtT5는 단백질에 관한 언어를 학습했음
- 단백질과 화학 물질의 조합은 그 규모가 상상할 수 없을 만큼 큼
- LLM은 신약 개발이라는 무한한 세계를 탐색할 수 있는 새로운 도구를 제공함
- NVIDIA는 연구자와 개발자들이 화학 물질과 단백질, DNA 및 RNA 서열을 이해하는 LLM을 만들 수 있도록 하는 디지털 생물학 프레임워크인 BioNemo LLM 서비스를 발표함
- 이 서비스에는 Pre-trained ESM-1, Prot5, MegaMolBART가 포함됨
- BioNemo의 결과물은 새로운 단백질과 화학 물질을 생성하거나 구조, 기능, 반응 특성을 예측하는 것같은 downstream 작업에 사용될 수 있음
- Early access 버전은 10월에 coming soon
- BioNeMo는 TERRA 클라우드에서도 사용할 수 있음
4.Hopper & Grace Hopper
추천 시스템의 요구사항
- 추천 시스템은 LLM에 비해 fast memory 용량이 수십배 더 많이 필요함
- LLM과 추천시스템의 크기는 기하급수적으로 증가할 것이고 시간이 지날수록 더 많은 계산이 필요함
- 특히 추천 시스템은 더 많은 fast memory 용량이 필요함
Grace-Hopper의 추천시스템 지원
- HGX with 8 H100 시스템의 경우, 640GB GPU 메모리만을 제공함
- HGX with 8 Grace Hoppers은 Hopper HGX에서 동일한 tensor-throughput를 제공하면서 7배 이상 더 많은 메모리 용량을 제공함
- Grace-Hopper Superchip 1대는 580GB의 빠른 메모리를 제공
- (Grace CPU에서 500GB, Hopper GPU에서 80GB)
- Grace CPU와 Hopper GPU는 매우 빠른 C2C Nvlink로 연결됨
- 120 노드의 Grace Hopper 시스템으로 70TB SOTA 추천 시스템을 처리가능함
Grace CPU
- 72개의 ARM Neoverse V2 Core가 3.2 TB/s(bisectional BW)의 Scalable Coherency Fabric으로 연결되어 있음
- 117MB L3 cache 포함
- Grace CPU의 LPDDR5X는 BW 측면에서 DDR5보다 1.5x 빠르고, 더 중요한 사실은 전력을 1/8만 소모함
- Grace CPU는 Hopper GPU와 C2C NVLink로 연결되어 있어 Hopper GPU는 Grace CPU의 large memory에 고속으로 접근 가능함
NVIDIA의 ARM 제품군
- NVIDIA는 HPC, AI, Omniverse 플랫폼에 Grace & Grace Hopper를 도입할 예정
- 2023 상반기 출시
레퍼런스
[1] GTC 2022 Fall Keynote
[2] Keynote Wrap-Up: NVIDIA CEO Unveils Next-Gen RTX GPUs, AI Workflows in the Cloud