[리뷰] NVIDIA GTC 2022 Spring Keynote with Jenson Huang

daewoo kim
20 min readMar 27, 2022

--

2022년에도 그는 어김없이 가죽 재킷을 입고 GTC 2022 spring keynote로 돌아왔다. 이번 GTC 2022년 spring keynote은 특히 Ampere Next GPU인 Hopper GPU를 새롭게 발표하는 행사라서 이전 행사보다 더 뜻깊은 행사였다.

0. GTC2022 Spring 감상평

  • H100 GPU는 A100 GPU 대비 FP16 성능이 3배가 증가하였으며, 새로운 precision 포맷인 FP8은 6배 증가한다. AI 가속기는 GPU보다 가격이 싼 이점이 있었는데 Tflops/$로 비교를 하면 어떻게 될까? GPU의 성능이 증가함에 따라 AI 가속기의 이점이 가격 경쟁력이 될 수 있을까
  • 드디어 NVLink로 Node-to-Node를 고속으로 연결할 수 있게 되었다. 그리고 Grace CPU와 Hopper GPU 또한 NVLink으로 연결하였다. Large Model 학습에 메모리가 많이 필요한데 향후 NVLink를 Pooled Memory에 연결하려 시도가 있을 수 있다.
  • H100 GPU는 FP8과 FP16를 동적으로 Mixed Precision을 지원하는 Transformer 엔진을 제공한다.
  • NVIDIA는 Omniverse Digital Twin을 Robotics 플랫폼과도 연결하였다. 현 시점에서 Metaverse를 제대로 구현하고 있는 회사는 NVIDIA가 유일하다라는 생각이다.

1. NVIDIA AI Suite of Libraries

예전 CUDA와 GPU만으로 구성되었던 NVIDIA GPU 스택은 4가지 세부 레이어로 구분될 정도로 방대해졌다.

  • Hardware:
  • System SW
  • Platform
  • Application Framework

NVIDIA AI

Data processing, ETL feature engineering to graph, classical ML, DL model training to large-scale inference 까지 전체 AI workflow를 지원하는 라이브러리 제품군이다.

가장 인기 있는 라이브러리는 DALI, RAPIDS, cuDNN, Triton, Magnum IO 등이며 이를 이용하여 pre-training 모델과 데이터 파이프라인을 포함하는 전문적인 AI framework를 만들 수 있다.

Triton관련 최신 업데이트 (Open-Source Hyperscale Inference Server)

  • GPU, x86, ARM CPU 외 AWS Inferentia와 같은 가속기를 지원하는 인터페이스를 제공한다.
  • CNN, RNN, Transformer, GNN, Decision Tree, Any framework 등 모든 모델을 지원한다.
  • Tensorflow, Pytorch, Python, ONNX, XGBoost을 지원하며, 실시간, 오프라인 배치 또는 스트리밍 오디오 및 비디오 등 모든 쿼리 유형을 지원한다.
  • AWS, Azure, Google, Alibaba, VMWare, Domino Data Lab, OctoML 등의 플랫폼을 지원한다.
  • Amazon Shopping은 Tritron을 통해 실시간 맞춤법 검사를 하고 있으며, MS는 번역기 서비스에 사용하고 있다.

Riva관련 최신 업데이트 (RIVA 2.0 SDK for Speech AI)

  • 딥러닝 기반 End-to-End 음성 AI으로 대화형 AI 서비스에 이상적이다.
  • Snap, RingCentral, Kore.ai 등 많은 기업에서 Riva를 사용하고 있다.
  • 릴리즈 2.0은 7개 언어의 음성 인식, 남성 및 여성 목소리를 사용한 신경 Text-to-Speech 변환, TAO Trasfer Learning Tool을 사용하여 custom tuning이 가능하다.

Maxine관련 최신 업데이트 (SDK for AI Video Conferencing)

  • 화상회의는 이미지와 소리를 인코딩하여 전송한 다음 디코딩한다.
  • 컴퓨터 비전은 이미지 인코딩을 대체하고 컴퓨터 그래픽은 이미지 디코딩을 대체한다. 음성 인식은 오디오 인코딩을 대체하고 음성 합성은 오디오 디코딩을 대체한다.
  • 30개의 모델이 있으며 GTC 릴리즈에서는 음향 반향 제거 및 초고해상도 오디오를 위한 새로운 모델이 추가되었다.

Merlin관련 최신 업데이트 (AI Framework for Hyperscale Recommender Systems)

  • GTC2022에서 1.0 릴리즈와 일반 출시를 발표하였다.
  • Snap은 Merlin을 사용하여 비용을 50% 절감, 서비스 제공 지연 시간을 2배로 줄이고 있다.
  • Tencent Wechat은 짧은 비디오 추천의 지연시간을 4배 줄이고, 처리량은 10배 증가시키고 있다. CPU에서 GPU로 전환하면서 비용을 절반으로 줄였다.

Nemo Megatron관련 최신 업데이트 (AI Framework for Training Large Language Models)

  • 최고의 성능을 얻기 위해 자동 data/tensor/pipeline parallelism, 오케스트레이션, 스케줄링, 자동 정밀도 조정을 수행하며 하이퍼 파라미터 튜닝을 자동으로 수행한다.
  • Nemo Megatron은 클라우드 기반이고, Azure를 지원하며 AWS도 곧 지원할 예정이다.

2. NVIDIA H100, Hopper and Grace

Ampere Next GPU인 H100 GPU은 다음과 같은 특징을 갖는다.

H100

  • 80 Billion transistor (4 nm TSMC)
  • 4.8 TB/s Bandwidth (HBM3)
  • PCI Gen5
  • 40 Tbits/s IO bandwidth
  • ‘22Q3 출시
  • NVIDIA는 H100의 성능 향상과 H100를 연결하는 고속 interconnect로 인해 AI training/inference throughput을 비약적으로 향상시켰다.

Hopper Architecture

(1) Performance

  • 이전 세대인 Ampere 아키텍처에 비해 3x 성능 향상을 이루어냈으며 특히 새로운 포맷인 FP8을 사용하였을 때 4000 TFlops를 달성하였다. (이는 Ampere의 FP16 성능보다 6x 증가한 수치이다.)
  • 공랭 및 수랭식으로 설계된 H100은 700W까지 성능을 scale-in하는 최초의 GPU이다.
  • FP8로 학습할 수 있는 기술을 제공한다.

(2) Transformer Engine

  • Hopper는 Transformer 엔진을 도입하였다. (Dynamic Mixed-Precision Processing). 이 Transformer 엔진은 FP8 및 FP16 수치 형식을 사용하는 SW와 새로운 Tensor Core를 결합하고 transformer 네트워크의 계층을 동적으로 처리한다.
  • Transformer 모델의 학습을 수 weeks에서 수 days로 줄일 수 있다.

(3) Multi-Instance GPU Isolation

  • H100은 최대 7개 인스턴스로 분할될 수 있다. Ampere에 비해 Hopper는 인스턴스별 격리와 인스턴스별 IO 가상화를 추가하여 클라우드에서 다중 tenancy를 지원한다.
  • H100은 클라우드 tenant를 7개까지 호스팅할 수 있는 방면, A100은 하나만 호스팅할 수 있다.
  • Tenant 1개는 클라우드 추론 GPU인 T4 GPU 2개와 동등하다.

(4) Hopper Confidential Computing

  • 각 Hopper 멀티 인스턴스는 신뢰할 수 있는 실행 환경을 통해 컨피덴셜한 컴퓨팅을 지원한다.
  • AI 모델은 전송 중에는 암호화가 되지만 사용 중에는 암호화가 되지 않는 경우가 있다. Hopper 아키텍처와 SW 의 조합인 Hopper 컨피덴셜 컴퓨티은 사용 중에 데이터와 애플리케이션을 모두 보호하여 이러한 간극을 해결한다.
  • Hopper는 최초의 GPU 컨피덴셜 컴퓨팅을 소개하였다. Hopper 컨피덴셜 컴퓨팅은 소유자의 AI 모델과 알고리즘의 기밀 및 무결성을 보호한다.

(5) DPX Instructions

  • 새로운 명령 세트인 DPX는 동적 프로그래밍 알고리즘을 가속화하도록 설계되었다.
  • 동적 프로그래밍은 복잡한 문제를 재귀적으로 해결되는 보다 간단한 하위문제로 분해하여 복잡도와 시간을 다항식 규모로 줄인다.
  • Hopper DPX 명령은 이러한 알고리즘의 속도를 최대 40x 높인다.

HGX H100 시스템

  • 8개의 H100 SXM 모듈은 HGX 시스템 보드의 NVLink 스위치 칩 4개로 연결된다. 4개의 초고속 NVSwitch 칩 각각은 In-network에서 3.6TFLOPS의 Sharp를 제공한다. (from Mellanox Quantum Infiniband switch)
  • Dual Gen5 CPU과 4개 400Gbps CONNECTX-7 IB 또는 400Gbps ENET 네트워킹 칩을 갖춘 2개의 네트워크 모듈로 구성된다.

DGX H100 시스템

  • 8개의 H100 GPUs는 32 PFLOPS (FP8기준)를 제공하며 640GB (HBM3 메모리)를 제공한다.

DGX POD with NVLink Swtich 시스템

  • DGX POD (with H100)은 1 EFLOPS (AI 성능), 20.5 TB (HBM 메모리), 192 TFLOPS SHARP In-Network Compute, GPU간 70TB/s Bisection Bandwidth를 제공한다.
  • 이제 NVLink를 통해 최대 32개의 DGX POD를 연결할 수 있다. DGX POD는 총 20.5 TB의 HBM2 메모리를 제공하고 총 768TB/s Memory BW를 제공한다.
  • 각 DGX는 쿼드 포트 광학 트랜시버를 통해 NVLink 스위치에 연결된다. 각 포트에는 100GB/s의 100G-PAM4 신호 전송을 위한 8개의 채널이 있다.
  • 32대의 NVLink 트랜시버가 하나의 랙유닛 NVLink 스위치 시스템에 연결된다.
  • 다수의 DGX POD은 Quantum-2 400Gbps Infiniband 스위칭 연결되어 수천개의 H100 GPU를 탑재한 DGX SuperPOD로 확장된다.
  • Quantum-2 스위치는 각각 400 gbps의 포트 64개를연결할 수 있다.

DGX SuperPOD (AI Factory)

  • NVIDIA가 구축하고 있는 EOS (최초의 Hopper AI Factory)는 세계 NO.1 슈퍼컴퓨터가 될 것으로 기대하고 있다. EOS는 현재 빌딩 중이며 몇 개월내로 가동될 것이다.
  • EOS는 과학계산에서 A100으로 구동되는 가장 빠른 과학 컴퓨터인 Summit보다 1.4x (FP64) 빠르며, AI 계산에서 세계 NO.1 Fugaku보다 4x(FP8기준) 빠르다.

H100 CNX

  • 기존 서버에서 데이터 이동은 CPU와 시스템 메모리에 과부하를 주며 PCIe 에서 병목 현상이 일어난다. 이를 위한 솔루션은 GPU와 네트워크를 직접 연결하는 것이다.
  • H100 CNX는 Hopper의 초고속 컴퓨팅을 메인스트림 서버로 가져오기 위해 H100과 ConnectX-7을 단일 모듈로 통합한 디바이스이다.
  • 네트워크의 데이터는 초당 50GB/s로 H100에 직접 DMA 되며 CPU와 시스템 메모리, PCIe의 멀티패스에서 병목 현상을 방지한다.
  • H100 CNX는 bandwidth 병목 현상을 방지하는 한편, CPU 및 시스템 메모리를 확보해 애플리케이션의 다른 부분을 처리할 수 있다.

Grace CPU

  • Grace Hopper는 CPU와 GPU를 직접 Chip-to-Chip으로 연결한 단일 슈퍼칩 모듈이다.
  • Grace Hopper의 핵심 기술은 Memory coherent chip-to-chip nvlink 상호 연결이며 900GB/s의 속도를 제공한다.
  • Grace CPU Superchip은 NVLink 칩을 통해 일관되게 연결된 2개의 CPU 칩으로 구성되며 CPU 코어는 144개이다.
  • Grace CPU superchip의 LPDDR5x는 1TB/s를 제공하며 1TB의 메모리를 포함한 Grace CPU superchip 전체 모듈이 500W에 불과하다.
  • AI, 데이터 분석, 과학 컴퓨팅, 하이퍼스케일 컴퓨팅에서 Grace는 놀라운 성능을 발휘할 것이다.
  • Grace-Hopper 및 Grace Superchip을 가능하게 하는 것은 에너지 효율이 높고 지연 시간이 짧은 고속 메모리 coherent NVlink chip-to-chip 링크이다. Die-to-Die, chip-to-chip, system-to-system으로 확장되는 NVlink를 통해 다양한 워크로드를 해결할 수 있도록 Grace 및 Hopper를 구성할 수 있다.
  • CPU, GPU, DPU, NIC, SOC 등 앞으로도의 NVIDIA 칩은 Grace-Hopper처럼 NVLink를 통해 통할될 것이다.
  • NVIDIA는 NVIDIA 플랫폼에 연결되는 맞춤형 칩을 구현하려는 고객과 파트너에게 NVLink 및 Serdes를 제공하고 있습니다.

3. Million X Speedups

Sionna

  • 6G 통신 연구를 위한 새로운 AI framework인 Sionna를 발표하였다.

Monai

  • Monai는 메디컬 이미징을 위한 오픈소스 AI 프레임워크이다. Monai 컨테이너는 2D 및 3D 모델용 AI 지원 라벨링, transfer learning 및 autoML 훈련이 포함되며 DICOM으로 쉽게 배포할 수 있다.
  • Monai는 세계 30대 대학 병원에서 사용되며, 25만회 이상 다운로드되었다.

FLARE

  • Federated Learning용 오픈소스 SDK로 연구원들은 모델은 공유하되 데이터는 공유하지 않아 협업 시 개인 정보를 보호할 수 있다.

4. Omniverse Digital Twins

Omniverse를 어떻게 사용할 것인가…?

  • Omniverse는 가상 세계의 시뮬레이션 엔진이며 공유 가능하며 디자이너, 시청자, AI, 로봇을 연결한다.
  • Omniverse를 이용한 바로 가능한 몇가지 사용 사례는 디자이너들간의 원격 협업, AI와 로봇이 학습하는 Sim2Real 헬스클럽, 산업용 디지털 트윈 등이 있다.

Omniverse 활용 예제

  • Omniverse Ramen Shop
  • Character Simulation
  • Amazon Robotics
  • Siemens Gamesa
  • BMW Group
  • PepsiCo
  • NVIDIA Drive Sim
  • KPF
  • NVIDIA Earth-2

NVIDIA OVX Omniverse

  • Omniverse Nucleus를 호스팅하는 사람과 연결된 RTX PC면 크리에이티브 협업에 충분하다. 하지만 산업용 디지털 트윈에는 새로운 유형의 전용 컴퓨터가 필요하다.
  • 디지털 트윈의 경우, Omniverse SW와 컴퓨터는 확장 가능하고 지연시간이 짧아야 하며 정확한 시간을 지원해야 한다.
  • AI용 DGX가 있는 것처럼 이제 Omniverse용 OVX가 있다.
  • 1st Gen NVIDIA OVX Omniverse 컴퓨터는 8개의 NVIDIA A40 RTX GPU, 3개의 CX6 200 Gbps NIC, Dual Intel Ice Lake CPU로 구성된다.
  • NVIDIA Spectrum-3 200 GB/s Switch Fabric은 32 OVX servers를 연결하여 OVX SuperPOD을 만든다.
  • OVX에서 Omniverse를 사용해 보려는 고객을 위해 전 서계에 NVIDIA LaunchPad가 있다. 1st Gen OVX는 NVIDIA와 고객사에서 실행되고 있으며 NVIDIA는 백본을 시작으로 2nd Gen OVX를 구축중이다.

Spectrum-4 400G Ethernet Switch

  • Spectrum-4는 모든 포트에 공정한 대역폭 분산, 적응형 라우팅, 혼잡 제어를 도입하여 전체 데이터센터 throughput을 최고로 높인다.
  • CX7, Bluefield-3 adapter, DOCA 데이터센터 인프라 소프트웨어를 탑재한 Spectrum-4는 세계최초의 400GB End-to-End 네트워킹 플랫폼이다.
  • Spectrun-4를 통해 클라우드와 엣지 데이터센터에서 Omniverse 디지털 트윈을 우한 새로운 클래스의 컴퓨터를 사용할 수 있다.
  • NVIDIA Spectrum-4는 22년 4분기 말에 샘플이 전달될 예정이다.

Omniverse 네트워크의 확장

  • Omniverse는 가상세계를 연결하는 네트워크들의 네트워크이다. 다양한 에코시스템이 Omniverse를 통해 연결되면 네크워크의 가치는 증대된다.
  • 작년 GTC 이후 8개에서 82개로 연결이 늘어났다.

Omniverse Kit

  • Omniverse Kit은 Omniverse 확장 프로그램, 앱, 마이크로서비스 빌드를 위한 제품이다. NVIDIA는 이번 GTC에서 산업 워크플로우를 Omniverse에 연결하는 26개의 제조 포맷 컨버터를 공개하였다.
  • DeepSearch: 자연어나 이미지를 사용하는 방대한 태그 미지정 3D 자산 라이브러리를 위한 AI 검색 엔진이다.
  • Replicator: AI 모델 학습 및 테스트를 위해 물리적으로 정확한 합성 데이터를 생성하는 프레임워크이다.
  • Omnigraph: 멀티 GPU 멀티 노드 컴퓨팅 엔진인 Omnigraph는 데이터센터 규모의 Omniverse 애플리케이션을 실행한다.
  • Avatar: 아바타 또는 디지털 휴먼을 구축하기 위한 프레임워크이다.

5. NVIDIA Robotic Platforms: DRIVE, Clara Holoscan, Issac

DRIVE

  • NVIDIA의 자율주행 자동차 시스템으로 본질적으로 AI 운전 기사이다.
  • OVX에서 실행되는 Omniverse의 Drive Sim은 디지털 트윈이다.
  • DRIVE AV는 차량의 Orin 컴퓨터에서 실행되는 자율주행 애플리케이션이다.

Hyperion 8

  • 자율주행 자동차의 하드웨어 아키텍처로, 전체 DRIVE 플랫폼의 기반이 된다.
  • 센서, 네트워크, 2대의 chauffer AV 컴퓨터, 1대의 concierge AI 컴퓨터, 미션 레코더, 안전 및 사이버 보안 시스템으로 구성된다.
  • 360도 카메라, 레이더, 라이다, 초음파 센서를 통해 완전한 자율주행을 실현할 수 있다.
  • 24년부터 Mercedes Benz 차량에, 25년도부터 Jaguar Land Rover에 탑재된다.

Hyperion 9 (‘26년 출시)

  • Hyperion 8에 비해 2배의 센서데이터를 처리하여 안전상을 높였으며, 카메라 14개, 레이더 9개, 라이다3개, 초음파 센서 20개를 갖추고 있다.

NVIDIA Drive Map

  • 멀티 모달 맵 엔진으로 카메라, 레이더, 라이다를 포함한다.
  • Drive Map에는 지상 실측 정보 측량 매핑 엔진과 크라우드 소싱 플릿 매핑 엔진이 있다.
  • ‘24년 말까지 50만 km에 이르는 북미, 서유럽, 아시아의 모든 주요 고속도로의 디지털 트윈을 매핑하고 생성할 것으로 예상한다. 이 맵은 수백만 대의 승용차에 의해 확장 및 업데이트된다.
  • 시나리오 시뮬레이션을 위해 개발 중인 두가지 방법은 각기 다른 방식으로 세계를 재구성한다.
  • 첫번째 방식은 NVIDIA Drive Map으로부터 시작한다. 맵이 Omniverse에 로드되면 건물, 식물 및 기타 도로변 객체가 생성된다. 이전 주행에서 동적 객체, 자동차, 보행자가 추론 및 위치 측정되어 디지털 트윈에 배치된다. 각 동적 객체는 애니메이션화하거나 AI 행동 모델을 할당할 수 있다. 도메인 무작위화를 적용하여 다양하고 타당성 있는 까다로운 시나리오를 생성할 수 있다.
  • 두번째 방식은 뉴럴 그래픽 AI와 Omniverse를 사용하여 사전 녹화된 주행 비디오를 재현 가능하고 수정할 수 있는 주행으로 변환한다. 3D로 장면을 재구성하는 것부터 시작한다. 동적 객체가 인식 및 제거되고 배경이 복원된다. 장면 재구성 후에는 기존 차량의 동작을 변경하거나 현실적으로 동작하는 완전히 제어 가능한 차량을 교통량에 추가할 수 있다. 사전 녹화된 장면은 이제 재현 가능하며, closed-loop 시뮬레이션 및 테스트에 사용할 수 있다.

Drive Orin 컴퓨터

  • BYD가 ‘23년 상반기부터 생산되는 차량에 Drive Orin을 탑재한다.

Clara HoloScan

  • 확장 가능한 개방형 로보틱스 플랫폼으로 IEC-62304 의료 등급 사양과 최고의 기기 안전 및 보안 수준에 맞춰 설계되었다.
  • 코어 컴퓨터는 Orin과 CX7이며, GPU는 옵션이며 의료 등급 지원 버전은 ‘23년 1분기에 제공된다.

Isaac

  • 움직이는 사물을 위한 플랫폼이다.
  • 이번 GTC2022에서 AMR(Autonomous Mobile Robot)용 Issac을 발표하였다.
  • AMR용 Issac은 DRIVE 플랫폼처럼 각각 개별적으로 사용 가능하고 완전히 개방된 4개의 핵심요소가 있다. 지상 실측 정보 생성을 위한 새로운 NVIDIA DeepMap, 모델 학습을 위한 NVIDIA AI, Orin으로 구동되는 레퍼런스 AMR 로봇, Isasc 로봇 스택의 새로운 gem, Omniverse의 새로운 Isaac SIM이 그것이다.

Metropolis

  • 움직이는 사물을 추적하는 고정식 로봇이다.

Metropolis를 활용하는 Pepsi의 예: 신제품과 프로세스가 도입되면 Omniverse Replicator와 NVDIA TAO를 사용하여 사실적인 합성 데이터를 생성하여 실시간 AI 모델을 다시 학습할 수 있다. 이러한 업데이트된 모델 및 최적화는 물리적 세계로 전송된다. 여기에서 NVIDIA Metropolis 애플리케이션은 AI 지원 컴퓨터 비전을 사용해 실시간으로 컨베이어 벨트의 속도를 모니터링하고 조정하여 컨베이어 벨트 전체의 혼잡과 중단을 방지하는데 도움을 준다. NVIDIA Fleet Command를 통해 이 모든 애플리케이션을 하나의 중앙 평면에서 수백 개의 물류 센터에 안전하게 배포하고 관리할 수 있다. 이와 같이 Omniverse, Metropolis,Fleet Command로 공급망 운영을 간소화하여 에너지 사용량과 낭비를 줄인다.

Omniverse Cloud

  • NVIDIA는 Omniverse가 수백만의 디자이너, 크리에이터, 로보틱스 전문가, AI 연구원 모두에게 다가가길 원한다.
  • Omniverse Cloud를 이용하면 단 몇번의 클릭으로 각 협업자들을 연결할 수 있다.

--

--

daewoo kim
daewoo kim

Written by daewoo kim

AI developer & Author | Working@semiconductor-industry. I write and share about what I learn.

No responses yet