[리뷰] NVIDIA GTC 2021 Nov Keynote with Jensen Huang

daewoo kim
16 min readNov 13, 2021

--

이번 GTC 2021 Nov Keynote는 새로운 HW 제품의 발표는 없었지만 새로운 SW 플랫폼에 대한 소개가 주요한 테마였다. 특히 NVIDIA의 에코시스템에서Omniverse가 핵심적인 역할을 맡게 될 것이라는 암시하면서 Metaverse 산업에서도 key 플레이어로 활약할 것으로 예상된다.

1.Accelerated Computing

  • NVIDIA는 15년 이상 CUDA와 에코시스템을 발전시킴.
  • Full Stack을 최적화하는 동시에 가속화 대상인 새로운 애플리케이션 도메인을 추가하여 플랫폼의 범위를 확장하고 있음
  • NVIDIA는 Game과 Design부터 생명, 지구과학, 양자 컴퓨팅, AI, cybersecurity, 5G, 로보틱스까지 150개의 SDK를 제공함
  • 이번 GTC 2021 Nov에서 65개의 신규 및 업데이트된 SDK를 소개함. 그중 대표적인 새로운 SDK는 다음과 같음

NVIDIA REOPT(Re-Optimize Logistics and Supply Chain in Real-Time)

  • 배달 차량 경로 설정, 창고에서 물건 수령 및 포장과 같은 운영 연구 최적화 문제를 풀기 위한 Solver (물류 라우팅 최적화)
  • 최적화 계획을 수립할 수 있게 하여 이동시간과 이동거리가 절반으로 줄임

NVIDIA cuQUANTUM DGX Appliance

  • 양자 컴퓨팅 워크플로우를 위한 가속 라이브러리(cuQUANTUM) 제공
  • 가속 양자 시뮬레이터 — Google Cirq 에 사용됨
  • 내년도 1분기에 출시 예정

NVIDIA cuNUMERIC

  • Numpy를 위한 GPU 가속 data-center scale math 라이브러리
  • one GPU에서 multi-node clusters, super computer 까지 확장을 제공함

2.Next-Gen Networking, Cloud Computing & Cypersecurity

Quantum-2

  • 수천 개의 GPU를 연결하는 400Gbps Infiniband 플랫폼
  • Quantum-2 switch, ConnectX 7 NIC, BlueField-3 DPU로 구성됨
  • NVIDIA Selene DGX supercomput는 Quantum-2를 장착하여 total bandwidth 224,000 GB/s를 제공함

Quantum-2 Switch

  • New Infiniband switch chip
  • 64ports@400Gbps or 128 ports@200Gbps
  • Quantum-1은 800 ports를 제공. Quantum-2는 2048 ports를 제공함
  • Sampling Now

ConnectX-7 (CX-7)

  • 400G NDR Infiniband NIC
  • 이전 제품인 CX-6에 비해 2배 더 빠름
  • Sampling Jan. ‘22

BlueField-3 DPU

  • 16 ARM CPU to offload
  • Bluefield 에코시스템이 점차 확대되고 있으며 1400 개발자들이 참여하고 있음

NVIDIA MORPHEUS

  • NVIDIA Rapids & NVIDIA AI기반의 anomaly detection & cybersecurity 플랫폼

3.Accelerating Science by a Million-X

딥러닝을 어떻게 과학에 적용할 수 있을까?

  • Researcher들은 물리학을 학습하고 물리 법칙에 따라 예측하는 AI 모델을 만들고 있음
  • 물리 시뮬레이션을 개선하기 위한 기계 학습 적용은 크게 증가하고 있음
  • 단백질 구조를 해석을 위해 AI 모델로 엄청나게 가속 가능함
  • NVIDIA와 칼텍의 연구원들은 분자 시뮬레이션에서 비용이 높은 원자력 양자 계산을 대체할 GNN을 학습시키기 위해 물리학 ML 방법을 사용함 → 시뮬레이션 성능이 1000배 증가함

Modulus

  • Physics-ML Neural Simulation 개발을 위한 Framework
  • 지배 물리학(Governing Physics)과 시뮬레이션 및 관찰된 데이터를 사용하여 Physics-ML 모델 학습

Earth Digital Twin in Omniverse

  • 가속 컴퓨팅, Physics-ML 및 거대한 컴퓨터 시스템의 조합은 Million-X 도약을 줌
  • Researcher 들은 ECMWF의 ERA5 대기 데이터를 사용하여 Physics-ML 모델을 학습시킴
  • 이 Physics-ML 모델을 학습하는데 128개의 GPUS로 4시간이 걸림
  • 향후 7일에 대해 예측하는 것은 GPU에서 0.25초 밖에 걸리지 않음 → 시뮬레이션보다 10만배 더 빠름
  • 몇 년 안에 관측된 데이터가 Omniverse에서 실행되는 지구의 digital twin으로 스트리밍되어 Physics-ML 모델이 기후를 예측할 수 있게 될 것으로 기대함

4.Omniverse

  • Omniverse는 게임 엔진과는 매우 다르며 데이터 센터 규모로 설계됨
  • Omniverse의 관문은 USD(Universal Scene Description)이며 이는 인간과 컴퓨터를Omniverse와 연결하고, 여러 Ominiverse를 서로 연결하는 디지털 Warmhall임
  • Omniverse는 Adobe 세계에서 생성된 디자인 세계를 Autodesk 세계의 사람들과 연결시켜 디자이너들이 공유 공간에서 협업할 수 있도록 지원할 수 있음
  • 어떠한 세계의 디자이너가 변경한 사항은 3D 설계를 위한 클라우드 공유 문서처럼 연결되어 모든 디자이너에게 업데이트됨
  • 기업은 Omniverse에서 가상공장을 구축하고 가상 로봇을 운영할 수 있음
  • 물리적 버전과 디지털 버전은 twin으로 물리적 버전은 디지털 원본의 복제본임

New Omniverse Features

  • Omniverse Showroom: 그래픽, 물리, 물질, AI 등 핵심 Omniverse 기술을 보여주는 Demo 및 Sample App
  • Omniverse Farm: 여러 베어메탈 또는 가상화된 시스템, 워크스테이션, 서버에 걸쳐 batch 작업 처리를 지휘하는 시스템 레이어. Batch 렌더링, AI를 위한 종합 데이터 생성 또는 분산 컴퓨팅에 사용됨
  • Omniverse AR: 그래픽을 휴대폰이나 AR 안경으로 스트리밍
  • Ominverse VR: 풀프레임 인터랙티브 레이 tracinig VR

Omniverse 이용 기업

  • Bentley: Omniverse를 활용한 iTwin이 early access 단계임. 엔지니어링 회사의 90%가 Bentley를 사용하며 Bentley iTwin은 거의 200만명의 사용자를 보유 중
  • Siemens Energy: 부식을 정확하게 예측하여 정기적인 유지 보수 및 계획되지 않은 가동 중지 시간을 70% 감소시킬 수 있다고 추정함. HRSG 부식은 다중 물리학 문제임. NVIDIA는 Siemens와 함께 NVIDIA Modulus 물리 ML 프레임워크 및 Omniverse를 사용하여 디지털 트윈 플랫폼을 만듬.
  • BMW: BMW 엔지니어들은 Omniverse에 구축된 Issac Gym을 사용하여 로봇에게 새로운 기술을 학습시키고 있음. BMW는 초당 1대의 자동차를 생산하고 있는데 효율성을 최적화하기 위해선 복잡한 생산 시나리오의 시뮬레이션이 필요함
  • Ericsson: 5G 안테나와 라디오의 fleet의 구성과 작동을 지속적으로 최적화하기 위해 도시 전체의 디지털 twin을 구축하고 있음. 최고의 적용 범위와 네트워크 성능을 위해 각 사이트를 배치하고 구성하는 방법을 결정하는데 도움을 줄 수 있는 디지털 twin 환경을 NVIDIA Ominiverse를 사용하여 구축함. 이를 위해 Ericsson은 Omniverse에서 건물, 나무까지 물리적으로 정확한 도시규모 모델을 구축한 후 각 송신기의 정확한 위치, 높이 및 안테나 패턴을 포함하는 무선 네트워크 구성 요소를 추가함. 무선 전파데이터를 통합하고 Omniverse의 RTX 가속 레이트레이싱을 활용하여 도시의 모든 지점에서 신호품질을 빠르게 시각화하고 계산할 수 있음

Transforming Industries with AI

DGL(Deep Graph Library)

  • CNN는 공간 데이터를, RNN은 시퀀스를 학습함
  • 반면, GNN(Graph Neural Network)은 관계를 학습할 수 있음
  • DGL은 CUDA-X 기반의 GNN 구현을 위해 만들어진 파이썬 라이브러리 (12월 early access 시작 예정)
  • GNN은 financial services, drug discovery, digital biology, cybersecurity에 사용됨
  • Paypal: 공모 사기 감지(Collusion Fraud Detection)을 개선함
  • Amazon: Amazon Search 개선과 악용(abuse)&사기(fraudulent) 판매자 및 구매자를 줄임
  • Pinterest: 검색과 추천을 5억명의 사용자로 확장함

Nemo Megatron

  • 수억 달러규모의 시스템로 수 Trillion 크기의 Large Language Model (LLM) 모델을 수 개월동안 PB 규모의 데이터셋으로 학습하려면 확고한 신념, 깊은 전문 지식 및 최적화된 스택이 필요함
  • NVIDIA는 수 Billion ~ 수 Trillion 파라미터의 스피치와 언어 모델용 프레임워크인 Nemo Megatron을 구현함
  • GPT-3는 DGX SuperPOD (500-node. Selene)으로 11 일간 학습하였으며, MS와 함께 530B의 MT-NLG 모델을 6 주동안 학습함

Tritron

  • 듀얼 플랫티넘 CPU로 Megatron(530B)을 추론하는데 1분 이상이 걸리므로 기본적으로 사용할 수 없는 수준임
  • GPT-3는 350GB의 메모리, Megatron-Tuning NLG(530B)는 1TB 메모리 이상의 메모리가 필요함
  • 이를 지원하기 위해 NVIDIA는 세계최초의 분산 추론 엔진인 Tritron을 만듬. Tritron은 multi-GPU와 multi-Node에서 추론을 분산처리함
  • GPT-3는 Single Node(8-GPU)에서 Megatron(530B)은 2개의 DGX 시스템에서 분산처리할 수 있으며 추론 시간을 1분 이상에서 0.5초로 줄임

AI inference is Hard

  • 추론 시 뉴럴네트워크의 계산 강도가 높으며 데이터의 이동, pre-processing, post-processing 모두 성능에 영향을 미침
  • AI 애플리케이션은 응답시간, 배치 처리량, 연속 스트리밍 등 저마다 요구사항이 다름
  • TensorRT: Tensorflow와 Pytorch에 NVIDIA TensorRT 컴파일러가 통합됨. 1 line code 추가로 3배의 속도 향상을 얻을 수 있음
  • Tritron: Tritron은 GPU와 CPU에서 DL과 ML을 추론할 수 있음. Tritron 엔진 하나로 모든 추론 워크로드를 지원함

Metropolis AI Edge

  • 영상 처리 및 분석 플랫폼으로 스트리밍 비디오에서 3D 포즈를 감지, 추적, 계산, 추론하고 향후 전체 3D 화면을 재구성 가능함
  • 현재는 카메라를 지원하지만, UCF를 사용하면 lidar(라이더), depth sensors(깊이 센서), imaging radars(이미징 레이더), ultrasonics(초음파), infrared(적외선)을 지원하도록 쉽게 학장이 가능함
  • Metropolis는 Aerial CUDA PHY에 의해 가속된 타사 5G 무선을 통합할 수 있음

5. Omniverse Avatars for Intelligent Virtual Assistants

Maxine

  • Maxine은 가상 로봇 Avatar 플랫폼임
  • 라이브, 웹, Omniverse 등 광범위한 애플리케이션에서 사용 가능함
  • 화상회의, 게임 캐릭터를 애니메이팅, 로봇에 통합 가능함

Riva

  • 뉴럴 음성 AI
  • Riva는 기본적으로 영어를 구사하지만 7개 언어를 인식함: 영어, 스페인어, 독일어, 프랑스어, 일본어, 만다린, 러시아어
  • 자막을 달고, 번역하고, 요약하고, 질문에 답하고, 의도를 이해할 수 있음
  • 인간과 같은 표현력을 위해 음성의 높낮이, 지속 시간 및 에너지를 미세 조정할 수 있음

NVIDIA Omniverse Avatar for Project Maxine

  • RIVA는 텍스트를 해당 언어의 음성으로 변환함
  • Omniverse가 발화를 3D Face 애니메이션으로 변환함. 독일어, 프랑스어, 스페인어를 구사하는 Alex 아바타가 동시에 스트리밍됨
  • 어떤 Alex 아바타 버전을 선택하느냐에 따라 사용 언어가 달라짐
  • Maxine은 컴퓨터 비전을 사용하여 Alex의 얼굴을 추적하여 표정을 인식함

6. A Robotics Revolution with NVIDIA Orin

CLARA Holoscan

  • Holoscan은 NVIDIA의 3번째 로봇 플랫폼임
  • 스트리밍, 이미징, 다른 애플리케이션을 실행하기 위한 의료기기용 AI 컴퓨팅 플랫폼
  • Holoscan 플랫폼은 Orin + CX-7 + A6000 Ampere GPU로 구성됨
  • Orin는 12 ARM CPU, 5.2 TFLOPS (FP32), 250 TOPS (for AI), 센서를 연결하는 740 Gb/s의 고속 IO를 제공함
  • 선택적으로 A6000 Ampere GPU를 추가하여 39 TFLOPS(FP32)와 600 TOPS(for AI) 이상의 성능을 추가로 얻을 수 있음

ISAAC

로봇 시스템 구축에는 세가지 상호 연결된 작업 흐름이 존재함

  • 첫번째: 로봇의 AI 모델이 인식할 수 있도록 학습시킴. NVIDIA AI와 DGX를 사용함
  • 두번째: 시뮬레이터에서 로봇이 조작하거나 탐색하도록 학습시킴. 시뮬레이션에 RTX에서 실행되는 Omniverse의 Isaac Sim을 사용함. Isaac Sim Omniverse 시뮬레이션은 배포시 로봇의 digital twin 역할을 함
  • 세번째: 환경에서 로봇을 작동함. AGX에서 실행되는 Isaac은 인지, 로컬라이제이션, 매핑, 계획, 로봇 pipeline을 실시간으로 실행한다.

로봇들이 5G를 통해 연결되어 창고의 중앙 서버에서 조정된다면 EGX에서 Issac 스택을 작동함

  • Isaac은 ROS 에코시스템을 지원함
  • Isaac 런타임은 ROC 프레임워크의 노드가 될 수 있음
  • Isaac은 omniverse를 내장하며 센서를 모델링함
  • 로봇이 시뮬레이션에 있는지 실제 세계 안에 있는지 구분하지 못하게 하는 것이 목적임

Isaac Sim Replicator

  • 로봇 학습을 위한 합성 데이터를 생성하는 엔진임
  • 센서를 시뮬레이션하고 자동으로 레이블이 지정된 데이터를 생성하며, 도메인 랜덤화 엔진은 풍부하고 다양한 학습 데이터셋을 생성해냄

NVIDIA Drive

  • Full Stack & open AV platform
  • 자율주행 자동차는 로봇이며 ML 개발의 세가지 핵심요소가 동일하게 적용됨. 1) Train AI Model on DGX → 2) Drive Sim on Omniverse의 시뮬레이션 및 합성 데이터 생성 → 3)Orin 로보틱스 칩으로 Drive AV를 활용한 실시간 로보틱스 파이프라인

Hyperion 8 GA

  • Available today
  • 2x NVIDIA Drive ORIN 포함
  • 12개의 Camera, 9개의 Radar, 12개의 ultrasonic, 1개의 front lidar가 2개의 ORIN에 의해 처리됨

Drive Sim Replicator

  • 합성 데이터 생성은 NVIDIA 데이터 전략의 초석임
  • 자율주행 차량을 위한 합성 데이터 생성기: Omniverse에 구축되어 있음
  • NVIDIA는 센서 제조업체와 긴밀히 협력하여 센서를 정확하게 모델링함
  • Material은 정확한 빔 반사를 위해 물리적으로 시뮬레이션됨
  • NVIDIA는 lidar-matrials 라이브러리를 만들었으며, radar-materials 라이브러리를 만들고 있음
  • Hyperion 8이 구축되기 전에 AI 라벨링과 AI 모델을 부트스트랩함

DeepMap

  • NVIDIA는 몇 달전 자율주행을 위한 매핑 분야에서 세계최고의 전문 기업인 DeepMap 을 인수함
  • 매핑을 위해 Hyperion 8 sensors, 4D perception, DL기반 multi-sensor fusion, feature tracking, new planning engine을 운영함

8.시사점

이번 GTC 2021 Nov은 그동안 AI 중심으로 발전하던 NVIDIA의 에코시스템이 Metaverse를 위한 Ominverse 중심으로 발전을 알리는 최초의 GTC의 행사였다.

Ominverse Avatar와 같이 가상 세계와 실제 세계를 연결하고 가상 세계와 실제 세계의 Digital twin을 만든다는 개념은 많은 부분에서 응용이 가능할 것으로 기대된다.

Ominverse 기술을 이용하여 가상세계에서 데이터셋을 생성하여 실제 세계에서 운영하기 위한 AI 모델을 학습한다는 개념은 그동안 학습 데이터 부족 문제에 직면했던 AI 영역에 새로운 기회을 제공할 수 있을 것이다.

--

--

daewoo kim
daewoo kim

Written by daewoo kim

AI developer & Author | Working@semiconductor-industry. I write and share about what I learn.

No responses yet