[리뷰] GTC2021 (April) Keynote (2)
모두가 모바일에 집중했던 시기 10여년전 NVIDIA는 경쟁력을 잃고 모바일 시장에서 철수했던 것을 기억하는가? 그 NVIDIA는 현재 AI Super Computer의 대중화를 이끌고 있다. 격세지감을 느끼지 않을 수 없다…
1.AI 연구자들을 위한 DGX system
NVIDIA DGX 시스템은 AI 연구자를 위한 Data-Center 제품으로 NVIDIA는 직접 DGX 시스템을 설계하면서 서버제조업체에 레퍼런스 시스템을 제공할 수 있게 되며, E2C 제품을 통해 AI 연구자들의 피드백을 직접받을 수 있는 창구가 되고 있다.
DGX 제품은 이전까지 DGX-1, DGX-2, DGX-1 Workstation과 같은 제품명으로 사용하였으나, DGX-3가 아닌 DGX A100과 같이 DGX에 GPU 제품명을 붙이는 것으로 변경되었는데 NVIDIA의 작명 센스는 언제나 일관성이 없는 것으로 유명하다. (작명의 일관성이 없는 것으로 일관성이 있다고 하겠다.)
DGX 제품은 A100 GPU 기준으로 다음과 같은 포트폴리오로 구성되어 있다.
- DGX Station A100: “AI Data Center in a Box”. A100 GPU 4개와 Single AMD CPU로 구성. 일반 콘센트를 이용 가능하며 수냉식을 채택함
- DGX A100: “AI Data Center Building Block”. A100 GPU 8개와 Dual AMD CPU로 구성. AI Infrastructure의 Universal System으로 기본 SuperPOD 구축 시 기본 단위임
- SuperPOD: “AI Data Center As-a-Product”. 최대 140대 DGX A100 노드로 구성된AI SuperComputer. 이번 GTC2021에서는 80GB A100, 90TB의 HBM2 메모리, NVIDIA BlueField-2로 업그레이드된 버전의 SuperPOD를 발표했으며 DGX 관리 및 orchestration 툴인 Base Command를 발표함
- Selene: SuperPOD 4대로 구성된 NVIDIA 자체 AI SuperComputer. 세계 500 대 SuperComputer 중에 NO. 5의 성능이며 산업용 컴퓨터 중 가장 빠름
SuperPOD은 최대 140대의 1K GPU(1120대 A100) POD Cluster로 구성되어 있으며, 이 SuperPOD 4개를 연결하여 Selene Supercomputer을 만든다.
2.Enterprise를 위한 EGX system
DGX가 AI 연구자들을 위한 B2C 제품이라면 EGX AI 플랫폼은 Datacenter부터 Edge 까지 B2B 제품이라고 할 수 있다. NVIDIA는 EGX 를 제공하는 방대한 파트너사와 함께 다양한 최적화된 하드웨어, 배포가 간편한 클라우드 기반 소프트웨어 스택 및 관리 서비스를 통해 가속 AI 컴퓨팅 솔루션을 제공한다.
이번 GTC2021에서 NVIDIA는 서버 제조업체들이 만든 Enterprise 서버 등을 대상으로 한 NVIDIA-Certified System를 발표하였다. 인증을 받은 Enterprise 서버는 NVIDIA AI Enterprise SW 제품을 사용할 자격을 획득하게 되고 VMware vSphere 7에서 구동이 가능하도록 지원을 제공하게 된다. 또한 Enterprise용 GPU인 A10, A30을 새롭게 선보였다.
NVIDIA-certified System
NVIDIA-certified System은 NVIDIA의 설계 모범 사례와 클러스터 테스트를 포함한 일련의 인증 테스트를 통과한 시스템으로 인증 테스트에는 딥러닝 학습/추론, Data Science, 지능형 비디오 분석과 단일 노드 및 클러스 터 기반 시스템에서 보안 네트워크, 스토리지 Offload 테스트까지 포함한다. 테스트 목표는 실제 워크로드 실행 시 시스템에서 필요한 확장성 및 성능을 제공하는지 확인하는 것입니다.
GTC 2021의 참관을 마치며…
GTC2021에서 NVIDIA가 Grace CPU를 발표하면서 NVIDIA는 이제 더이상 GPU 회사가 아닌 INTEL과 같은 CPU회사의 반열에 들어섰음을 선언하는 중요한 자리였다. 물론 미-중 무역분쟁의 여파로 인해 ARM의 인수가 순조롭지 않을지도 모른다. 하지만 NVIDIA는 INTEL도 하지 못한 명실상부한 AI 산업의 Total 솔루션을 제공할 수 있는 유일한 위치에 있는 기업이 되었음을 부인할 수 없다.
NVIDIA는 HW 포트폴리오 외 HW 포트폴리오를 운영할 수있는 CUDA 기반의 End-to-End 솔루션(e.g., AI on 5G: Aerial A100, DPU를 이용한 Morpheus 등)을 모두 만들어 제공하고 있어 지속적인 HW 업그레이드와 그에 최적화된 SW 발표의 선순환 구조를 만들어내는 AI 분야에서 독보적으로 성공하고 있는 것으로 보인다.
또한 HPC/Supercomputer 시장에서 CPU/DPU/GPU의 조합과 방대한 SW ecosystem을 바탕으로 의미있는 성과를 거둘 것으로 예상된다. 하지만 성공적인 Cloud/Datacenter/Enterprise 분야와 달리 NVIDIA는 Automotive 분야에서 고전 중이다. 유일하게 NVIDIA와 협력하고 있는 메르세데스-벤츠 외Orin과 Atlan과 같은 고성능 SOC 출시와 함께 추가적인 파트너를 구하게 될지는 아직까지 미지수이다. 왜냐하면 NVIDIA가 제공한 Drive 플랫폼이 Waymo, Cruise의 시스템에 비해 아직 경쟁력이 뒤지는 것도 그 원인 중 하나일 것이다.
마지막으로 ARM Native Cloud 시장은 AWS와 협력과 같이 Cloud 업체가 자체 CPU 제작에 나서면서 ARM CPU+NVIDIA GPU 조합과 같은 협력사례가 늘어갈 것으로 예상된다. 현재는 안드로이드 게임과 같은 ARM Native SW부터 시작하고 있으나 점차 Datacenter/Cloud를 운영하는 SW를 x86에서 ARM으로 이주 노력이 좀더 가속화될 것으로 예상된다.
Reference
- Accelerating AI at-scale with Selene DGXA100 SuperPOD and Parallel Filesystem Storage [S31522]
- https://images.nvidia.com/gtc/keynote/gtc21-jensen-huang-keynote.pdf
- https://www.nvidia.com/ko-kr/data-center/products/certified-systems/