[리뷰] Tesla AI day 2021 … 누가 테슬라를 자동차 회사라고 하는가? 테슬라는 AI 회사이다.

daewoo kim
12 min readAug 29, 2021

--

테슬라는 한국시간 8/19일 Tesla AI day 2021 행사를 개최하였다. 많은 내용이 있었지만 테슬라의 AI Infrastructure를 위주로 정리해 본다.

1. AI evaluation Infrastructure

테슬라는 그들의 뉴럴 네트워크를 개선하기 위해 retrain한다. 새로운 뉴럴 네트워크를 차량에 배포하기 전에 개선 사항을 평가하기 위해 테슬라는 3000개 이상의 Autopilot FSD computer를 동원하여 평가한다. 평가는 주당 백만 이상 실행된다.

2. Neural Network Training Cluster

테슬라는 그동안 학습용 GPU 클러스터(Pre-DOJO)를 확장해왔다. 올해 작년대비 GPU의 개수가 10배 넘게 증가하여 12K개의 GPU를 보유하고 있으며 최근 구축한 5760 GPU (720 Nodes) 학습 클러스터는 81.6 Linpack ptflops을 달성하여 TOP 5 슈퍼컴퓨터의 성능을 보유하게 되었다. 테슬라는 총 3개의 클러스터를 보유하고 있다.

  • Auto-labeling용: 1752 GPUs (219 Nodes)
  • 1st Training용: 4032 GPUs (504 Nodes)
  • 2nd Training용: 5076 GPUs (720 Nodes. NVIDIA GPU(80GB) x 8)

하지만 학습 속도뿐만 아니라 NN 학습을 위한 Capacity에 만족하지 못하여 엘런 머스크는 super-fast training computer를 디자인하라고 요청하였으며 몇 년 전 자체 칩을 이용한 DOJO 프로젝트을 시작하였습니다.

3. DOJO Supercomputer

DOJO Supercomputer의 목적은 최고의 AI training 성능을 달성하고, 더 크고 더 복잡한 NN 모델을 지원하고 동시에 전력 효율성와 비용 효율성을 달성하는 것이다.

1. DOJO 아키텍처

기존 Distributed Computer Architecture는 Compute를 Scale 하는 것은 쉽지만 Bandwidth를 Scale-up하는 것은 매우 어려우며 latency를 줄이는 것은 더 어렵다.

테슬라는 DOJO의 구조를 큰 메모리 pool과 2D 메시 형태의 매우 높은 Bandwidth와 낮은 latency 패브릭으로 상호 연결된 매우 견고한 compute element로 구성된 Large Compute Plane으로 만들었다.

또한 공간적/시간적 지역성을 활용하는 NN 컴파일러를 사용하여 로컬 및 전역 통신을 줄여 bandwidth utilization이 Compute Plane에 따라 확장되도록 하였다

2. Training Node: Scale을 위한 가장 작은 Entity

Seamless Scaling을 달성하기 위해선 Node의 선택이 중요하다. 너무 작으면 빠르게 동작하지만 동기화 와 SW 오버헤드가 지배적인 요소가 되며 너무 크면 실제 하드웨어가 너무 복잡해지고 메모리 bottleneck 이슈에 직면한다.

테슬라는 주요 최적화 포인트로 latency와 bandwidth를 공략하기로 하였으며2GHz+에서 신호가 이동할 수 있는 가장 먼 거리를 알아내고 그 주변에 Box (이 Box는 Training Node가 된다.)을 그렸다고 한다.

그 Box를 선으로 연결하고 그 Box에 ML compute과 SRAM(1.25MB)를 추가하고 제어를 위한 프로그래머블 코어를 구현하였다.(아래 그림) 테슬라는 새로운 Numeric 포맷인 Configurable FP8를 추가하였다. 이 Training Node는 1TFLOPS (BF16/CFP8), 64GLOPS(FP32)의 성능을 제공한다.

Training Node Architecture는 다음과 같은 feature들을 가지고 있다.

3. D1 Chip

D1 Chip은 아키텍처부터 GDS out및 패키지에 이르기까지 테슬라 팀이 전부 설계하였다. 이 칩은 GPU 수준의 compute와 CPU 수준의 flexibility, 그리고 SOTA Network chip보다 2배 높은 I/O bandwidth를 갖는다.

D1 Chip은 크게 Compute Node와 I/O Ring으로 분리된다. Compute Array는 354 Training Nodes를 연결하였으며 Compute Node 주변부는 I/O Ring으로 둘러싸여 있다. I/O Ring은 576 lanes@112Gb의 High-speed & Low Power SerDes로 구성되어 있다.

4. Training Tile — Unit of Scale for System

DOJO는 500K의 training node로 구성된 Compute Plane으로 1.5K의 D1 chip가 상호간 연결되어 있다. 그리고 DOJO Inferface Processor는 데이터센터의 일반적인 Host에 대한 Host bridge이며 Host의 PCIe Gen 4.0과 연결된다.

DOJO interface processor는 host bridge일뿐만이 아니라 Compute Plane을 high-bandwidth DRAM 공유 메모리에 연결하는데 사용된다.

또한 Interface p processor를 사용하면 더 높은 Radix network connection을 사용할 수 있다.

Training Tile은 25개의 D1 칩으로 구성되어있으며 이 Tile은 9 PFLOPS (BF16, CFP8)과 36TB/s Massive off-tile Bandwidth를 제공한다.

Training Tile에 전력을 공급하는 방식은 너무 많은 bandwidth와 패키지상의 10 KW 이상 전력 소비때문에 수직으로 전력을 공급한다.

칩 자체의 전력 소비는 총 10KW이나 전력 전송, IO, 웨어퍼 와이어 또한 전력 소모가 많아 training tile은 총 15KW의 전력을 소모한다. 전력은 아래에서 공급이 되며 열은 위로 빠져나가도록 한다.

테슬라의 training tile은 단위당 성능 및 scale-up 능력에서 Nvidia, Graphcore, Cerebras, Groq, Tenstorrent, SambaNova 또는 여타 AI training 스타트업을 압도한다.

5. Computer Cluster

Training Tile 다음 단계는 2x3 tile으로 구성된 2개의 tray가 캐비넷에 들어가므로 캐비넷 당 총 12개의 training tile이 108 PFlops 성능을 제공한다.

  • 108 PFLOPS per cabinet
  • Over 100K functional units
  • 400K custom cores
  • 132GB of SRAM per server cabinet

테슬라는 캐비넷 수준을 넘어 케비넷 메시를 계속 확장하고 있으며 DOJO는 엄청난 양의 대역폭을 가진 하나의 homogeneous 메시이다.

테슬라의 ExaPOD은 10개의 캐비넷(120개의 training tile = 3000 D1 chips (120x25)) 으로 확장을 계획하고 있으며 무려 1.1 Exaflops를 제공한다.

4. Software

DOJO의 Compute Plane은 DPU(Dojo Processing Unit)이라고 불리우는 유닛으로 분할될 수 있다. DPU는 하나 이상의 D1 칩과 interface processor, 하나 이상의 호스트가 포함되며 필요에 따라 확장 또는 축소할 수 있다.

사용자는 스크립트를 최소한 변경하며 이는 강력한 컴파일러 덕분이며 이 컴파일러는 fine-grain parallelism을 처리하고 뉴럴네트워크는 매우 효율적으로 Compute Plane으로 매핑한다.

컴파일러는 parallelism를 추출하기 위해 다수의 기술을 사용하며 data, model, graph parallelism 기술을 사용한 fine-grain parallelism를 달성하도록 네트워크를 변환할 수 있을 뿐만 아니라 메모리 footprint를 줄이기 위해 최적화도 수행한다.

DOJO 컴파일러는 전체 SW suite의 일부이며, 전체 SW stack은 Pytorch 확장을 포함한다. DOJO 컴파일러는 HW용 바이너리를 생성하는 LLVM 백엔드가 있으며 수동으로 작성한 커널 한 줄 없이 HW에 최적화된 코드를 생성할 수 있다.

DOJO는 위의 시스템을 조합하면 NVIDIA GPU와 동일한 비용으로 4 배의 성능, 1.3배 더 좋은 perf./watt, 5배 더 적은 footprint를 제공하는 가장 빠른 AI training computer가 될 것이다.

첫번째 세대의 DOJO 캐비넷은 이미 조립을 시작하였으며 다음 세대는 10배 이상의 성능을 계획하고 있다.

5. 시사점

분산 컴퓨팅은 scale-out하여 성능을 향상시키는데 노드와 노드간 또는 디바이스와 디바이스간 bandwidth와 latency가 성능 향상에 가장 큰 bottleneck 요인이다. 테슬라가 DOJO Supercomputer에서 가장 신경을 쓴 것은 bandwidth와 latency이다.

Training Tile-to-Training Tie의 연결방식은 나오지 않았지만, 기존 interconnect 기술로 bandwidth와 latency를 만족시킬 수 없으므로 아마도 테슬라의 독자적인 interconnect 기술을 사용하지 않았을까 예상한다. 또한 Cabinet-to-Cabinet도 Training Tile-to-Training Tile과 동일한 interconnect가 사용되지 않았을까 추측할 수 있다.

NVIDIA와 동일 비용으로 4배 우수한 성능의 supercomputer를 만들었다면 이를 테슬라 외 다른 고객에 학습 서비스를 제공할 수 있지 않을까? 라는 질문을 할 수 있는데 Tesla AI Day 이후 Elon Musk는 이에 대해 그의 트위터를 통해 벌써 가능성을 내비친 상태이다. 물론 Elon Musk가 긍정했다라고 해서 실제 제공여부와 그 시점을 알 수 있는 것은 아니다.

예상할 수 있는 시나리오의 하나는 Elon Musk가 OpenAI에 설립 멤버였으므로 차기 GPT-4의 training에 DOJO Supercomputer를 사용하는 것이다. GPT-4는 10 Trillion의 파라미터를 예상하고 있고 있어 GPT-3보다 학습 리소스와 학습 비용이 비교할 수 없을 정도로 커질 것이다.

GPT-4를 NVIDIA보다 효율적인 DOJO Supercomputer로 학습한다면 굉장한 도전임과 동시에 그동안 NVIDIA가 독주하던 AI 가속기 시장에 일대 변동이 발생할 것으로 전망된다. 하지만 DOJO Supercomputer가 아직 나오기 전이므로 이러한 예측은 현실화될지는 여전히 미지수이지만 DOJO로 인해 AI 가속기 시장은 새로운 국면에 도달한 것으로 생각된다. (인텔 어쩔….??ㅜㅜ)

레퍼런스

[1] Tesla Dojo — Unique Packaging and Chip Design Allow An Order Magnitude Advantage Over Competing AI Hardware

[2] Tesla AI Day 2021

[3] Tesla’s insane new Dojo D1 AI chip, a full transcript of its unveiling

--

--

daewoo kim
daewoo kim

Written by daewoo kim

AI developer & Author | Working@semiconductor-industry. I write and share about what I learn.

No responses yet