GPT-3 파라미터보다 10 배 더 큰 1.75 Trillion의 Wu Dao 2.0
6월 1일 BAAI가 주최한 2021 BAAI(Beijing Academy of Artificial Intelligence) 컨퍼런스에서 BAAI는 세계 최대의 초대형 지능형 모델 Wu Dao 2.0(悟道 2.0)을 발표하였다.
BAAI(중국어로는 北京智源人工智能研究院. Zhiyuan AI 연구소)는 2018년 11월에 설립되었다. 이번 컨퍼런스에는 Yoshua Bengio를 비롯, David Patterson, Sebastian Thrun 등 AI 분야 최고 전문가 200여명 이상이 참석하였다.
“悟道 2.0” (Wu Dao 2.0)
이 컨퍼런스에서 BAAI는 Wu Dao 2.0을 발표하였다. “Wu Dao”의 한자어 “悟道”(깨달을 ‘오’, 길 ‘도’)는 한국어 사전에서는 “불도의 진리를 깨닫는 것” 으로 번역하고 있다. (하지만 영어로는 “Enlightenment”(계몽)로 번역함… 현대 중국에서 불도의 진리를 깨우칠 일이 없으니 계몽이 맞을 것 같기도 하다.)
Wu Dao 2.0의 개발 배경
BAAI의 연구소장인 Zhang Hongjiang은 “대형 모델 + 대형 컴퓨터 파워”가 AGI(Artificial General Intelligence)로 가는 길이라고 이야기한다. 또한 대형 AI 모델은 전력망과 같이 전략적 산업 인프라가 될 예정이라고 설명한다.
그의 비유는…
데이터를 발전소의 연료로, 발전소가 지능(대형 모델)을 공급하면, 전력망이 전기를 사회에 공급하 듯, 사회 전체가 지능형 네트워크를 사용한다 .
라는 의미이다.
현재 대형 AI 모델이 영어 말뭉치에 기반을 두고 있으므로 이에 대항하기 위해 BAAI의 학장 Tang Jie 교수팀을 주축으로 중국어기반 대규모 AI 모델 연구를 시작하였다. 그 결과물로 21년 3월 20일 Wu Dao 1.0을 출시하였으며 3개월만에 Wu Dao 2.0을 출시하였다.
Wu Dao 2.0의 특징
Wu Dao 2.0은 GPT-3 (175B)보다 10배 크고 구글 Switch Transformer(1.5T )보다 더 큰 1.75T 모델이다. Zhiyuan 연구소는 Wu Dao를 개발하는 동안, 세계 최대 말뭉치 데이터베이스인 WuDao Corpora 2.0을 구축하였다.
학습 데이터셋
Wu Dao 2.0은 다음과 같이 4.9TB의 텍스트와 이미지 데이터로 학습되었다.(기존 GPT-3는 570GB의 데이터셋을 사용하였는데 45TB의 원본 데이터셋을 3번 필터링하여 데이터의 품질을 향상시켰다고 한다.)
- 1.2TB 중국어 텍스트 데이터 (in WuDao Corpora)
- 2.5TB 중국어 이미지 데이터
- 1.2TB 영어 텍스트 데이터 (in the Pile dataset)
Mixture of Experts (MoE)
구글 Switch Transformer와 Gshard에 사용된 MoE(Mixture of Experts)와 유사한 구조인 FastMoE를 사용하였으며 오픈소스이며 특정 HW를 요구하지 않는다. (MoE는 구글 TPU에 최적화됨) FastMoE는 Pytorch 프레임워크를 지원하며 대규모 병렬 학습을 지원한다.
Multi-modality
텍스트와 이미지를 학습하며, 두가지 유형의 데이터를 모두 포함한 작업을 처리한다. (기존 GPT-3가 할 수 없었던 일이다.) 구글의 MuM 또한 multi-modality를 지원할 계획이다.
Multi-tasking
대부분의 딥러닝 모델이 single tasks만을 수행하는 것과 Wu Dao 2.0는 단일모델로 아래와 같은 multi tasks를 수행 가능하다.
- NLP(Natural Language Processing)
- Text generation
- Image recognition
- Image generation
- Captioning images
- 중국어 번체로 수필, 시 등을 작성
- 자연어로 설명을 해주면 사실적인 이미지를 만듬
- Deepmind의 AlphaFold와 같은 단백질의 3D 구조를 예측
- Text Summarization
- Human setting Q&A (인간으로 의인화하여 Question & Answer를 진행)
- Painting 등
Benchmark
Wu Dao2.0의 정량적인 수치는 미공개되었으나 9가지 벤치마크에서 SOTA를 달성하였다.
- Imagenet (Zero-shot): SOTA, OpenAI CLIP을 능가
- LAMA (factual & knowledge detection): AutoPrompt을 능가
- LAMABADA (Cloze tasks): MS Turning NLG를 능가
- SuperGLUE (few-shot) SOTA, GPT-3을 능가
- UC Merced Land-Use (zero-shot): SOTA, OpenAI CLIP을 능가
- MS COCO (text generation diagram): SOTA, OpenAI DALL·E을 능가
- MS COCO (English graphic retrieval): OpenAI CLIP과 Google ALIGN를 능가
- MS COCO (multilingual graphic retrieval): 현재 최고의 multilingual & multimodal pre-training model인 UC2, M3P을 능가
- Multi 30K (multilingual graphic retrieval): 현재 최고의 multilingual & multimodal pre-training model인 UC2, M3P을 능가
AI-Powered Virtual Student (Hua Zhibing)
BAAI은 Wu Dao 2.0기반으로 만들어진 중국 최초의 가상 학생인 Hua Zhibing을 소개하였다. Wu Dao 2.0은 GPT-3와 달리 이전에 배운 것을 잊지 않고 시간이 지남에 따라 다양한 작업을 학습하여 인간의 기억과 학습 메커니즘에 좀더 가까워졌다라고 한다. BAAI의 학장 Tang Jie은 Hua Zhibing은 어느정도의 추론과 정서적인 상호작용 능력을 가지고 있음을 강조하며 Wu Dao 2.0은 머신이 인간처럼 생각하고 튜닝 테스트를 넘어서는 인지 능력을 달성하는 것을 목표로 한다.
시사점
- 중국은 정부주도로 AI를 개발하고 있으며, 빠르게 미국의 AI 기술을 따라잡고 있다. 미중 패권전쟁이 심화되는 상황에서 미래 가장 중요한 기술이라고 할 수 있는 AI 분야의 주도권 경쟁 또한 심화될 것으로 예상된다.
- AI 마저 특정 국가의 이념이나 Nationalism(민족주의)의 영향력 아래에 자유로울 수 없을 것으로 보인다. 과연 Wu Dao 2.0은 1989년 천안문 사태를 어떻게 평가할 것이며 어떠한 사실로 기억하고 있을까….?
- 구글의 LaMDA와 같이 Wu Dao 2.0 또한 인간과 대화가 가능한 AI(AI powered virtual student. Hua Zhibing)를 개발하고 있어 Human-like AI 개발이 본격화되고 있음을 알 수 있다.
- 기존 single task만 가능했던 작은 AI 모델에서 거대 AI 모델을 이용하여 multi-task가 가능한 AI로 발전 중이다. 이젠 거대 모델 하나를 개발한 후 다양한 AI 응용에 적용하는 것이 보편적인 방식으로 자리잡을 전망이다.
- 거대 AI 모델의 입력/출력 모두 multi-modality을 지원하고 있다.