왜 최신 Language Model은 급격하게 커지는 것일까?

daewoo kim
3 min readJul 10, 2021

--

OpenAI가 2020년 초에 발표한 Scaling Laws for Neural Language Models 논문은 Large Model 도입의 근거를 본격적으로 제시한다.

Background

2017년 Transformer이 발표된 이후로, 대부분의 Language Model(이하 LM)들은 Transformer를 기반으로 개발되고 있다. LM들은 성능 개선을 위해 단 3년만에 최초 Transformer의 사이즈에 비해 수 백배 더 커졌다.

Transformer(‘17)가 465M 파라미터를 가진 반면, GPT-3(‘20)은 Transformer보다 376배 커진 175B의 파라미터를 갖는다. 2021년도에 발표된 Switch-C 모델은 1.6TB의 파라미터를 가지며 Wu Dao 2.0은 GPT-3보다 10배 큰 1.75TB 모델이다.

From State of AI Report 2020

LM 모델의 파라미터를 scaling up하여 LM 모델의 성능을 높이고 LM 모델이 할 수 있는 경계를 더욱 더 확장할 수 있다. 딥러닝 모델의 성능은 다음과 같은 여러 factor에 의존한다.

  • 모델 아키텍처
  • 모델 사이즈
  • 학습에 필요한 컴퓨팅 능력
  • 학습 데이터셋 사이즈

OpenAI는 Scaling Laws for Neural Language Models 논문을 통해 LM 모델의 성능과 위 factor 들 간의 관계를 설명하고, GPT-3와 같은 대형 LM을 개발하게 된 핵심적인 이론을 제공하고 있다.

Language Model의 성능에 대한 경험적인 발견

OpenAI는 이 논문에서 Transformer기반 LM을 대상으로 여러 실험을 통해 다음과 같은 경험적인 결과를 발견하였다.

1. LM 성능은 (1) 모델 파라미터 수 N (임베딩을 배제한 모델 파라미터 수), (2) 데이터셋의 사이즈 D, (3) 학습에 필요한 컴퓨팅량 C에 크게 의존하나 모델의 구조적 하이퍼파라미터 (e.g., depth vs. width)에는 매우 약하게 의존한다.

2. LM 성능은 다른 2 개 scale factor에 의해 bottleneck 현상이 발생하지 않는다면 성능은 각 3가지 scale factor과 power-law 관계에 있다.

3. N과 D를 동시에 Scale up한다면 성능은 예측가능하게 개선된다. 하지만 N 또는 D 중 하나가 고정된 채 다른 scale factor가 증가하면 고정된 scale factor가 패널티로 작용하여 성능 증가가 감소된다. (성능 패널티는 (N^0.74)/D에 의존함) 즉, 모델 사이즈가 8배 증가할 때 데이터셋은 약 5배가 증가해야 패널티를 피할 수 있다.

4. 학습 곡선의 초창기 부분을 기반으로 추론하면 훨씬 더 오랫동안 학습하여 달성할 loss를 예측할 수 있다.

5. Large Model은 Small Model보다 더 sample-efficient하며 더 적은 최적화 스텝과 더 적은 데이터를 사용하여 동일 수준의 성능에 도달한다.

6.고정된 컴퓨팅 예산 C 내에서 N과 D에 대한 제한이 없을 때, Very Large Model을 학습하면 가장 성능이 좋다.

--

--

daewoo kim

AI developer & Author | Working@semiconductor-industry. I write and share about what I learn.