[리뷰] Meta의 OPT:Open Pre-trained Transformer Language Models

daewoo kim
5 min readJun 16, 2022

--

Meta는 최근 175B 언어모델인 OPT(Open Pre-trained Transformer)[1]를 발표하였다. 이 모델은 180B 토큰 데이터셋으로 학습되었으며, GPT-3를 학습할 때보다 요구 carbon footprint를 1/7으로 줄였다.

Meta는 개발적이고 재현 가능한 AI 연구를 촉진하기 위해 OPT 코드와 학습된 OPT 모델 weights 뿐만이 아니라 학습 과정에서 직면한 문제를 문서화한 전체 운영 로그북[2]을 릴리즈하였다.

이 모델은 비상업적인 라이센스로 릴리즈되어 업계 연구자 뿐만 아니라 정부, 시민 사회, 학계 조직에 소속된 연구원들이 사용할 수 있다. OPT-175B을 사용하기 위해선 신청절차가 필요하지만, 그것보다 작은 125M~30B 파라미터 범위의 버전은 Huggingface Transformer 라이브러리의 일부로 다운로드할 수 있다.[3]

OPT 모델의 종류

  • 125M ~ 175B
  • 학습의 불안정성의 위험을 줄이기 위해 각 모델은 LR과 Batch Size가 다름

학습 셋업

Weight Initialization

  • Megatron-LM 코드베이스에서 제공되는 것과 같은 세팅을 따름
  • Normal Distribution: Zero mean
  • Standard deviation: 0.006

Output layers

  • Standard deviation: 1.0/Squre(2L). (L: 레이어의 총 개수)
  • 모든 bias 항은 0으로 초기화
  • ReLU activation
  • Sequence lenght: 2048
  • AdamW optimizer
  • Linear learning rate schedule
  • Warming up: 0 → max. lr (OPT-175B 버전: 처음 2000 steps 이상, OPT-30B 이하 버전: 375M 토큰이상)
  • dropout: 0.1 throughput. (단, 임베딩에는 dropout을 사용하지 않음)

Pre-training Corpus

  • 데이터셋: RoBERTa, Pile, PushShift.io Reddit 사용
  • 모든 Corpus는 주료 영어 텍스트이나, CommonCrawl을 통해 약간의 비영어 텍스트를 포함함
  • 모든 데이터셋에서 중복된 문서를 제거함
  • GPT-2 byte-level BPE tokenizer를 이용하여 모든 corpora를 토근화함
  • 마지막 corpus는 약 180B tokens를 포함함

OPT-175B 학습 Infrastructure & 학습 efficiency

  • A100 GPUs(80GB) x 992 → 124 대 서버
  • FSDP(Fully Sharded Data Parallel) with Megatron-LM TP
  • 147 TFLOPS per GPU
  • (A100의 FP16 연산은 Max. 325 TFLOPS를 제공하므로 45%의 utilization)
  • Underflow를 피하기 위해 dynamic loss scaling을 사용함

Training 시 Loss Divergences

OPT의 성능 평가

Zero-shot 성능

  • GPT-3와 비교하였을 때 10개 task는 거의 일치, 3개 task(ARC, Challenge, MultiRC)에서 더 낮은 성능을 보였음
  • 3개 task(CB, BoolQ, WSC)에서 GPT & OPT 크기에 따라 모두 예측할 수 없는 행동을 보이는데 이는 검증 셋의 크기가 작은 이유일 것으로 추측.

One-shot & Few-shot

  • OPT는 GPT-3와 유사한 성능을 보이며 Zero-shot과 동일한 10개의 데이터 셋에서 두 모델 모두 유사한 성능을 보임
  • 나머지 데이터 셋(BoolQ, CB, WSC, RTE)에서 OPT와 GPT-3 모두 모델 크기와 관련하여 일관되지 않은 성능을 보여줌
  • MultiRC에서는 GPT-3 모델에 비해 OPT의 성능이 지속적으로 낮음

레퍼런스

[1] OPT: Open Pre-trained Transformer Language Models

[2] Chronicles of OPT-175B training

[3] Hugging Face: OPT

--

--

daewoo kim
daewoo kim

Written by daewoo kim

AI developer & Author | Working@semiconductor-industry. I write and share about what I learn.