[리뷰] Meta의 OPT:Open Pre-trained Transformer Language Models
5 min readJun 16, 2022
Meta는 최근 175B 언어모델인 OPT(Open Pre-trained Transformer)[1]를 발표하였다. 이 모델은 180B 토큰 데이터셋으로 학습되었으며, GPT-3를 학습할 때보다 요구 carbon footprint를 1/7으로 줄였다.
Meta는 개발적이고 재현 가능한 AI 연구를 촉진하기 위해 OPT 코드와 학습된 OPT 모델 weights 뿐만이 아니라 학습 과정에서 직면한 문제를 문서화한 전체 운영 로그북[2]을 릴리즈하였다.
이 모델은 비상업적인 라이센스로 릴리즈되어 업계 연구자 뿐만 아니라 정부, 시민 사회, 학계 조직에 소속된 연구원들이 사용할 수 있다. OPT-175B을 사용하기 위해선 신청절차가 필요하지만, 그것보다 작은 125M~30B 파라미터 범위의 버전은 Huggingface Transformer 라이브러리의 일부로 다운로드할 수 있다.[3]
OPT 모델의 종류
- 125M ~ 175B
- 학습의 불안정성의 위험을 줄이기 위해 각 모델은 LR과 Batch Size가 다름
학습 셋업
Weight Initialization
- Megatron-LM 코드베이스에서 제공되는 것과 같은 세팅을 따름
- Normal Distribution: Zero mean
- Standard deviation: 0.006
Output layers
- Standard deviation: 1.0/Squre(2L). (L: 레이어의 총 개수)
- 모든 bias 항은 0으로 초기화
- ReLU activation
- Sequence lenght: 2048
- AdamW optimizer
- Linear learning rate schedule
- Warming up: 0 → max. lr (OPT-175B 버전: 처음 2000 steps 이상, OPT-30B 이하 버전: 375M 토큰이상)
- dropout: 0.1 throughput. (단, 임베딩에는 dropout을 사용하지 않음)
Pre-training Corpus
- 데이터셋: RoBERTa, Pile, PushShift.io Reddit 사용
- 모든 Corpus는 주료 영어 텍스트이나, CommonCrawl을 통해 약간의 비영어 텍스트를 포함함
- 모든 데이터셋에서 중복된 문서를 제거함
- GPT-2 byte-level BPE tokenizer를 이용하여 모든 corpora를 토근화함
- 마지막 corpus는 약 180B tokens를 포함함
OPT-175B 학습 Infrastructure & 학습 efficiency
- A100 GPUs(80GB) x 992 → 124 대 서버
- FSDP(Fully Sharded Data Parallel) with Megatron-LM TP
- 147 TFLOPS per GPU
- (A100의 FP16 연산은 Max. 325 TFLOPS를 제공하므로 45%의 utilization)
- Underflow를 피하기 위해 dynamic loss scaling을 사용함
Training 시 Loss Divergences
OPT의 성능 평가
Zero-shot 성능
- GPT-3와 비교하였을 때 10개 task는 거의 일치, 3개 task(ARC, Challenge, MultiRC)에서 더 낮은 성능을 보였음
- 3개 task(CB, BoolQ, WSC)에서 GPT & OPT 크기에 따라 모두 예측할 수 없는 행동을 보이는데 이는 검증 셋의 크기가 작은 이유일 것으로 추측.
One-shot & Few-shot
- OPT는 GPT-3와 유사한 성능을 보이며 Zero-shot과 동일한 10개의 데이터 셋에서 두 모델 모두 유사한 성능을 보임
- 나머지 데이터 셋(BoolQ, CB, WSC, RTE)에서 OPT와 GPT-3 모두 모델 크기와 관련하여 일관되지 않은 성능을 보여줌
- MultiRC에서는 GPT-3 모델에 비해 OPT의 성능이 지속적으로 낮음
레퍼런스
[1] OPT: Open Pre-trained Transformer Language Models
[2] Chronicles of OPT-175B training
[3] Hugging Face: OPT