[리뷰] 3년만의 화려한 컴백. GPT-4

12 min readMar 19, 2023

2023년 3/15일(KST), OpenAI는 GPT-4를 발표하였다. GPT-3가 발표된지 3년만이다. GPT-4는 Microsft Azure에서 Multi-Modal 모델로 학습되었다.

GPT-4 논문 리뷰를 진행하기 전에 미리 알아 둘 것이 있다.

이번 GPT-4발표에서 OpenAI는 GPT-3 발표 때와 달리 GPT-4의 모델 아키텍처, 모델 사이즈, 데이터셋 종류 및 규모, 학습 방법, 학습 시스템 규모 등에 대한 세부 정보를 공개하지 않았다.

상용화 단계에 오면서 경쟁자들을 인식한 것으로 보인다. 이젠 OpenAI의 사명을 바꿔야 하지 않을까. 연구자 입장에서는 “소문난 잔치에 먹을게 없다.”라는 속담이 생각나게 할 정도로 알맹이 없는 내용이었다. (98페이지짜리 사례집을 보는 느낌이었다.) 아쉬움을 뒤로 하고 리뷰를 시작해보자.

GPT-4의 특징

GPT-3.5와 주요 차이점은 다음과 같다.

Multi-modal 지원

AI가 인간처럼 세상을 이해하기 원한다면 인간의 언어만으로는 충분하지 않다. GPT-4는 드디어 텍스트와 이미지를 입력할 수 있는 multi-modal을 지원한다. GPT-4는 아래 예시와 같이 이미지를 인식하고 이미지의 내용을 이해하고 해당 이미지가 왜 재미있는 상황인지 사용자에게 설명해준다.

하지만 OpenAI는 GPT-4의 이미지 입력은 여전히 연구를 위한 preview이며 현재 공개적으로 사용할 수 없다고 한다. 초기 GPT-4의 Multi-Modal은 여전히 연구가 진행중임을 알 수 있다.

입력 Context의 길이 증가

ChatGPT는 4K tokens(약 3K words)을 context(prompt)로 입력할 수 있었다. GPT-4는 기본 8K tokens에서 최대 32K tokens (약 50 page)까지 GPT-4에 입력할 수 있다. 따라서 GPT-4는 ChatGPT보다 최대 8배 더 긴 context를 입력받을 수 있으므로 ChatGPT가 생성하기 어려운 매우 긴 리포트와 장편 소설까지 생성할 수 있을 것으로 예상된다.

더 창의적이고 강력함

광범위한 일반 지식과 고급 문제 해결 기능 덕분에 GPT-4는 까다로운 문제를 보다 정확하게 해결할 수 있다.

GPT-4의 사용 & 적용 사례

다음은 현재 GPT-4를 사용할 수 있는 방법이다.

ChatGPT plus ($20/mo) 가입: 이미 GPT-4 버전을 지원함
MS Bing
POE 앱 (AI chat)

API 사용 waiting list에 등록 : 접근 권한이 부여되면 text prompt에서 GPT-4 모델을 사용가능함. (하지만 이미지 입력은 미지원함)

그 외 다음과 같은 제품은 GPT-4를 이용하고 있다.

Duolingo : 제2 외국어 학습용 앱으로 대화의 품질을 높임
Be My Eyes : 시각 장애가 있는 사용자에게 시각적 접근성 지원을 제공
Stripe : 사용자 행동 및 거래 패턴을 분석하여 사기 행위를 탐지하고 방지
Morgan Stanley : 지식 기반을 구성하고 투자 조언을 제공하며 재무 데이터를 분석하는 데 사용
Khan Academy : 개인화된 학습 경험을 만들고 설명을 생성하며 학생의 질문에 답변
Government of Iceland : 모국어를 보존하고 홍보하기 위해 사용
그외 Dropbox, InterCom, Climate Policy Radar, Material, mem, Harvey, speak, Ambience, descript 등에서 GPT-4를 사용 중

GPT-4의 가격

GPT-4는 Context length에 따라 차등화된 요금을 적용한다. ChatGPT는 생성 결과물 길이에 따라 $0.002/1K tokens 요금을 지불하지만, GPT-4는 생성 결과물 길이뿐만이 아닌 입력 Prompt(Context)의 길이에 따라 추가 요금을 지불해야 한다. 같은 조건일 때 GPT-4는 ChatGPT보다 최대 90배 더 비싼 요금을 지불해야 한다.

GPT-3.5 vs GPT-4 성능 비교

각종 벤치마크에서 GPT-4는 GPT-3.5에 비해 전체적으로 큰 성능 개선을 달성하였다. 특이한 사실은 GPT-4와 GPT-4(no vision)의 성능을 비교하였을 때 간혹 벤치마크 점수의 미세한 차이가 있는데 학습 과정이 비공개 상태라서 원인을 추측하기 어려웠다.

Academic & Professional 시험에서 GPT-4의 성능

다음은 주요 academic & professional 시험에서 GPT-4과 GPT-3.5를 비교한 결과이다. GPT-4과 GPT-3.5를 비교하면 GPT-4의 성능이 대부분 크게 향상되었음을 확인할 수 있다.

Uniform Bar Exam(미국 변호사 시험): GPT-3.5가 하위 10%였던 반면, GPT-4는 상위 10%에 해당할 정도로 급상승하였다.
LSAT(Law School Admission Test): 미국 로스쿨에 입학하기 위해 치는 시험으로 GPT-3는 하위 40%였던 반면 GPT-4는 상위 12%까지 상승하였다.
USA BO(Biology Olympiad): GPT-3.5는 하위 30%인 반면, GPT-4는 상위 1%에 해당한다.
AP (Advanced Placement) Exam: 미국 고등학생들에게 대학 과목(1학년 교양수업)을 학습할 수 있는 기회를 제공하고, 대학 이수학점으로 인정해주는 제도이다. GPT-4는 GPT-3.5에 비해 대부분 과목에서 1단계 이상 상승하였지만, English (Language & Compoistion, Literature & Composition) 성적은 GPT-3.5에 비해 향상되지 않고 제자리 걸음이었다. 또한 GPT-3.5가 AP Calculus BC(미적분학) 에서 최하의 성적을 맞은 반면, GPT-4는 대폭 상승하였지만 석차는 여전히 낮은 수준이다.
AMC(American Mathematics Competition): 미국 MAA(미국 수학 협회)에서 주최하는 수학 경시대회이다. AMC10는 10학년까지, AMC12는 12학년까지 응시할 수 있다. AMC12에서는 GPT-4가 GPT-3.5보다 더 높은 점수를 받았으나 전체 석차를 고려를 하였을 때 여전히 낮은 점수이며 AMC10에서 GPT-4가 GPT-3.5보다 더 낮은 점수를 받는 기이한 현상을 보인다. 언어모델이 산술 연산에 취약하다라는 사실이 GPT-4에서도 재현되고 있는 것으로 보인다.

Academic benchmarks (language)에서 GPT-4 성능

DROP을 제외한 모든 벤치마크에서 GPT-4가 SOTA를 달성하였다.

MMLU(multi-task language understanding): SOTA에 비해 11%이상, GPT-3.5보다 16% 향상되었다.
Translated MMLU: GPT-4의 다중언어 능력을 테스트하기 위해 Azure Translation을 이용하여 MMLU의 질문과 대답을 각 언어로 번역하였다. GPT-4는 GPT-3.5와 Chinchilla, PaLM의 MMLU(English)성능을 능가하며 GPT-4의 다중언어 성능은 Marathi, Telugu를 제외한 모든 언어에 대해 GPT-3.5 (English) 성능을 능가한다.

GPT-4 제한 사항

OpenAI는 GPT-3.5에 비해 비록 개선되었지만 여전히 이전 GPT 버전의 모든 종류의 동일한 문제(e.g. 환각, 추론 오류, 지나친 확신, 다양한 사회적 bias 등)를 가지고 있음을 지적하고 있다.

사실 여부 평가(Internal Factuality Eval.)

OpenAI가 내부적으로 설계한 사실 여부 평가에서 모든 topics에 대해서 GPT-4는 GPT-3.5기반 ChatGPT 대비 19%까지 성능 개선을 달성하였다.

TruthfulQA 평가

TruthfulQA는 건강,법,범죄,소설 등 다양한 영역에 대한 질의/응답 세트로 구성된 벤치마킹 질문이다. 이 벤치마크는 적대적으로 선택된 잘못된 진술에서 사실을 분리하는 모델의 능력을 테스트한다.

TruthfulQA 평가에서 GPT-4(Base)는 GPT-3.5(Base)의 결과와 거의 비슷하다. 하지만 RLHF post-training 후 GPT-4 (RLHF) 결과는 GPT-4(Base) 결과보다 2배 개선되고, GPT-3-turbo(RLHF) 보다 10% 이상 개선됨을 알 수 있다.

GPT-4의 위험 완화 방법

OpenAI는 GPT-4의 안전성(safety)와 정렬(alignment)을 개선하기 위해 여러가지 시도를 하였다.

GPT-4(early)의 위험한 답변과 조정된 GPT-4(launch)의 답변 (source: gpt-4 논문)

도메인 전문가를 활용한 적대적 테스트: 각 도메인의 50명 이상의 전문가를 참여시켜 모델을 적대적으로 테스트하여 전문가들에게 수집한 추천 사항과 학습 데이터셋을 모델 개선과 위험성 완화에 이용하였다.
모델 지원 안전성 파이프라인: RLHF 이후에도 GPT-4는 여전히 안전하지 않은 입력에 취약한다. OpenAI는 유해한 출력을 생성하는 위험을 완화하기 위해 Zero-shot GPT-4 classifier인 RBRMs(Rule-Based Reward Models)을 도입하였다. 이 classifier는 유해 콘텐츠 생성을 거부하거나 무해한 요청을 거부하지 않는 올바른 동작을 목표로 RLHF fine-tuning 중에 GPT-4 정책 모델에 추가적인 reward 신호를 제공한다.
안전 metric 개선: GPT-4는 민감하고 허용되지 않는 prompt에 대해 잘못된 행동을 할 확률이 낮아졌다. RealToxicityPrompts 데이터셋에서 GPT-3.5는 시간의 6.48%만 독성 콘텐츠를 생성하는 반면, GPT-4는 시간의 0.73%만 독성 컨텐츠를 생성할 정도로 개선되었다. 하지만 사용 가이드라인을 위반하는 컨텐츠를 생성하는 “탈옥(jailbreaks)”이 여전히 존재한다.

총평

ChatGPT의 첫 인상이 너무 충격적이라서 GPT-4의 첫인상은 ChatGPT의 등장만큼 충격이 크지 않았다. GPT-4의 가장 큰 특징인 Multi-Modal 조차도 초기 GPT-4 버전에서는 preview로 제공할 정도로 완전한 Multi-Modal을 제공하ㅡ는데 좀더 시간이 걸릴 예정이다.

하지만 ChatGPT가 나온지 4달도 안 된 시점에 나온 GPT-4는 ChatGPT보다 훨씬 더 우수한 성능을 보인다. ChatGPT 이후 AI의 특이점에 도달하였다는 주장이 GPT-4의 출시덕분에 더욱더 설득력을 가질 것으로 보인다.

MS가 2023년 1월 openAI와 협력을 연장하고 대대적인 AI infrastructure에 투자했다는 사실은 MS가 AI에 얼마나 All-in하고 있는지 알 수 있다. 아울러OpenAI가 더 강력한 MS의 AI infrastructure를 사용할 수 있는 만큼 GPT-5가 예상보다 더 빠른 시점에 발표될 수 있을 것으로 예측된다.

하지만 우려스러운 점은 OpenAI가 GPT-4의 세부내용을 미공개하였다는 점이다. 그동안 AI 커뮤니티는 AI 기술을 서로에게 개방하고 AI 연구자간의 활발한 논의를 통해 혁신을 지속해 나갈 수 있었으나, 이러한 선순환 구조가 더이상 동작하지 않게 된 것이다. 너무 멀리 나간 이야기일지도 모르지만 AI마저 상용화 단계에서 자본의 논리가 개입하는 것 같아 씁쓸하지 않을 수 없다. 혁신의 속도가 느려져서는 안 된다. 아직도 AI에 미지의 영역이 많다.