OpenAI GPT-4o(omni): 인간수준의 응답시간과 표현력을 갖춘 멀티 모달 모델의 등장

daewoo kim
17 min readMay 26, 2024

--

OpenAI는 Google IO 2024를 하루 앞둔 5월 13일(현지시간. 한국시간 14일 오전 2시) 라이브 방송으로 GPT-4o를 전격 공개하였다. Google IO 2024 직전에 GPT-4o를 발표한 것은 Google을 의식한 김 빼기 작전이었는데 어느정도 성공을 거둔 것으로 보인다.

Google IO에 관심이 집중된 시점에 GPT-4o를 발표함으로써 Gemini와 GPT-4o의 대결구도를 사용자들에게 다시 상기시켜 큰 마케팅 비용없이 GPT-4o을 홍보할 수 있었다. (실제 주요 IT 매체들이 GPT-4o와 Gemini를 비교 분석한 기사들을 쏟아내면서 남의 잔치에 꽁짜로 초대되는 효과를 거두었다.)

gpt2-chatbot의 정체는 GPT-4o

2024년 4월 27일 gpt2-chatbot이라는 이름의 AI 모델이 AI 벤치마크 웹사이트 LMSYS Chatbot Arena에 조용히 등장하였다. 이 모델은 GPT-4를 능가하는 수준의 대화 능력과 추론 능력을 가졌으며 일부 테스트에서는 GPT-4보다 2배 높은 점수를 기록하여 큰 화제가 되었다. 당시 사람들은 이 “정체 불명”의 모델의 놀라운 성능 때문에 GPT-4의 차기버전이거나 GPT-2 모델을 튜닝한 고성능 모델일 것으로 추측하였다.

Sam Altman은 X를 통해 OpenAI가 gpt2-chatbot를 만들었음을 시인하였으며 이후 OpenAI가 5월 13일 GPT-4 업데이트를 공개한다라는 트윗을 남겼다.

GPT-4o의 라이브 데모가 끝난 후, OpenAI 연구원인 William Fedus가 X를 통해 화제를 모았던 gpt2-chatbot이 GPT-4o임을 공개하였다.

GPT-4o의 주요 업데이트

OpenAI가 발표한 새로운 모델의 이름은 GPT-4o로 ‘o’는 omni를 의미한다. Omni는 “모든”, “어디에나”,어디서나” 등의 뜻을 가진 라틴어 접두사이다.

Note:이름에 접미사 또는 접두사가 붙으면 향후 이름을 짓는데 문제가 발생할 것으로 보인다. 샘 알트만도 ChatGPT의 작명을 끔직하다라고 인정한 적이 있다.

GPT-4 turbo에 비해 개선된 GPT-4o의 주요 사항은 다음과 같다.

GPT-4 수준의 지능 제공

GPT-4o는 GPT-4와 동일한 수준의 지능을 제공한다. (이후 벤치마크 결과에서 확인할 수 있다.)

무료 사용

무료 사용자에게도 제공된다. 하지만 사용량과 수요에 따라 무료 사용자가 GPT-4o로 보낼 수 있는 메시지 수에 제한이 있다. 제한에 도달하면 ChatGPT는 자동으로 GPT-3.5로 전환되어 사용자가 대화를 계속할 수 있다.

Plus 사용자에게는 무료 사용자보다 최대 5배 더 많은 메시지 제한이 적용되며 Team 및 Enterprise 사용자에게는 훨씬 더 높은 제한이 적용된다.

Note: 2024년 5월 13일 기준, ChatGPT plus 사용자는 GPT-4o에서 max. 80개 메시지/3hours, GPT-4에서 max. 40 메시지/3hours를 사용할 수 있다.

강화된 Multi-Modal 능력

GPT-4o는 기존 모델에 비해 vision 및 audio 이해 능력이 뛰어나다. GPT-4o는 text, audio, image, video의 모든 조합을 입력으로 받아들이고, text, audio, image의 모든 조합을 생성한다.

향상된 속도

GPT-4o는 GPT-4 turbo에 비해 2배 더 빠르게 동작한다.

비용절감

GPT-4o는 GPT-4 turbo에 비해 50% 더 저렴하다.

OpenAI 제품별 가격 비교

다국어 지원 향상

비영어권 50개 이상의 언어에 대해 향상된 품질과 속도를 제공한다.

실시간 음성 인식

GPT-4o 이전에는 Voice Mode(음성 모드)를 사용하여 평균 2.8초(GPT-3.5)와 5.4초(GPT-4)의 지연시간으로 ChatGPT와 대화할 수 있었다. GPT-3.5와 GPT-4의 음성 모드는 세 개의 개별 모델로 구성된 파이프라인으로 구성되어 있다.

  • 1st 모델 : 오디오 → 텍스트
  • 2nd 모델: 텍스트 생성
  • 3rd 모델: 텍스트 → 오디오

이 과정에서 GPT-4는 tone, multi-spekaers, 배경 소음을 직접 관찰할 수 없으므로 웃음, 노래, 감정 표현을 출력할 수 없는 등 많은 정보를 잃게 된다. 반면, GPT-4o는 text, vision, audio에 걸쳐 하나의 새로운 모델로 End-to-End로 학습되었다. 이와 같이 GPT-4o가 모든 입력과 출력이 동일한 뉴럴 네트워크에 의해 처리되므로 오디오 입력에 대해 최소 232ms 이내에응답할 수 있도록 개선되었다. (평균 320ms)

Tokenizer 개선

OpenAI는 GPT-4o의 tokenizer를 개선하여 다양한 언어에서 토큰의 개수를 크게 줄였다. 예를들어 구자라티어는 토큰의 개수를 최대 4.4배로 감소시켰고 한국어는 토큰의 개수를 1.7배 감소시켰다. 반면 영어는 1.1배만 감소하였다. Tokenizer의 성능이 높을수록 토큰 수를 줄일 수 있어 데이터 압축 효율성을 높일 수 있다. 즉, 입력/출력은 token 개수에 따라 비용을 지불하므로 좀더 저렴한 비용으로 GPT-4o를 사용할 수 있게 되었다.

Gujarati vs Korean vs English tokenizer 비교
언어별 tokenizer 성능 (클수록 압축률이 향상됨)

모델 평가

GPT-4o는 text, reasoning, codig intelligence에서 GPT-4 turbo 수준의 성능을 달성하였다.

텍스트 평가

GPT-4o는 0-shot CoT(Chain of Thought)방식의 MMLU(Multitask Multilingual Understanding)에서 SOTA인 88.7%를 기록하며 기존 GPT-4 turbo 성능보다 2.2% 향상되었다. (전통적인 5-shot no-CoT 방식의 MMLU 테스트에서는 GPT-4o는 87.2%의 높은 스코어를 기록하였다.)

Text Evaluation (0-shot COT MMLU)

비전 이해 평가

GPT-4o는 0-shot 방식의 MMMU(Multi-Modal Multi-Task Understanding), MathVista(Mathematical Reasoning benchmark with Visual Contexts) 등의 벤치마크가 포함된 시각인지 벤치마크(visual perception benchmark)에서 SOTA 성능을 달성하였다.

Vision understanding evals (0-shot, with MMMU, MathVista & ChartQA as 0-shot CoT)

음성 번역 성능

GPT-4o는 기존 Whisper-v3를 압도하는 성능을 보이며 음성 번역 벤치마크에서 SOTA 성능을 달성하였다.

Audio translation performance

GPT-4o 라이브 데모

OpenAI는 GPT-4o 발표회에서 다음과 같은 5 종류의 라이브 데모를 준비하였다.

  • 실시간 음성 대화
  • 수학 문제 풀기
  • 코드 분석 및 시각화된 결과 분석
  • 실시간 번역
  • 얼굴 표정 인식

실시간 음성 대화

이번 GPT-4o 라이브 데모에서 아이폰용 ChatGPT 앱을 이용하여 실시간 대화 음성에 대한 데모를 진행하였다. (ChatGPT 앱 오른쪽 하단의 오디오 아이콘을 클릭하면 사용할 수 있다.)

기존 voice mode와 GPT-4o의 다른 점은 다음과 같다.

  • 사용자는 자신이 말할 차례가 돌아올 때까지 기다릴 필요없이 대화를 시작할 수 있다.
  • 지연시간이 없이 실시간으로 반응한다.
  • 모델이 인간의 감정을 포착할 수 있다.

인상적인 점 #1:

GPT-4o는 대화 상대가 긴장을 하여 가쁘게 숨을 쉬는 것을 인지하고 천천히 호홉할 것을 조언한다.

Note: 이 데모에서 사용자의 음성을 인식함과 동시에 사용자의 표정까지 인식하는지 분명하지 않다.

인상적인 점 #2:

  • GPT-4o는 사용자에 요구에 따라 로봇과 사랑에 대한 동화를 들려줄 때 보통 목소리부터 매우 극적이고 감정이 풍부한 목소리, 노래로 흥얼거리는 것까지 다양한 감정 스타일로 음성을 생성할 수 있다.

인상적인 점 #3:

  • GPT-4o가 음성으로 대답을 할 때 사용자는 언제든지 인터럽트를 걸고 사용자의 지시를 음성으로 GPT-4o에 전달할 수 있다.

수학 문제 풀기

사용자는 GPT-4o에게 종이에 쓰인 일차 방정식(3x+1=4)을 보여주고 문제 풀이를 도와달라고 요청한다. 이때 GPT-4o는 정답을 알려주는 것이 아니라 힌트만을 알려달라고 요청받았다.

# 인상적인 점 #1:

  • GPT-4o는 비전을 통해 일차 방정식을 완벽하게 인식한 후 문제 풀이 과정을 돕는다. 기존에 텍스트로 입력받았던 것을 이젠 비전으로 입력받을 수 있게 되었다.

# 인상적인 점 #2:

  • 사용자가 “I ♡ ChatGPT”라는 문장을 보여줬을 때 GPT-4o는 ♡라는 emoji까지 인식하고 사용자에게 감사 인사를 전하였다.

OpenAI는 이 데모를 통해 GPT-4o는 수학 문제는 물론 emoji까지 비전을 통해 인식할 수 있는 단계까지 왔음을 보여준다.

코드 분석 및 시각화된 결과 분석

사용자가 GPT-4o에 코딩 문제를 보여주고 무엇을 위해 작성된 코드인지 설명하라고 명령한다.

인상적인 점 #1

  • GPT-4o는 사용자가 지시한대로 코드가 어떠한 동작을 하는지 설명을 하고 코드가 실행될 때 어떠한 결과가 있는 것까지 예측하였다.

인상적인 점 #2

  • GPT-4o는 코드를 이해하는 것뿐만 아니라 코드를 실행시켜 나오는 그래프를 비전으로 인식하고 사용자들의 질문에 답변할 수 있을 정도의 해석 능력을 가지고 있다.

실시간 번역

GPT-4o를 이용해 실시간 번역이 가능함을 보여주었다. 한 사람이 이탈리아어로 말하면 영어로 번역하고 다른 한 사람이 영어로 말하면 이탈리아어로 번역해달라고 지시하였을 대 GPT-4o는 이탈리아어-영어 통역사가 되어 이탈리아어 사용자와 영어 사용자의 대화를 정확하게 통역해 주었다.

인상적인 점 #1

  • 지연시간 없이 실시간으로 통역이 가능하였다.

Note: GPT-4o가 모바일환경에서 사용되었을 때 데모에서 보여준 것처럼 지연시간없이 실시간으로 대화가 가능할지 궁금하다. on-device AI의 주요 use-case로 실시간 번역이 있는데 on-device AI의 번역 성능이 GPT-4o에 근접할 수 있을지 궁금하다. on-device AI에 사용되는 SLM이 multilingual 환경에서도 잘 동작하는지 최신 연구 성과를 확인해봐야겠다.

얼굴 표정 인식

GPT-4o는 비전을 통해 사람의 얼굴 표정을 보고 사람의 감정을 정확하게 인식하였다.

인상적인 점 #1

  • 사람의 표정을 비디오 스트림으로 실시간으로 처리하여 표정으로부터 사람의 감정을 유추하였다.

Note: GPT-4o는 사람의 얼굴을 보았을 때 나무 표면의 사진으로 착각하였다가 사용자가 현재 상황을 설명하자 제대로 얼굴 표정을 인식하기 시작하였다. 단순한 실수인지 실제 상황에서도 주변 환경과 사람을 잘 구별 못하는 것인지는 실제 테스트를 해봐야 할 것 같다.

비판

Sam Altman은 GPT-4o 라이브 방송이 끝나고 X에 “her”라는 멘트를 남겼다. “Her”는 인간과 AI의 사랑을 그린 2014년 영화로 스칼릿 요한슨이 AI 목소리(사만다)를 연기하였다. 이 트윗은 10년만에 영화 속 이야기가 실현되었다라는 것을 강조한 것이다.

하지만 GPT-4o 공개 이후, GPT-4o의 목소리 “Sky”가 공교롭게도 스칼릿 요한슨의 목소리와 유사하다라는 지적이 있었다. 실제 스칼릿 요한슨은 CNBC와 인터뷰에서 샘 알트먼이 작년 9월에 이어 GPT-4o 발표 이틀 전까지도 스칼릿 요한슨의 목소리를 사용할 수 있도록 요청하였다라고 전하며 개인적인 이유로 거절하였다고 한다. 스칼릿 요한슨은 법적 대응을 시사하며 OpenAI와 샘 올드먼에게 “Sky”가 만들어진 과정을 자세히 설명해달라는 서한을 보냈다.

결국 OpenAI는 ChatGPT의 음성을 선정하는 방법을 공개하고 스칼릿 요한슨의 목소리와 유사한 “Sky” 제품 사용을 일시적으로 중단하였다. OpenAI는 2023년 9월 공개된 ChatGPT의 voice mode는 성우들로부터 샘플링된 목소리를 사용하였으며 OpenAI 내부팀은 제품 및 연구 관점에서 검토 끝에 Breeze, Cove, Ember, Juniper, Sky가 최종 선택되었다. OpenAI에 따르면 스칼릿 요한슨에게는 총 2차례 2023년 9월 11일, 2024년 5월 10일에 성우로 참여해줄 것을 요청하였다고 한다. “Sky”는 스칼릿 요한슨의 목소리를 모방한 성우를 기용하여 만든 것이다.

OpenAI와 같이 이젠 거대해진 기업이 예술가와 배우들의 동의없이 그들의 이미지나 목소리를 사용하는 것은 법적, 윤리적 문제를 일으킬 수 있다. AI 기술의 발전과 더불어 일반 대중들에게 투명성과 신뢰성을 제공하지 못한다면 AI 발전을 오히려 저해할 수 있다. Sam Altman이 2023년 11월 이사회에 의해 갑자기 해고된 것도 Sam이 일관되지 않고 솔직하지 않았다는 이유였다. 스칼릿 요한슨의 목소리를 직접 사용한 것은 아니더라도 의도적으로 그녀의 목소리를 모방한 성우를 기용하였다면 윤리적인 비판을 피할 수 없다.

GPT-4o에 대한 필자의 생각

Sam Altman은 GPT-4o 발표가 끝난 후 그의 블로그에 GPT-4o에 대해 두 가지 포인트를 강조하였다.

첫째, 저희 미션의 핵심은 매우 유능한 AI 도구를 사람들에게 무료로 또는 저렴한 가격에 제공하는 것입니다. 저는 세계 최고의 모델을 광고나 그와 유사한 것 없이 ChatGPT에서 무료로 사용할 수 있게 한 것에 대해 매우 자랑스럽게 생각합니다.

둘째, 새로운 음성(및 동영상) 모드는 제가 사용해 본 컴퓨터 인터페이스 중 최고입니다. 마치 영화에 나오는 인공지능처럼 느껴지는데, 이것이 현실이라는 사실이 아직도 조금은 놀랍습니다. 사람 수준의 응답 시간과 표현력을 갖추게 된 것은 큰 변화입니다.

Sam Altman이 강조한 것은 OpenAI가 사람과 대화하기 위해 인간과 같이 상황을 인식하고 실시간 응답 속도를 가진 multi-modal 모델을 무료 또는 저렴하게 제공한다는 것이다.

인간과 같은 상황인 인식

음성 인식 AI인 Siri와 Alexa가 실패한 이유는 음성이라는 인터페이스를 사용하였지만 한정된 질문과 답변 목록만을 이해할 수 있어 LLM 등장 이후 Siri와 Alexa는 퇴물이 되었다. (사실 LLM 등장이전에도 애물단지였다.)

즉, Siri와 Alexa가 실패한 원인은 그것들이 범용성과 개인화와 거리가 멀었기 때문이다. 음성 비서지만 사용자의 말귀를 잘못 알아듣고 일반적인 질문에 답변을 거부하였다. 그리고 사용자의 상황이나 history를 기억하지 않았기 때문에 사용자는 이전에 내렸던 지시를 매번 반복해서 내려야 했다. 그리고 인간과의 상호작용 또한 매우 단조로운 패턴이었다. (IoT 제어, 물건 주문 등)

하지만 GPT-4o는 인간과 같이 상황을 인식하여 실시간으로 답변을 할 수 있어 범용성과 개인화된 경험을 제공할 수 있는 진정한 의미의 Personal AI Assistant을 위한 기반 기술이 될 것으로 전망된다.

실시간 응답 속도

그동안 음성 모드에서 GPT-4가 응답에 최대 5.4초가 걸린 반면, GPT-4o는 응답 시간을 평균 0.32초로 크게 낮추었다. 이와 같은 실시간 응답 속도는 종전보다 서버의 latency 제약을 더 tight하게 적용시켜야 하므로 추론 리소스에 대규모 투자가 필요할 것으로 예측된다.

최근 애플은 OpenAI과 협력을 통해 아이폰에 ChatGPT을 탑재하기 위한 계약이 임박했다라고 Bloomberg가 보도했다. 빠르면 2024년 6월에 열리는 Apple의 WWDC(Worldwide Developers Conference)에서 Apple-OpenAI간 파트너쉽과 Siri의 업데이트 또는 아이폰에 ChatGPT 탑재가 발표될 것으로 보인다.

이와 같이 아이폰에 ChatGPT가 기본 탑재된다면 ChatGPT 사용자가 폭발적으로 증가할 것으로 전망되며 늘어나는 사용자만큼 추론 리소스 증설이 어렵다면 실시간 응답속도가 기대에 못 미칠 가능성도 있다.

저비용

사용자층의 증가 및 실시간 응답 속도 지원을 위해서 추론 리소스가 필수적이다. 기존 NVIDIA GPU는 초고가로 GPT-4o와 같은 모델 서비스 비용을 낮추기 위해선 한계가 있는 것이 사실이다. 이와 같은 서비스 비용을 절감하기 위해선 Google과 Amazon은 자체 AI chip 설계 능력을 갖추고 이미 자사 서비스내 자체 AI chip의 비중을 높이고 있으며 Meta, MS 역시 늦었지만 자체 AI chip 개발로 선회하여 AI chip 설계 역량을 확보 중이다.

앞에서 언급한 아이폰에 탑재될 ChatGPT 역시 초기에는 클라우드기반으로 작동될 가능성이 높다. (아이폰에 ChatGPT와 같은 서비스를 On-device에서 실행하는 것은 현재 기술로는 아직 시기상조일 것으로 보인다.)

그동안 Apple은 독자적인 에코시스템을 구축하여 타사의 제품이 들어오는 것을 허용하지 않았지만 AI에서만큼은 OpenAI에 의존해야 하는 처지가 된 것이다. OpenAI는 MS Azure를 사용하고 있는 만큼 Apple은 간접적으로 MS에 의존해야 하는 입장이 되었다. (천하의 Apple도 AI 시대에 제대로 대처하지 못한 것이 사실이다.)

최근 월스트리트 저널은 Apple이 데이터센터 인공지능 칩 개발 프로젝트인 코드명 ‘ACDC’를 추진 중이라고 밝혔다. 이 칩은 Apple의 데이터센터 뿐만이 아니라 타사에 운영하는 서버에도 배치될 예정이다. 또한 M2 Ultra 및 M4 칩을 활용하여 자체 AI 서버 구축을 추진 중에 있다라는 소식 또한 전해졌다.

Apple은 이미 최상위급 자체 AI chip 설계 능력을 보유하고 있으며, 모바일에 활용하는 M칩을 AI 서버에 활용한다면 규모의 경제를 통해 저비용으로 추론 인프라스트럭처를 독자 구축할 수 있다. 장기적으로는 ChatGPT를 Apple 칩에서 돌아가도록 migration을 추진할 수도 있으며 자체 모델을 자체 AI 서버에서 실행시켜 AI 서비스 비용 파괴 경쟁에 뛰어들 수 있을 것으로 전망된다.

레퍼런스

[1] Hello GPT-4o

[2] Introducing GPT-4o and more tools to ChatGPT free users

[3] Sam Altman Blog

[4] Pricing

[5] OpenAI didn’t copy Scarlett Johansson’s voice for ChatGPT, records show

[6] Benchmark Results

[7] How the voices for ChatGPT were chosen

[8] Apple plans to use M2 Ultra chips in the cloud for AI

--

--

daewoo kim

AI developer & Author | Working@semiconductor-industry. I write and share about what I learn.