[리뷰] Google IO 2024 : Highlights 정리

daewoo kim
24 min readJun 16, 2024

--

Google IO 2024는 2024년 5월 14일(현지 시각) 개최되었다. Google IO 2024는 구글 자체 모델인 Gemini를 전면에 내세운 것이 특징이었으며 구글의 대부분 제품에 Gemini를 통합하려는 의지를 엿볼 수 있는 이벤트였다. Goolge IO 2024가 끝난지 한달이 되어 늦은 감이 있지만 다음의 키워드를 중심으로 Google IO 2024를 살펴보고 Google IO 2024에서 선 보인 구글의 전략에 대해서 총평하도록 하겠다.

  • Gemini & Gemma 모델 업데이트
  • Project Astra
  • Trillium (6th Gen TPU)
  • Veo: 고급 비디오 생성 모델
  • Imagen 3: 고품질 텍스트-이미지 생성 모델
  • Music AI Sandbox
  • Google Labs의 Video, Image, Music 생성 도구
  • Gemini Advanced 가입자들에게 제공되는 Gemini 1.5 Pro의 기능
  • Generative AI in Search
  • Gemini for Google Workspace
  • Google Photos
  • Android + Gemini
  • 그 밖에

Gemini & Gemma 모델 업데이트

Gemini

구글은 기존 Gemini Ultra/Pro/Nano 모델 라인업에 빠르고 효율적으로 대규모 서비스를 제공할 수 있도록 설계된 경량 모델 Gemini 1.5 Flash를 추가하였다. 또한 2024년 2월 발표한 Gemini 1.5 Pro의 성능을 대폭 향상시켰다.

Gemini 1.5 Pro 와 1.5 Flash 모두 1M 토큰의 컨텍스트 윈도우를 제공하며 멀티모달을 지원한다. (Gemini 1.5 Pro의 경우, Google AI Studio 또는 Google Cloud 고객용 Vertex AI에서 대기자 명단에 등록하면 최대 2M 토큰의 컨텍스트 윈도우를 사용할 수 있다.)

Gemma

Gemma는 Gemini 모델을 만드는 데 사용된 기술을 바탕으로 제작된 경량의 오픈 모델 제품군이다. 구글은 이번 Google IO에서 2024년 초에 발표된 Gemma1(2B or 7B)의 후속 모델인 Gemma2와 VLM(Vision Language Model)인 PaliGemma를 발표하였다.

Gemma2(27B) vs Grok-1(314B), Llama3(70B) 성능 벤치마크
구글의 AI 모델 family (summaried by author)

Project Astra(Advanced Seeing and Talking Responsive Agent)

Project Astra는 일상 생활에 유용하게 사용할 수 있는 범용 AI 에이전트이다. AI 에이전트가 유용하려면 복잡한 세상을 실시간으로 이해하고 사용자와 자연스럽게 상호작용할 수 있어야 한다. 그 중 가장 중요한 것은 사용자와 AI 에이전트가 지연이나 지체없이 자연스럽게 대화하기 위해 AI 에이전트 응답 시간을 실시간 대화 수준으로 낮추는 작업이다.

구글은 이러한 상호작용의 속도와 품질을 향상시키기 위해 모델의 인식, 추론, 대화 방식을 개선시켜 Project Astra에 적용하였다. Astra는 Gemini 모델과 기타 task별 특화 모델을 기반으로 구축되었다.

구글은 Project Astra를 소개하면서 몇가지 인상적인 기능을 시연하였다. 스마트폰으로 시연된 이 데모에서는 멀티모달 정보를 처리하고 사용자의 질문에 실시간으로 응답하였다. (지난 2월 Gemini의 멀티모달이 편집되었다는 비판이 있어 이번 데모에서는 single-take로 촬영되었다.)

Astra는 스마트폰 카메라를 통해 주변 환경을 인식하고 인간과 상호작용할 수 있다. 다음은 Astra의 몇 가지 사용 사례이다.

픽셀폰을 이용한 데모

  • #1. 사물 인식: 사용자가 PC 스피커의 특정 부분을 가르키며 어떤 역할을 하는지 물어보면 Astra는 speaker의 해당 파트에 대해서 답변한다.
  • #2. 코드 인식: Astra는 화면 속의 코드를 인식하여 암호화/복호화 코드라고 답변한다.
  • #3. 장소 인식: 사용자가 스마트폰 카메라에 포착된 풍경을 보여주며 현재 위치를 물어보면 Astra는 이에 답변한다.
  • #4. 개인화 & 기억: 사용자가 안경의 위치를 물어보면 Astra는 사용자 안경의 위치에 대해서 알려준다.

스마트 글래스를 이용한 데모

  • #1. 문제 해결: 사용자가 화이트보드의 간단한 시스템 다이어그램을 보여주며 시스템을 빠르게 하기 위한 방법을 Astra에게 질문하면 Astra는 적합한 방법(e.g. 캐시 추가)을 제안한다.
  • #2. 창의적인 언어 사용: 호랑이 인형과 골든 리트리버를 동시에 보여주면서 “Give me a band name for this duo”라고 질문하면 Astra는 “Golden stripes”로 답변한다. 이는 호랑이의 줄무늬 (“stripe”)와 골든 리트리버(“Golden”)을 합성한 일종의 언어 유희이다.

Project Astra는 아직 개발 중이며 구글은 올해 후반 일부 기능을 Gemini 앱과 같은 구글 제품에 제공될 것이라고 한다.

Trillium (6th Gen TPU)

Generative AI는 기술 상호작용 방식을 변화시키고 비즈니스에 큰 효율성을 제공한다. 그러나 이를 위해서는 고성능 컴퓨팅, 메모리 및 통신 자원이 필요하다. 구글은 지난 10년 동안 맞춤형 AI 전용 하드웨어인 TPU를 개발해 이러한 요구를 충족시키고, 규모와 효율성의 한계를 뛰어넘기 위해 노력해왔다.

구글은 Google IO 2024에서 발표된 Gemini 1.5 Flash, Imagen 3, Gemma2와 같은 모델들이 모두 TPU로 학습되고 사용자들에게 제공되고 있음을 강조하며 6세대 TPU인 Trillium을 발표하였다. Trillium은 다음과 같은 특징을 갖는다.

성능 향상

  • Trillium는 이전 세대(TPU v5e) 대비 4.7배 향상된 성능을 제공한다. 이를 위해 MXU의 크기를 확장하고 클럭 속도를 높였다.
  • 초대형 임베딩을 처리하기 위해 3세대 SparseCore가 탑재되어 있다.

Note: 아래 표에서 Trillium은 197TFLOPS(TPU v5e BF16)*4.7=927.9TFLOPS로 추정된다. Trillium을 TPU v5p와 비교한다면 약 2배 향상된 것으로 보인다. (927.9 TFLOPs / 459 TFLOPs).

에너지 효율

  • AI 성장을 지속하기 위해 Trillium은 TPU v5e 대비 에너지 효율성이 67% 이상 향상되었다.

2x ICI 및 HBM 용량 및 대역폭

  • 더 큰 weight와 KV cache를 처리하기 위해 Trillium TPU는 HBM 용량과 BW를 두 배로 증가시켰다.
  • ICI BW를 2x로 늘려 수천 개의 칩으로 학습/추론 작업을 확장할 수 있다.
  • Custom Optical ICI interconnect와 Google Jupiter Networking을 전략적으로 조합하여 학습 및 추론 작업을 위해 수만 개의 TPU 칩을 확장할 수 있다.

TPU pod의 확장성

  • Trillium TPU는 대규모 AI 워크로드를 처리하기 위한 확장성을 제공한다.
  • 단일 TPU pod: Trillium은 단일 고대역폭, 저지연 Pod에서 최대 256개의 TPU를 확장할 수 있다.
  • 수백 개의 TPU pod으로 확장성: multislice 기술과 Titanium IPU (Intelligence Processing Units)를 통해 수만 개의 Trillum TPU 칩을 연결하여 수백 개의 Pod로 확장할 수 있다.

TPU를 사용하는 고객

구글의 Trillium TPU는 다양한 고객들이 AI 모델과 에이전트를 발전시키는 데 도움을 주고 있다.

  • Essential AI: 인간과 컴퓨터의 파트너십을 강화하며, Trillium을 사용해 비즈니스 운영 방식을 혁신하고 있다.
  • Nuro: 로보틱스를 통해 더 나은 일상을 창조하며, Cloud TPU로 모델을 학습하고 있다.
  • Deep Genomics: AI를 활용한 신약 개발을 추진하며, Trillium을 통해 환자들의 삶을 변화시키는 모델을 개발하고 있다.
  • Deloitte: Trillium을 활용해 생성형 AI로 비즈니스를 혁신하고 있다.

Veo: 고급 비디오 생성 모델

Veo는 구글의 최신 비디오 생성 모델로, 1080p 고화질 비디오를 다양한 시네마틱 스타일로 생성할 수 있다. 이 모델은 자연어와 시각적 의미를 깊이 이해하여 사용자의 창의적 비전을 정확히 반영한다.

Veo는 “타임랩스”나 “항공 촬영”과 같은 시네마틱 용어를 이해하며, 일관되고 현실감 있는 동작을 생성하며 1분 이상의 비디오를 생성할 수 있다. Veo에 다음과 같은 프롬프트를 입력하였을 때 생성하는 비디오 클립은 다음과 같다.

Veo는 생성 비디오 모델인 Generative Query Network(GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, Lumiere 등의 기술들과 구글의 트랜스포머 아키텍처와 Gemini를 통합하여 품질과 출력 해상도를 향상시켰습니다.

Veo는 현재 VideoFX를 통해 선택된 창작자들에게 프리뷰로 제공되며, 앞으로 YouTube Shorts 등 다양한 제품에 적용될 예정이다.

Imagen 3: 고품질 텍스트-이미지 생성 모델

Imagen 3는 구글의 최고 품질의 텍스트-이미지 생성 모델로, 세부 사항을 포함한 photorealistic 이미지를 생성한다. 이 모델은 자연어를 잘 이해하여 긴 프롬프트에서도 세부 사항을 잘 반영한다. 다양한 스타일을 마스터하여 높은 수준의 이미지를 생성하며, 특히 텍스트 렌더링 능력이 뛰어나다.

이는 개인화된 생일 메시지, 프레젠테이션의 제목 슬라이드 등을 생성하는 데 유용하다. Imagen 3는 현재 ImageFX를 통해 선택된 창작자들에게 프리뷰로 제공되며, 이번 여름 Vertex AI에서도 이용 가능하다.

Music AI Sandbox

구글은 YouTube와 협력하여 AI가 예술과 음악 창작에 미치는 역할을 탐구하고 있다. Wyclef Jean, Justin Tranter, Marc Rebillet 등과 협업하여 Music AI Sandbox를 개발하였으며, 이는 새로운 악기 섹션을 만들고 소리를 변형시키는 등 창의적 작업을 가능하게 한다. 이 도구를 통해 다양한 데모 녹음이 발표되었으며, 이들은 유튜브 채널을 통해 확인할 수 있다.

Google Labs의 Video, Image, Music 생성 도구

사용자들은 Google Labs에서 AI를 사용하여 동영상, 이미지, 음악을 만들 수 있도록 돕는 새로운 도구(VideoFX, ImageFX, MusicFX)들을 실험할 수 있다. 구글은 더 많은 국가와 언어로 이 도구들을 제공되며 제작자와 협력하여 책임감 있게 도구를 개발하고 있다. 이를 위해 VideoFX, ImageFX, MusicFX에서 제작되는 모든 콘텐츠에는 SynthID로 디지털 워터마킹이 적용된다.

VideoFX

  • VideoFX는 텍스트 설명만으로 아이디어를 비디오 클립으로 전환할 수 있는 도구이다.
  • 이번 Google IO 2024에서 최초로 공개된 Veo 모델을 기반으로 시각적 스타일 전반에 걸쳐 감정적인 뉘앙스를 포착하고 인상적인 영화 효과를 연출하는 콘텐츠를 제작할 수 있다.
  • 미국에서 private preview 제공 중이며 대기자 명단에 등록 가능하다.

ImageFX

  • ImageFX는 이미지 생성 및 편집 도구이다. (2024년 2월 최초 출시)
  • 커뮤니티에서 가장 많이 요청한 기능이였던 더 많은 편집 제어 기능을 추가하여 이미지 위에 브러시를 대는 것만으로 요소를 추가, 제거 또는 변경할 수 있다.
  • ImageFX는 Imagen 3 모델을 사용하여 더욱 사실적인 이미지 생성할 수 있다. 대기자 명단에 등록하여 ImageFX를 통해 ImageFX에 접근 가능하다.
  • 현재 100개국에서 사용 가능하다.

MusicFX

  • MusicFX는 AI를 활용한 음악 생성 도구로 Jacob Collier와 같은 아티스트들과 협업하여 AI 음악 제작의 한계를 확장하고 있다.
  • MusicFX에는 장르와 악기를 조합하여 비트를 믹싱할 수 있는 ‘DJ 모드’라는 새로운 기능이 있어, 제너레이티브 AI의 힘을 이용해 음악 스토리에 생동감을 불어넣는다.
  • 현재 100개국에서 사용 가능하다.

Gemini Advanced 가입자들에게 제공되는 Gemini 1.5 Pro의 기능

구글은 Gemini 1.5 Pro를 35개 이상의 언어로 Gemini Advanced 가입자에게 제공하고 있다. Gemini는 1M 토큰 컨텍스트 창, 새로운 대화 경험 및 사용자 대신 작업을 수행할 수 있다.

긴 컨텍스트 윈도우

  • Gemini Pro 1.5는 최대 1M 토큰의 컨텍스트 윈도우를 제공하여 1,500페이지에 달하는 문서나 100개의 이메일을 한 번에 요약하고 이해할 수 있다.
  • Gemini Pro 1.5의 긴 컨텍스트 윈도우를 활용하기 위해 구글 드라이브 또는 디바이스에서 직접 Gemini Advanced로 파일을 업로드하는 기능을 추가할 수 있다.
  • 긴 연구 논문이나 복잡한 문서를 빠르게 분석하여 통찰력을 빠르게 얻고 사용자의 질문에 답변할 수 있다.

Gemini Live

  • Google Message의 Gemini를 사용하면 친구에게 메시지를 보내는 동일한 앱에서 Gemini와 채팅할 수 있다.
  • 몇 달 이내 Gemini Advanced 가입자용 Gemini Live가 출시될 예정이다
  • Gemini Live는 최첨단 음성 기술을 사용하여 Gemini와 더욱 직관적으로 대화할 수 있는 새로운 모바일 대화 환경이다.
  • Gemini Live를 사용하면 Gemini와 대화할 수 있으며, Gemini가 응답할 수 있는 다양한 자연스러운 음성 중에서 선택할 수 있다.

복잡한 계획 수립

  • Gemini Advanced는 개인 맞춤형 여행 일정이나 기타 계획을 수립할 수 있으며, Gmail, Google Maps, Search를 활용해 최적화된 일정을 제공할 수 있다.
  • 이 새로운 계획 경험은 몇달 이내 Gemini Advanced에 제공될 예정이다.

맞춤형 Gems 생성

  • Gemini Advanced 구독자는 Gemini의 개인화 버전인 Gem을 생성할 수 있다.
  • Gem에서 수행할 작업과 응답 방식을 간단히 설명하면 Gemini가 해당 지침을 받아 특정 요구 사항에 맞는 Gem을 생성한다. (e.g. “당신은 나의 달리기 코치이다. 매일 달리기 계획을 알려주고 긍정적이고 낙관적이며 동기를 부여하라.”하라고 사용자가 지시하면 클릭 한번으로 사용자의 특정 요구사항을 충족하는 Gem을 만들 수 있다.)

Google 앱과의 통합

  • 곧 Google Calendar, Tasks, Keep을 포함하여 더 많은 Google 도구를 Gemini와 연결할 예정이다.
  • 일정을 생성하거나 쇼핑 목록을 작성하는 등의 작업을 쉽게 할 수 있다.

Generative AI in Search

AI overview = Google Search + Gemini

구글은 다단계 추론, 계획, 멀티모달을 포함한 Gemini의 고급 기능을 구글의 검색 시스템과 결합한 AI overview를 출시하였다. 이제 사용자는 그동안 구글검색을 통해서 얻을 수 없었던 연구부터 계획, 브레인스토밍까지 모든 것을 물어볼 수 있다. 이를 위해 구글은 검색에 맞춤화된 새로운 Gemini 모델을 사용한다.

AI Overview로 빠른 답변 얻기

AI overview는 주제에 대한 빠른 overview와 자세한 내용을 포함 링크를 사용자에게 제공한다. AI overview의 검색 결과는 해당 쿼리에 대한 기존 웹 목록을 표시하는 것보다 컨텐츠 게시자와 창작자에게 더 많은 트래픽을 제공할 수 있다. 구글은 미국을 시작으로 연말까지 10억명 이상의 사용자들이 이를 사용할 것으로 전망하였다.

아래 그림은 “How do you clean a fabric sofa?” 라는 질문에 대한 AI overview의 답변 결과와 기존 웹 검색 결과를 보여 준다.

매우 복잡한 질문에 대답하기

AI overview의 맞춤형 Gemini 모델은 다단계 추론 기능을 통해 더 복잡한 질문에 답변할 수 있도록 도와준다.

아래 그림은 “Find the best yoga or Pilates studios in Boston and show me details on their intro offers, and walking time from Beancon Hill”에 대한 AI overview의 답변에 대한 예시이다.

미리 계획 능력

AI overview는 사용자 질문의 정답이나 정보를 찾는 것 외 사용자가 계획을 세우는 것을 도울 수 있다. 식사 및 여행 계획부터 미국의 Search Labs에서 제공되며 올 하반기에는 사용자 정의 기능, 파티, 밤 데이트, 운동과 같은 카테고리가 추가될 예정이다.

다음 예시는 “create a 3 day meal plan for a group that’s easy to prepare”에 대한 AI overview의 답변에 대한 예시이다. 사용자는 답변 내용 중에 “Replace”을 선택하고 “make it veggie-friendly”로 검색 후 채식으로 변경할 수 있다. 이렇게 생성된 식사 계획은 Docs나 Gmail로 빠르게 보낼 수 있다.

영상 검색

비디오의 이해 기술의 발전으로 AI overview에서 영상 검색이 가능하게 되었다. 사용법은 Google Lens에서 동영상으로 촬영한 후 질문하는 것이다.

아래 그림은 턴테이블이 제대로 작동하지 않을 때 동영상을 촬영한 후 “why will this not stay in place”와 같이 영상 검색을 하는 것과 AI overview의 답변에 대한 예시이다. AI overview는 영상을 인식한 후 문제점 해결을 위한 단계와 리소스 결과를 출력한다.

Gemini for Google Workspace

Google Workspace용 Gemini는 Gmail에서 이메일 초안 작성부터 스프레드시트에서 프로젝트 계획 정리에 이르기까지 개인과 기업이 구글 앱을 더 많이 활용할 수 있도록 도와준다. Workspace 측면 패널의 Gemini는 이제 Gemini 1.5 Pro를 사용하며, 새로운 Workspace용 Gemini 기능이 Gmail 모바일 앱 등에 제공된다.

Workspace 앱의 측면 패널에서 Gemini 1.5 pro에 액세스

Gmail, Docs, Drive, Slides, Sheets의 측면 패널에 있는 Gemini는 Gemini 1.5 Pro를 사용 가능하게 된다. 더 긴 컨텍스트 창 덕분에 Gemini는 훨씬 더 많은 데이터 세트를 참조할 수 있다.

예를들어 최근 이메일과 회의의 주요 요점을 요약하기 위해 Gmail 측면 패널의 Gemini 사용할 수 있다. 아래 그림은 사용자가 “Catch me up on emails from Maywood Park Elementary School”와 같은 질문을 하면 Gemini가 Gmail을 참조하여 가장 중요한 세부 정보를 보여주는 사례이다.

Gmail 모바일 앱에서 Gemini for workspace 기능을 사용

Gmail 모바일 앱에서 Gemini에 쉽게 접근하고 이동 중에서도 생산성을 유지할 수 있는 새로운 기능을 출시할 예정이다.

  • 이메일 요약: 이메일 쓰레드를 분석하여 Gmail 앱에 직접 요약된 내용을 보여줌 (2024년 6월부터 Gemini for Workspace 고객과 Google One AI Premium 구독자에게 제공 예정)
  • 상황에 맞는 스마트 답장:이메일 쓰레드의 맥락을 기반으로 추천 답변 제공한다.
  • Gmail Q&A: “find the bid from the roofing contractor”와 같이 Gemini에게 받은 편지함 어딘가에 묻혀있는 내용을 요청할 수 있다.

다국어 지원

전 세계 사람들이 소통할 수 있도록 자동 언어 감지 및 60개 이상의 언어로 실시간 번역된 자막을 제공하는 Google Meet용 “Translate for me” 기능을 제공한다. 앞으로 Gmail에서 “Help me write” 기능을 제공할 예정이다.

Google Photos

구글은 Gemini를 통해 Google Photos를 업그레이드한다. 몇 달 내에 출시될 “Ask Photos”를 사용하면 특정 추억을 찾거나 갤러리에 포함된 정보를 더 쉽게 불러올 수 있다. Ask Photos는 Gemini의 멀티모달 능력을 이용하여 다음과 같은 질문에 답변할 수 있다.

Ask Photos가 제공하는 기능

  • 적합한 컨텐츠 찾기: “Show me the best photo from each national park I’ve visited.”와 같은 사용자의 질문에 필요한 사진을 추천할 수 있다.
  • 질문을 통해 유용한 답변 얻기: “Remind me what themes we’ve had for Lena’s birthday parties”와 같이 사용자의 질문에 Gemini의 멀티모달 기능은 사진의 컨텍스트와 주제를 이해하고 세부 사항을 이해하여 답변을 제공한다.
  • 검색외 작업: 최고의 사진을 선별하여 여행 하이라이트를 더 쉽게 만들 수 있다.

Ask Photos가 내부적으로 작동하는 방식

  • 질문 이해하기: 사용자의 질문을 이해한 후 다음 답변을 위한 계획을 세운다. 장소, 사람, 날짜와 같은 키워드뿐만이 아니라 “themed birthday party”와 같은 자연어 개념도 식별한다.
  • 응답 작성: Gemini의 멀티모달 기능을 통해 각 사진에서 어떠한 일이 일어나는지 정확하게 이해하며 심지어 이미지의 텍스트를 읽을 수 있다. 유용한 응답을 작성하고 반환할 사진 및 비디오를 선택한다.
  • 안전보장 및 수정 사항 기억: 답변을 수정하거나 추가 정보를 제공하면 Ask Photos는 향후에도 세부 정보를 기억할 수 있다.

Android + Gemini

  • 올해 말부터 Pixel Phone을 시작으로 안드로이드에서 Gemini Nano의 멀티모달 기능을 제공한다.
  • Gemini Nano를 이용하여 사기 전화(Scam Phone)을 탐지하는데 도움을 줄 것이다.
  • 곧 안드로이드의 Gemini가 생성한 이미지를 Gmail, Google Message 등에 drag & drop할 수 있 수 있으며 시청하고 있는 YouTube의 동영상에 대해서 물어볼 수 있다.
  • 학생들은 안드로이드 폰/태블릿을 통해 숙제를 위해 “Circle to Search”를 사용할 수 있다. (Circle to Search은 Gemini를 학생의 학습을 위해 fine-tuning한 LearnLM을 사용한다.)

그 밖에

  • 개발자가 Android Studio, IDX, Firebase, Colab, VSCode, Cloud 및 Intelllj에서 Gemini 모델 사용이 가능하다.
  • Gemini 1.5 Pro는 올해 후반에 Android Studio에 출시될 예정이다.
  • Gemini API의 새로운 컨텍스트 캐싱 기능을 사용하면 자주 사용되는 컨텍스트 파일을 저렴한 비용으로 캐싱 가능하다.
  • Gemini Nano는 Chrome 126부터 Chrome Desktop 사용자들에게 기본 제공된다. On-device AI를 이용하여 Google Chrome에서 직접 소셜 미디어를 게시물, 제품 리뷰 등에 대한 텍스트를 생성하는데 도움을 줄 수 있다.
  • LearnLM은 이미 Gemini 검색, YouTube, Google 클래스룸을 비롯한 당사 제품 전반에 걸쳐 다양한 기능을 지원한다.

총평

구글 제품과 Long Context(1M tokens)를 지원하는 Gemini의 통합

  • Gemini는 기존 Ultra, Pro, Nano 버전에 Flash가 추가되어 총 4가지 버전으로 분화되었다. 사용자는 사용자 환경(e.g. 클라우드 또는 On-Device AI)과 용도에 따라 적합한 Gemini 버전을 선택할 수 있다.
  • Gemini는 경쟁 제품인 GPT-4o(128K)와 Claude 3(200K)보다 더 큰 1M 이상의 컨텍스트 윈도우를 제공한다. 1M 컨텍스트 윈도우는 더 큰 데이터를 입력하여 처리할 수 있기 때문에 멀티 모달을 비롯한 대용량 데이터를 처리하는데 가장 큰 경쟁력을 제공할 수 있다.
  • 구글은 긴 컨텍스트 윈도우를 지원하는 Gemini를 구글의 각 제품에 통합시켜 생성형 AI 시대에 OpenAI에게 넘겨 준 AI 주도권을 되찾고자 한다.
  • 구글은 엔터프라이즈 시장보다 더 경쟁력이 있는 end-user용 제품들부터 Gemini를 통합해 나갈 것으로 보인다. Gemini는 Google Workspace (Gmail, Docs, Drive, Slides, Sheets 등)을 비롯해 Google Lens, Google Photos 와 같은 개별 제품에도 통합될 예정이다.
  • 하지만 벤치마크 결과, Gemini의 성능이 여전히 GPT-4o에 못 미치고 있어 지속적인 모델 성능 개선이 반드시 필요한 상황이다.

구글 검색의 변신

  • 구글의 수익은 광고 수익이며 검색 광고의 비중이 높다. 따라서 검색 시장에서 점유률 하락은 수익 하락으로 이어질 수 밖에 없다.
  • 구글은 구글 검색에 Gemini를 통합한 AI overview를 선보이며 빠른 답변, 매우 복잡한 질문에 대한 답변, 사용자 맞춤 추천 등을 통해 생성형 AI 시대에도 검색 광고 시장의 주도권을 유지하고자 한다.
  • 하지만 AI overveiw는 베타 서비스 중에 “피자에 풀을 접착제를 바르라”거나, “돌을 먹으라”고 제안하는 등 황당한 답변을 내놓아 논란을 일으켰다. 구글은 이런 오류에 대해서 신속하게 오류를 개선했다라고 밝혔지만, 구글 AI 서비스에 대한 신뢰도 하락은 피할 수 없을 것 같다.
  • 구글은 AI 기술 개발에 선봉에 있었지만 OpenAI에 AI 주도권을 빼았겼던 기억을 교훈삼아, 신중한 제품 출시보다 빠른 출시 후 제품 개선이라는 전략을 채택한 것으로 보인다. ChatGPT가 AI 시장의 판도를 바꾸었듯 Perplexity.ai 나 Bing과 같은 경쟁 제품들이 검색 시장의 판도를 바꿀 수 있기 때문이다.

자체 HW를 통한 혁신

  • 경쟁사인 MS가 NVIDIA GPU에 대한 의존도가 큰 반면, 구글은 6세대 TPU인 Trillium을 통해 자체 AI 서비스에 투입되는 비용 혁신을 획기적으로 절감할 수 있다.
  • 현재 구글은 자체 AI 서비스에 고가의 GPU가 아닌 TPU를 사용하고 있으며 HW/SW co-design을 통해 수직 최적화가 가능한 유일한 AI 업체이다.

안드로이드를 leverage로 시장 진입

  • 모바일 진영은 애플의 아이폰과 구글의 안드로이드로 양분되어 있다. 구글은 안드로이드 사용자에게 Gemini를 통합한 구글 앱을 제공하여 Gemini의 점유율을 높이는 전략을 세운 것으로 보인다.
  • MS가 기존에 강점을 가진 엔터프라이즈 시장에 Copliot을 지원하는 것과 같이 구글과 같이 현재 모바일 시장의 안드로이드 점유률을 leverage로 안드로이드 사용자를 Gemini 사용자로 흡수하려는 의도이다.

AI agent 및 개인화

  • Project Astra를 통해 개인 맞춤형 AI agent에 대한 지원을 강화하고 있다. 인간과 복잡하고 다양한 주제에 대해서 실시간 대화가 가능한 AI agent는 인간의 삶을 크게 변경시킬 것으로 기대된다.
  • 만일 AI agent가 구글의 전 제품과 연동되었을 때 생산성이 크게 높아질 것이다.
  • Gemini의 개인화 버전인 Gems를 통해 사용자는 맞춤형 서비스를 받을 수 있다.
  • Killer 앱이 없어 사라진 스마트 글래스가 AI 에이전트용 디바이스로 새롭게 부활할 가능성이 높아졌다.

--

--

daewoo kim

AI developer & Author | Working@semiconductor-industry. I write and share about what I learn.