[리뷰] Google IO 2021 Keynote (AI 중심 리뷰)

daewoo kim
13 min readMay 22, 2021

--

Google의 다음 목표는 인간과 대화할 수 있는 AI이다.

작년 코로나-19로 인해 취소되었던 Google IO가 금년에는 온라인으로 2021년 5/18~20일, 3일간 진행되었다. 많은 발표 내용들이 있었지만 AI 발표 중에 주목할 만한 것,(이라고 쓰고 내가 관심있는 것) 4 가지를 정리해본다.

  • LaMDA(Language Model for Dialogue Applications)
  • MUM(Multitask Unified Model)
  • TPU v4
  • Google Photos

LaMDA(Language Model for Dialogue Applications)

  • Transformer 기반으로 인간의 대화를 학습함
  • 어떠한 토픽에 대해서도 대화가 가능하도록 디자인된 Language Model
  • 내부적으로 초기 개발 진행 중
  • LaMDA의 모체는 Google Research, Brain 팀이 작년에 소개된 “Towards a Human-like Open-Domain Chatbot” 논문의 Meena (2.6B 파라미터 모델)

LaMDA의 목적은 다음의 사례를 통해 좀더 빠르게 이해 가능하다. 이전 Google Assistant에 사용자가 다음과 같은 질문을 한다면 Google Assistant는 날씨 정보 위주로 대답하지만, 인간은 자신의 기분에 대해서 대답한다.

Q. Human: What’s the weather like today?

A1. Google Assistant: “It’s 70 degrees, sunny and a 12 % chance of rain.”

A2. Human: “It’s starting to feel like summer. I might eat lunch outside.”

즉, 아직까지 AI와 대화하는 것은 정보 획득은 가능하지만, 아직까지는 인간과 교감이 결여되어있다. LaMDA는 보다 인간을 닮은 AI를 추구한다.

Keynote에서 Google은 LaMDA가 명왕성(Pluto)과 종이비행기로 빙의(?)하여 인간과 대화하는 것을 시연하였다. 다음은 LaMDA가 명왕성이 되어 대화하는 시연의 한 장면이다.

LaMDA가 명왕성이 되어 인간과 진행한 대화의 한 장면

LaMDA가 위와 같이 대화하기 위해선 여러가지 개념들을 이해야 한다. 가장 먼저 명왕성(Pluto)에 대한 정보와 명왕성을 탐사하기 위해서 발사된 우주선 New Horizon 등을 학습을 통해 모든 지식을 합성해야 한다.

이때 중요한 점은 LaMDA는 어떠한 응답도 미리 정의되지 않았다는 점이다. 아래 그림과 같이 컨텍스트를 인식하여 질문에 대해 매우 많은 대답 중에서 하나를 대답한다는 것이다.

GPT-3가 어떠한 사실을 이해하기 보다는 사실을 외워서 대답한다라는 비판을 받고 있었다. 반면 LaMDA의 특징은 사전에 정의된 대화를 하지 않아 똑같은 대화를 두 번하지 않다는 점이며 대화의 시작과 끝이 모두 다르다는 것이다.

하지만 아직까지는 초기 개발이기 때문에 엉뚱한 대답을 하기도 한다.

LaMDA는 Google Assistant, Search & Workspace과 같이 대화 기능이 필요한 제품에 우선 적용될 예정이다.

Multitask Unified Model (MuM)

LaMDA를 통해 AI와 대화하는 것이 더 자연스러워졌지만 LaMDA는 아직까지 텍스트를 주로 학습하고 있다. 하지만 사람들은 대화할 때 이미지, 오디오, 비디오, 텍스트과 같이 다양한 형태의 정보를 사용한다. 이와 같이 다양한 형태의 정보를 지원하기 위한 모델, 예를들어 언어와 이미지를 동시에 이해하는 Multi-Modal 모델이 필요하다.

Multi-Modal의 다양한 정보 형태(Images, Text, Audio, Video)

Keynote에서 Google은 이미지 검색을 위해 Multi-Modal 모델을 적용한 다음과 같은 검색 사례를 소개한다.

“Show me the part where the lion roars at sunset”

과 같이 사용자가 상황을 묘사하면 Multi-Modal 모델은 그 상황에 맞는 Image나 Video를 검색할 수 있다.

이와 같이 Multi-Modality를 처리를 위해 Google은 Multitask Unified Model (MuM)을 개발하고 있다. MuM은 다음과 같은 특징을 갖는다.

  • 1000x more power than BERT
  • 동시에 75 개 이상의 언어로 쓰여진 정보를 학습 함(대부분의 AI 모델은 한번에 하나의 언어만을 학습함)
  • Multiple Modalities를 이해하고 언어를 생성
  • LaDMA와 마찬가지로 초기 단계 개발 중

MUM은 75개 언어로 이해하고 많은 다른 task로 학습되었기 때문에 이전 모델보다 정보와 세계 지식에 대해서 좀더 포괄적으로 이해할 수 있다. 예를들어 MUM은 다음과 같은 질문에 다음과 같은 텍스트와 이미지를 사용할 수 있다.

시나리오 #1 : 후지산 하이킹에 대한 질문

사용자가 후지산 하이킹에 대해 질문하였을 때 MUM은 애덤스 산와 후지산이 비슷한 고도라는 것을 비교하며, 준비(“prepare”)라는 단어를 통해 적절한 산악 장비인 방수 자켓(Waterproof Jacket)가 필요함을 이해한다. 또한 후지산의 계절별 날씨를 이해하고 후지산의 가을은 장마임을 이해해야 한다.

또 하나 중요한 사실은 후지산에 대한 정보는 일본어가 많기 때문에 일본어로 검색하지 않으면 정확한 정보를 얻을 수 없다. 언어는 정보에 접근할 때 중요한 장벽으로 작용하는데 MUM은 언어를 뛰어 넘어 영어로 검색하더라도 후지산에 대한 일본어 정보로 부터 배우는 knowledge transfer가 가능하다.

시나리오 #2: 하이킹 부츠 추천

사용자가 이미지와 텍스트를 이용하여 동시에 물어보는 경우도 있을 것이다. 만일 하이킹 부츠 이미지와 텍스트를 이용하여 물어보면 MUM은 질문의 의도와 이미지의 컨텐츠를 이해하여 이미지의 하이킹 부츠가 하이킹하기 적합할지 대답하고 추천 장비의 리스트를 알려준다.

TPUv4

LaMDA와 MUM를 지원하기 위해서는 대규모 AI Infrastructure가 필수적이다. Google은 이를 위해 TPU v3 대비 2배이상 빠른 TPU v4를 개발하였다. 작년 MLPerf 0.7 벤치마크 결과를 통해 소개된 TPU v4는 올해 데이터센터에 수십 대의 TPUv4 Pods가 구축될 예정이다. TPU v4 Pods는 Google 내부 AI 서비스와 Google Cloud 고객에 제공될 예정이다. TPU v4의 특징은 다음과 같다.

TPU v4
  • TPU v3 대비 평균 2.7x 성능 향상
  • TPU v4 Pod: 4096 chips
  • 1 exaFLOP (10¹⁸ flops) per TPU v4 Pod
  • 90% Carbon-free energy
  • 10x interconnect bandwidth per chip

아래 표는 TPU v4를 MLPerf v0.7 training set으로 벤치마크했을 때 TPU v4와 NVIDIA GPU와 비교한 표이다. (*NVIDIA GPU의 종류는 확인 필요함)

MLPerf 0.7 벤치마크 결과 (낮을수록 좋음)

Google Photo

Google Photo는 사용자가 업로드한 4 Trillion의 사진과 비디오들을 저장하고 있다. 하지만 Google Photo에 저장된 대부분의 사진과 비디오는 중요한 순간들을 다시 찾는 것이 너무 어려워 다시 꺼내보지 못하고 저장된 상태로 그대로 남아 있는 경우가 많다. Google Photo는 새로운 feature인 Little Patterns와 Cinematic Photos와 같은 머신러닝을 이용하여 의미있는 순간을 되살리고 기억에 생명을 불어넣는 기능을 제공한다.

Little Patterns

Little Patterns는 이미지를 인식하여 이미지의 테마를 하나로 묶어 추억을 하나의 컬렉션으로 표현하는 것이다.

Google Photo은 저장된 사진들을 머신 러닝을 이용하여 숫자의 series로 변환한 후, 시각적으로 또는 컨셉적으로 얼마나 유사한지 비교한다. Google Photo의 머신러닝은 모양과 색상과 같은 유사성을 갖는 3 장 이상의 사진을 분류한 후 little patterns를 실행시키면 시각적 패턴으로 그것을 하나의 컬렉션에 넣을 수 있다.

Google Photo가 사진을 숫자로 변환하는 과정

이번 Keynote에서는 구글 직원이 세계 여행을 갈 때마다 오렌지색 백팩을 가져갔던 것을 인식하여 관련 사진들을 “Adventures of the orange backpack”이란 이름의 컬렉션으로 만드는 사례를 소개하였다.

Cinematic Photos

Cinematic Photos는 뉴럴네트워크를 이용하여 인접한 두 개의 사진간 움직임을 합성하는 기술로 유사한 사진 A와 B간 gap을 새로운 프레임으로 채워 소위 “움짤”을 만들어내는 기술이다. 즉 사진의 다음 순간을 뉴럴네트워크로 예측하여 움짤을 만드는 것이다.

그 밖에 기술

Google Translation

  • 100개 이상의 언어 번역 지원
  • 크롬 브라우저에서 지난달 기준 20B web pages를 번역

Image Recognition

  • Google Lens는 수학 공식까지 지원
  • 3B uses/Month

Voice Recognition

  • Google Meet와 Android phone에서 Live 기능이 Locally 동작하는 것을 강조
  • 250 K hours of captioning/day
  • 모바일 디바이스에서 Voice Recognition

Text-to-Speech

  • Wavenet. Deepmind가 개발한 Text-to-Speech
  • More natural & fluid interactions이 특징
  • Google Assistant에 사용되며 51 voices를 지원

감상평

Human-lie AI와 Multi-Modal Model이 차세대 AI의 근간이 될 것으로 예측하였는데 역시 Google은 세계 NO.1 AI 회사의 명성에 걸맞게 다른 회사가 도저히 도달할 수 없는 Advanced AI 연구를 진행하고 있는 것으로 보인다.

LaMDA는 기존 Language Model의 발전 방향을 정보위주에서 인간과 교감하는 방식으로 바뀌지 않을까 예측해 본다. 과거 2011년 IBM의 왓슨(Watson)이 미국 ABC 방송의 TV 퀴즈 쇼 제퍼디에서 우승할 때, AI가 인간의 언어를 이해할 수 있음을 입증하였다. (물론 그 당시는 현재와 같은 딥러닝이 사용되지 않았다.) 하지만 10년이 흘러 현재는 인간의 질문을 이해하고 대답하는 수준이 아닌 컨텍스트를 이해하고 인간과 교감하며 개성을 가진 Human-like AI로 발전하게 된다. 장차 LaMDA가 튜닝 테스트를 통과하는 날도 올지 모르겠다.

MUM은 구글의 주력인 검색과 추천 모델을 획기적으로 스마트하게 만들 것으로 예상된다. MUM이 각종 multi-modal 데이터로부터 상황을 이해하고 해당 데이터를 찾아준다면 기존에 불가능했던 일들이 가능해진다. 예를들어 Youtube에서 원하는 인물이나 장면을 검색하고 싶다거나, 해당 영상을 요약해서 보고 싶다면 MUM과 같은 multi-modal 모델이 매우 유용하게 사용될 것이다. 또한 CCTV의 영상 중 범죄 영상을 검색해야 했을 때 기존 Anomaly Detection 알고리즘은 비정상 상황이 있다/없다만을 판정하는데 그쳤디만 MUM과 같은 모델은 상황을 이해하고 해당 영상을 찾아준다던지 어떠한 상황인지를 요약해서 전달할 수 있는 수준으로 발전가능할 것으로 보인다.

Google은 GPU에 의존하는 AI infrastructure가 아닌 독자적인 TPU 칩셋을 개발할 수 있는 능력마저 확보하여 자체 알고리즘에 최적화된 AI infrastructure를 갖출 수있는 AI 전영역에서 독보적인 솔루션을 가질 수 있는 유일한 회사이다. 이젠 알고리즘과 SW를 잘 하는 회사가 HW 설계/개발마저 더 잘하는 시대가 왔다. 리처드 파인만과 같은 천재성과 위트, 마이클 조던과 같은 피지컬과 운동신경을 모두 가진 Google이 부럽기만 하다…

레퍼런스

[1] Google IO 2021 Keynotes

[2] 11 was we’re innovating with AI

[3] LaMDA

[4] MUM

[5] TPU v4

--

--

daewoo kim
daewoo kim

Written by daewoo kim

AI developer & Author | Working@semiconductor-industry. I write and share about what I learn.

No responses yet