[WWDC 2024 리뷰] Apple Intelligence 분석: On-device와 Cloud를 품은 Siri의 Comeback

daewoo kim
19 min readJun 23, 2024

--

아이폰 등장 이후 지난 15년간은 애플의 시대였다고 해도 과언이 아니었다. 하지만 생성형 AI 시대에 접어들면서 애플은 위기론에 봉착하게 되었다. 창업자인 스티브 잡스 덕분에 애플은 혁신적인 회사라는 이미지가 대중들에게 각인되어 왔지만, 의외로 개척자보다는 빠른 추종자에 가까운 회사였다. 애플은 신기술이 나온 후, 시장이 수용할 수 있는 시점에 가까워지면 사용자의 불편함을 쉬운 사용성, 아름다운 디자인, 압도적인 하드웨어 성능으로 해결하여 시장을 장악하고 성공해왔다.

하지만 AI 시대에는 이러한 성공 방식이 더 이상 그들의 성공을 보장해주지 않았다. 게임의 규칙이 바뀐 것이다. 애플이 줄곧 차지했던 시가총액 1위는 엔비디아와 마이크로소프트에 내주었다. 막대한 자금을 투자했던 애플카는 좌초되었고, 1세대 Vision Pro는 기대에 미치지 못한 성적을 보이고 있다. 애플이 위기에 직면한 이유로는 현 CEO인 팀 쿡이 관리형 리더라는 점, 애플 특유의 폐쇄성 등이 지목된다.

이러한 세간의 우려가 팽배한 가운데, 올해 6월 10일에 개최된 WWDC 2024는 어느 때보다 중요한 행사였다. 많은 이들이 WWDC 2024에서 애플이 AI 시대에 어떤 비전과 경쟁 업체와의 차별화를 보여줄지 주목하였다. 그리고 애플은 WWDC 2024에서 Apple Intelligence를 공개하였다.

개인적인 의견으로는 이름이 너무 길다. 그리고 Artificial Intelligence와 겹쳐 AI라는 약어를 사용하기도 애매한 것 같다.

Apple Intelligence란?

Apple Intelligence는 iPhone, Mac, iPad 디바이스를 포함한 Apple 생태계에 생성형 AI 기술을 통합한 개인용 지능 시스템이다. Apple Intelligence는 사용자에게 가장 유용하고 관련성이 높은 정보를 제공하기 위해 개인의 컨텍스트를 활용한다. 기본적으로 On-device에서 실행되므로 민감한 사용자 데이터가 인터넷으로 전송되는 것을 줄여 개인정보를 보호한다. 그러나 나중에 설명하겠지만, 사용자의 요청 유형이나 복잡도에 따라 PCC(Private Cloud Compute) 서버나 OpenAI의 ChatGPT에서 처리될 수 있다.

Apple Intelligence의 주요기능

Apple Intelligence의 주요 기능은 다음과 같다.

언어 기능

  • 자연어 이해 및 생성: 이메일 스레드 및 알림 전반에 걸쳐 자동화된 텍스트 요약 제공.
  • 앱 전반의 쓰기 지원: 메일 앱에서 스마트 답장 제안을 포함하여 다양한 앱에서 쓰기 지원 기능 제공.

이미지 생성

  • 사용자 정의 이미지 생성: iMessage 또는 Mail 대화에서 사용자 정의 이미지를 생성할 수 있음.
  • Genmoji 기능: 텍스트 설명이나 실제 인물의 사진을 기반으로 개인화된 이모티콘을 생성.
  • Image Playground 앱: 설명, 제안된 개념, 또는 사진 라이브러리에 있는 사람을 기반으로 이미지를 생성.

Siri

  • Siri 업그레이드: Apple의 가상 비서 Siri가 Apple Intelligence에 통합되면서 대폭 업그레이드됨.
  • 심화된 사용자 이해: 사용자 기본 설정, 컨텍스트, 장치 설정을 더 깊이 이해하여 자연스럽고 직관적인 상호 작용 가능.
  • 명령 입력 방법 다양화: 음성뿐만 아니라 텍스트 입력을 통해 Siri에 명령 제공 가능.
  • 개발자 지원: Apple의 새로운 app intent API를 사용하여 앱 개발자도 Siri에 명령을 내릴 수 있음.

자동 오디오 전사

  • 음성 메모 및 전화 통화의 오디오 기록 및 요약 제공.

우선 순위 알림

  • 컨텍스트 인식 알림 관리: 중요도에 따라 알림을 구성하고 누적된 알림 요약 제공.

추억의 동영상

  • 사용자 맞춤형 동영상 생성: 프롬프트를 통해 맞춤형 추억의 영화를 만들고 최고의 사진과 비디오를 선택하여 스토리라인 구성 가능.

Apple Intelligence 지원 os/기기 및 릴리즈 일정

Apple Intelligence는 WWDC 2024에서 developer beta가 공개되었으며 올 가을 iOS18, iPadOS 18, MacOS Sequoia 출시와 함께 베타 버전으로 출시 예정이다. Apple Intelligence를 사용하려면 M1 이상, A17 Pro 이상의 칩을 탑재한 Apple 디바이스가 필요하다.

일정

  • 2024/6/10: Developer beta, Free
  • 2024/Fall: Beta Release. iOS 18, ipadOS 18, macOS Sequoia

지원 기기

source

지원 칩셋

Apple Intelligence는 M1 이상의 칩을 가진 Apple 디바이스에서 실행된다. 따라서 Apple Intelligence는 최소 11 TOPS에서 실행되어야 한다.

Apple M1 vs M2 vs M3 chip specs (by author)

반면, A16 Bionic 칩도 17 TOPS를 지원하지만, Apple Intelligence를 지원하지 못한다. 이는 M1 칩 이상의 Apple 디바이스가 8GB 이상의 메모리를 지원하는 반면, A16 Bionic 칩을 탑재한 Apple 디바이스는 6GB만을 지원하기 때문이다. 따라서 현재 Apple Intelligence를 지원하기 위한 핵심 사양은 컴퓨팅 파워(TOPS)가 아닌 메모리 용량임을 알 수 있다. 또한, Apple Intelligence의 온디바이스 AI 모델은 최대 2GB의 메모리 공간이 필요한 것을 알 수 있다.

A16 bionic vs A17 pro specs (by author)

Apple Intelligence의 Overall Infrastructure

Apple Intelligence는 on-device와 Cloud가 통합된 하이브리드 구조이다.

  • on-device 모델: Apple Silicon (M1 later or A17 Pro)이 탑재된 iPhone, iPad, MacBook 등의 local 디바이스에서 실행된다.
  • Server 모델: Servier 모델은 Apple Silicon로 구동되는 PCC(Private Cloud Compute) 서버에서 실행된다. Apple Intelligence는 사용자 request의 유형에 따라 더 강력한 AI 모델이 필요한 경우, 사용자 request를 PCC(Private Cloud Compute) 서버에서 처리한다.
Apple Intelligence의 on-device model + server model architecture

Foundation Model + Adapters 구조

On-device model과 Server model는 모두 foundation model + Adapters로 구성되어 있다.

On-device 모델과 Server 모델

  • Foundation Model: 일반적인 지능을 담당하는 모델.
  • Adapters: 특정 작업에 대해 미세 조정된 LoRA 어댑터.

작동 방식

  • 사용자가 Apple Intelligence에 특정 작업(e.g., 요약)을 요청하면, 해당 작업에 맞게 미세 조정된 LoRA 어댑터가 Foundation Model에 플러그인됨
  • Apple Intelligence는 이 어댑터를 통해 특정 작업을 처리함으로써 Foundation Model의 기능을 효율적으로 확장 가능

구성 요소

  • On-device 모델: Apple Silicon (M1 이상 또는 A17 Pro)이 탑재된 iPhone, iPad, MacBook 등의 로컬 디바이스에서 실행
  • Server 모델: Apple Silicon으로 구동되는 PCC(Private Cloud Compute) 서버에서 실행된다. 더 강력한 AI 모델이 필요한 경우, 사용자 요청을 PCC 서버에서 처리함
사용자가 summarization을 요청하는 경우, summarization용 LoRA Adapters가 foundation model에 연결된 후 summarization을 처리함

Apple이 foundation model과 adapter model 구조로 Apple Intelligence를 구축한 이유는 다음과 같은 장점 때문이다.

장점 #1: 쉬운 모델 배포

  • Foundation Model과 Adapter로 구별되어 특정 작업을 업데이트하기 위해 Foundation Model까지 업데이트할 필요가 없음.
  • 특정 작업의 성능을 업데이트하기 위해 해당 작업의 Adapter(수십 MB)만 다운로드하면 되므로 모델 배포 시 네트워크에 부담을 주지 않음.
  • 특정 작업에 대해서만 LoRA를 이용하여 미세 조정하면 되므로 일체형(monolithic) 구조의 모델보다 학습 시간이 크게 단축됨.

장점 #2: 메모리 절감

  • 총 추론 연산량 = Foundation Model의 추론 연산량 + Adapter의 추론 연산량 (Foundation Model의 추론 연산량 >> Adapter의 추론 연산량).
  • Apple Intelligence의 Adapter는 LoRA 기술을 응용하여 총 추론 연산량이 크게 늘지 않음.
  • 일반적으로 각 작업에 대해 모델 성능을 개선시키기 위해 모델 크기를 증가시켜야 하나, Foundation Model + Adapter 구조는 작은 LoRA Adapter의 크기로 인해 메모리 footprint를 절감할 수 있음.

장점 #3: 효율적인 메모리 자원 사용

  • 특정 작업을 처리하기 위해 해당 작업용 Adapter만 필요함.
  • 사용되지 않은 Adapter는 메모리에 상주할 필요 없이 스토리지에 저장한 후 필요할 때 해당 Adapter만 로드 & 스왑하여 사용 가능. 이는 제한된 메모리 자원을 가진 온디바이스에서 효율적인 방법임.

반면, Apple Intelligence의 Adapter 구조는 다음과 같은 단점을 갖는다.

단점 #1: 범용 적용의 어려움

  • Apple Intelligence가 지원하지 않는 작업이나 일반적이고 복잡한 질문을 처리하기 어려움.
  • Adapter가 지원할 수 없는 작업의 경우 Foundation Model이 처리해야 하나 Foundation Model의 성능이 떨어져 일반적인 작업을 처리하지 못함.

Apple Intelligence의 On-device 구조

Apple Intelligence 는 기본적으로 on-device에서 실행된다. on-device model은 language model과 image model(Genemoji, Image Playground용)이 실행된다.

Apple Intelligence의 On-device 실행 구조

Semantic Index

  • 각 apps의 request를 개인 컨텍스트에 연결
  • 하부에 벡터 데이터베이스가 있을 것으로 추측하고 있음

App Intents Toolbox

  • App Intent 프레임워크는 Apple Intelligence에 접근 가능함
  • 새로운 App Intent API를 사용하면 App 개발자가 Siri에 명령할 수 있도록 프로그래밍이 가능함 (e.g. 사용자가 Siri에 “John이 언급한 노래를 재생해”라고 요청하면 사용자의 iMesssage 대화를 읽고 해당 노래를 재생할 수 있음)

On-device Model

  • On-device Model (~3B) = Language Model + Image Model
  • Language Model: Apple OpenELM의 파생 모델일 것으로 추측
  • Image Model: Genmoji & Image Playground를 지원하는 diffusion 모델 (text-to -image generator)

Apple Silicon

  • A17 Pro or M1 이상 칩
  • 11 TOPS 이상

Apple Intelligence의 PCC(Private Cloud Compute) Server 구조

사용자 요청 유형에 따라 더 강력한 AI 모델이 필요한 경우, 해당 요청을 PCC 서버로 보낸다. PCC 서버는 “iOS 기반” 자체 OS로 동작하며 자체 ML 스택을 가지고 있다. Apple 디바이스의 개인정보 보호 방법을 서버로 확장하여, 개인 정보 보호를 위해 AI 서버에 필요한 기능을 제거하였다. 이를 위해 PCC의 데이터에 접근할 수 없도록 원격 셸(remote shell)을 제거하였으며 사용자의 데이터를 저장하지 않기 위해 스토리지를 제공하지 않는다.

디바이스와 PCC 간 데이터 전송은 종단 간 암호화로 이루어지며, 선택된 클러스터만 요청된 데이터를 복호화할 수 있다. 요청된 데이터는 응답이 반환된 후 보관되지 않는다.

Apple Intelligence의 Server models 실행 구조

ML Stack

  • Apple’s MLX (추정)

Server Models

  • 100B+ 이상 LLM (추정)
  • MoE 기반 모델(추정)

PCC OS

  • “iOS” 기반 자체 OS
  • Apple 운영체제 보안을 기반으로 만들어짐

Apple Silicon

  • M2 Ultra chips (31.6 TOPS)

Apple Intelligence의 Foundation Model

Apple Intelligence의 foundation model은 다음과 같은 단계를 통해 개발된다.

Apple foundation model을 위한 모델링

Data 수집

  • 데이터 출처: AppleBot(웹 크롤러)이 수집한 공공 데이터와 라이선스 데이터를 기반으로 Foundation Model 학습에 사용됨.
  • 개인 데이터 보호: 사용자의 개인 데이터나 사용자 상호작용 데이터를 절대 사용하지 않음.

Preprocessing

  • 개인 정보 제거: 인터넷에 공개된 사회보장번호나 신용카드 번호와 같은 개인 식별 정보를 제거하고, 욕설 및 기타 저품질 콘텐츠를 필터링하여 학습 말뭉치에 포함되지 않도록 함.
  • 데이터 정제: 필터링 외에도 고품질 문서를 식별하기 위해 데이터 추출, 중복 제거, 모델 기반 분류기를 적용하여 정제함.

Pre-training

  • 학습 프레임워크: Apple의 오픈소스인 AXLearn 프레임워크로 학습 (JAX와 XLA 기반).
  • 학습 인프라: Google Cloud의 TPU와 자체 GPU를 사용하여 학습 진행.

Post-training

  • 품질 개선: 거절 샘플링 미세 조정 알고리즘(rejection sampling fine-tuning, teacher committee와 함께)과 RLHF (mirror DPO와 함께)를 활용하여 모델의 명령 수행 품질을 크게 개선함.

Optimization

  • GQA 사용: On-device와 PCC 서버 모두 GQA(Grouped Query Attention) 사용.
  • 고급 디코딩 기법: Speculative decoding 및 context pruning 사용.
  • 어휘 크기: On-device 모델은 49K 어휘를 사용하고, 서버 모델은 100K 어휘를 사용.
  • 저비트 팔레타이제이션(low-bit palletization): On-device 추론의 경우, 메모리/전력/성능 요구사항을 달성하기 위해 저비트 팔레타이제이션을 사용.
  • 최적화 도구: 각 작업별 최적 비트율 선택을 위해 모델 지연 시간 및 전력 분석 도구인 Talaria를 사용.
  • 양자화 기법: Activation quantization 및 embedding quantization 사용.
  • 뉴럴 엔진 최적화: 뉴럴 엔진에서 효율적인 KV 캐시 업데이트를 가능하게 하는 방법 개발.

Model Adaption

  • Adapter 활용: Foundation Model의 다양한 레이어에 연결할 수 있는 작은 뉴럴 네트워크 모듈인 어댑터를 활용하여 특정 작업에 맞게 모델을 fine-tuning 함.
  • Adapter 레이어 fine-tuning: Pre-training된 Foundation Model의 파라미터는 변경하지 않고 어댑터 레이어만 미세 조정하여 특정 작업을 지원함.
  • 효율적인 메모리 관리: 3B on-device 모델의 경우, 어댑터 당 수십 MB의 메모리가 필요함. 어댑터는 동적으로 로드되고 메모리에 임시로 캐시되어 스왑되므로 메모리를 효율적으로 관리할 수 있음.

OpenAI와 ChatGPT 파트너쉽

Apple은 OpenAI와 파트너십을 체결하여 iOS, iPadOS, macOS 내에서 ChatGPT 접근을 통합, Siri가 ChatGPT의 지능을 활용할 수 있게 되었다. 사용자는 ChatGPT 계정 생성 없이 무료로 사용할 수 있으며, ChatGPT 구독자는 유료 기능을 이용할 수 있다.

Apple Intelligence + ChatGPT의 연동 방법

Apple Intelligence + ChatGPT 통합

Apple Intelligence는 기본적으로 Apple의 on-device 모델과 서버 모델을 활용하여 사용자 요청을 처리한다. 그러나 이번 파트너십을 통해 Apple Intelligence에서 처리하기 어려운 복잡한 사용자 요청은 사용자의 동의를 거쳐 ChatGPT가 처리할 수 있게 되었다. 개인정보 보호를 위해 Siri와 글쓰기 도구가 ChatGPT를 사용할 때 사용자 요청이 저장되지 않으며, 사용자의 IP 주소가 가려진다. 또한 사용자는 ChatGPT 계정을 연결할 수 있으며, 이는 데이터 기본 설정이 ChatGPT의 정책에 따라 적용된다는 것을 의미한다.

Apple-OpenAI 파트너십의 의미

Apple이 그동안 타사와의 협력을 극도로 거부해왔던 점을 감안하면, OpenAI와의 파트너십 체결은 Apple의 AI 경쟁력이 뒤떨어져 있다는 사실을 반증하는 것으로 보인다. 블룸버그 보고서에 따르면 Apple-OpenAI 간 파트너십 조건은 Apple이 OpenAI에 대가를 지불하지 않는 것으로 알려졌다. 이는 구글이 아이폰의 기본 검색 엔진으로 Apple에 200억 달러를 지불하는 것과 대조적이다. Apple은 OpenAI 뿐만 아니라 Anthropic 및 Google과도 파트너십 체결을 협의 중이다.

OpenAI의 전략

OpenAI가 Apple에 ChatGPT를 무료로 제공하는 것은 수억 명의 Apple 사용자에게 ChatGPT를 노출시킨 후, 유료 옵션으로 유도하여 수익을 창출하려는 전략으로 보인다. 이번 파트너십을 통해 OpenAI의 49% 지분을 갖는 MS 또한 ChatGPT를 MS Azure에서 서비스하기 때문에 단기적으로 ChatGPT 서비스를 위한 비용이 늘어나겠지만, Apple 사용자들을 끌어들임으로써 장기적으로 수익을 얻을 수 있을 것으로 전망된다.

Key Takeways

Apple Intelligence 지원 칩 & OS

  • Apple Intelligence는 iPhone, Mac, iPad 디바이스를 포함한 Apple 생태계에 생성형 AI 기술을 통합한 개인용 지능 시스템이다. 이 시스템은 M1 이상, A17 Pro의 칩(NPU 성능: +11 TOPS)을 탑재한 Apple 디바이스에서만 사용 가능하며, 올가을에 iOS 18, iPadOS 18, macOS Sequoia 출시와 함께 베타 버전으로 출시될 예정이다.

Apple Intelligence의 Infrastructure 구조

  • Apple Intelligence는 on-device 모델과 server 모델로 구분되며, 각각 iPhone, Mac, iPad와 같은 디바이스 또는 PCC(Private Cloud Compute) 서버에서 실행된다. Apple은 모델 학습에 Google TPUs 또는 on-premise GPU를 사용하며, 추론에는 on-device 및 PCC 서버 모두 Apple Silicon을 사용하여 서비스한다.

개인정보 보호

  • 사용자 디바이스와 PCC 서버 간 종단간 암호화가 이루어지며, 사용자 요청 시 PCC 서버로 전송된 개인 정보는 응답이 반환된 이후 서버에 유지되지 않는다.

Foundation Model 구조

  • on-device 모델과 server 모델 모두 Foundation Model과 특정 작업을 처리하기 위한 Adapter들로 구성되어 있다. 이러한 Adapter 구조는 메모리 제약이 큰 on-device 환경에서 모델 크기를 작게 유지하면서 특정 작업에 대한 모델 성능을 개선할 수 있는 장점을 제공한다.

사용자 요청 처리 방식

  • Apple Intelligence는 대부분의 사용자 요청을 on-device와 PCC 서버에서 처리하나, Apple Intelligence가 처리하기 어렵고 복잡한 질문은 OpenAI와의 파트너십을 통해 ChatGPT가 처리하도록 라우팅된다.

Apple-OpenAI 파트너십

  • Apple은 ChatGPT 사용료를 OpenAI에 지불하지 않는 조건으로 Apple Intelligence의 부족한 AI 모델 성능을 보완한다. 반면, OpenAI는 Apple 사용자가 ChatGPT의 유료 고급 기능을 사용하도록 유도하여 Apple과의 파트너십으로 이익을 얻을 수 있을 것으로 예상된다.

--

--

daewoo kim
daewoo kim

Written by daewoo kim

AI developer & Author | Working@semiconductor-industry. I write and share about what I learn.

No responses yet