Bias & Variance Trade-off 에 대해 이해하기

6 min readJul 3, 2021

Over-fitting과 Under-fitting을 이해하기 위해선 Bias & Variance Trade-off를 이해하는 것이 필요하다.

ML의 목표는 학습 데이터셋에 없는 데이터, 즉 테스트 집합에 대해 높은 성능을 보장하는 모델을 만드는 것이다. 만일 학습 데이터셋과 테스트 데이터셋 집합의 성능에 큰 차이가 있다는 것은 일반화 능력이 낮다라는 것이다.

Bias (편향)란?

Bias는 학습된 모델의 예측값 평균과 실제 값간의 차이를 의미한다. 높은 Bias를 가진 모델은 학습 데이터셋을 제대로 학습하지 못하고 모델을 지나치게 단순화시킨다. 이것은 항상 학습 데이터셋과 테스트 데이터셋에서 높은 오류율를 발생시킨다.

Variance (분산)란?

Variance는 예측값의 평균과 실제 값간의 차이를 의미한다. (실제값과 관계없이 예측값의 흩어진 정도) Variance가 큰 모델은 학습 데이터셋의 특성을 잘 반영하나 이전에 본 적이 없는 데이터셋에 일반화되지 않는다. 결과적으로 Variance가 큰 모델은 학습 데이터셋에서 매우 잘 수행되지만 테스트 데이터에서 높은 오류율을 보인다.

Bias와 Variance의 수학적 관계

Bias와 Variance는 다음과 같은 수학적 관계에 있다. 예측값 Y는 학습 데이터셋에 대해 학습한 모델 f(x) + 평균이 0인 분포의 오류(e)의 합으로 정의할 수 있다. 결국 오류율 Error(x)은 다음과 같이 수식 표현, Bias² + Variance + irreducible error로 정의된다. Error(x)를 줄이려면 Bias와 Variance를 줄이는 것이 중요하며 Irreducible error는 성능이 좋은 모델도 줄일 수 없는 오류로 데이터의 노이즈 양을 측정한 것이다.

결국 위 수식에서 알 수 있 듯이 ML 모델의 목표는 Y와 f’(x)의 오차를 최소화하는 것이다.

x: 입력값(데이터셋)
f(x): 학습 데이터을 학습한 모델
Y: 학습 모델의 예측값
f’(x): f(x)를 테스트 데이터로 예측한 값

Bias-Variance Trade-off

아래 그림(Bulls-eye Diagram)은 타겟의 중심은 실제 값이고 중심에서 멀어질수록 모델의 예측값이 점점 더 나빠지는 것을 나타낸다. 학습 데이터셋은 모두 (1) Low Bias & Low Variance인 모델이지만 테스트 데이터셋으로 테스트하면 오류율이 커지는 (2)~(4) 결과가 나왔다. 이것의 원인은 무엇일까?

(1) Low Bias & Low Variance

Bias와 Variance이 모두 작아 에러율이 가장 낮은 모델

(2) Low Bias & High Variance

학습 데이터셋에 over-fitting된 모델.
학습 데이터셋에 매우 적합하지만 데이터의 노이즈 패턴도 같이 학습하기 때문에 테스트 데이터셋에 일반화하지 못하는 경우
복잡한 모델일수록 Bias가 작고, Variance가 큼

(3) High Bias & Low Variance

학습 데이터셋에 under-fitting된 모델.
단순한 모델일수록 학습 데이터에서 모든 패턴을 찾지 못해 Bias가 크고 Variance는 작음

(4) High Bias & High Variance

Bias와 Variance이 모두 커 에러율이 가장 큰 모델

학습 데이터셋과 테스트 데이터셋간의 관계는 Bias-Variance Trade-off를 발생시킨다. 학습 데이터셋에 잘 맞게 학습하려면(작은 Bias) capacity가 큰 모델이 필요하다. 하지만 모델의 capacity가 너무 높으면 학습 데이터셋 외 테스트 데이터셋에 대한 Variance가 커져서 전체 에러율이 높아진다.

반대로 모델의 capacity가 너무 작으면 제대로 학습을 할 수 없어 학습 데이터셋에 대한 Variance가 작은 반면, 테스트 데이터셋에 대한 Bias가 커지므로 전체 에러율이 높아진다. 이와 같이 Bias-Variance Trade-off란 Bias와 Variance는 서로의 변화에 따라 상반되게 움직인다는 것을 알려준다.

레퍼런스

Bias and Variance in Machine Learning - A Fantastic Guide for Beginners!

Overview Learn to interpret Bias and Variance in a given model. What is the difference between Bias and Variance? How…

www.analyticsvidhya.com

Bias vs. Variance 개념 정리

이 글에서 bias와 variance에 대해 살펴보려고 합니다. bias와 variance는 이미 많은 글이나 블로그에서 개념적으로 잘 설명되어 있습니다. 그럼에도 불구하고 다시 정리해보는 이유는 개념적으로…

modulabs-biomedical.github.io

Bias and Variance

Bias and Varaince Trade-off machine learning의 학습에 쓰이는 error(loss) 함수는 다음과 같이 분리 될 수 있습니다. noise는 데이터가 가지는 본질적인 한계치이기…

chacha95.github.io