Bias & Variance Trade-off 에 대해 이해하기

daewoo kim
6 min readJul 3, 2021

--

Over-fitting과 Under-fitting을 이해하기 위해선 Bias & Variance Trade-off를 이해하는 것이 필요하다.

ML의 목표는 학습 데이터셋에 없는 데이터, 즉 테스트 집합에 대해 높은 성능을 보장하는 모델을 만드는 것이다. 만일 학습 데이터셋과 테스트 데이터셋 집합의 성능에 큰 차이가 있다는 것은 일반화 능력이 낮다라는 것이다.

Bias (편향)란?

Bias는 학습된 모델의 예측값 평균과 실제 값간의 차이를 의미한다. 높은 Bias를 가진 모델은 학습 데이터셋을 제대로 학습하지 못하고 모델을 지나치게 단순화시킨다. 이것은 항상 학습 데이터셋과 테스트 데이터셋에서 높은 오류율를 발생시킨다.

Variance (분산)란?

Variance는 예측값의 평균과 실제 값간의 차이를 의미한다. (실제값과 관계없이 예측값의 흩어진 정도) Variance가 큰 모델은 학습 데이터셋의 특성을 잘 반영하나 이전에 본 적이 없는 데이터셋에 일반화되지 않는다. 결과적으로 Variance가 큰 모델은 학습 데이터셋에서 매우 잘 수행되지만 테스트 데이터에서 높은 오류율을 보인다.

Bias와 Variance의 수학적 관계

Bias와 Variance는 다음과 같은 수학적 관계에 있다. 예측값 Y는 학습 데이터셋에 대해 학습한 모델 f(x) + 평균이 0인 분포의 오류(e)의 합으로 정의할 수 있다. 결국 오류율 Error(x)은 다음과 같이 수식 표현, Bias² + Variance + irreducible error로 정의된다. Error(x)를 줄이려면 Bias와 Variance를 줄이는 것이 중요하며 Irreducible error는 성능이 좋은 모델도 줄일 수 없는 오류로 데이터의 노이즈 양을 측정한 것이다.

결국 위 수식에서 알 수 있 듯이 ML 모델의 목표는 Y와 f’(x)의 오차를 최소화하는 것이다.

  • x: 입력값(데이터셋)
  • f(x): 학습 데이터을 학습한 모델
  • Y: 학습 모델의 예측값
  • f’(x): f(x)를 테스트 데이터로 예측한 값

Bias-Variance Trade-off

아래 그림(Bulls-eye Diagram)은 타겟의 중심은 실제 값이고 중심에서 멀어질수록 모델의 예측값이 점점 더 나빠지는 것을 나타낸다. 학습 데이터셋은 모두 (1) Low Bias & Low Variance인 모델이지만 테스트 데이터셋으로 테스트하면 오류율이 커지는 (2)~(4) 결과가 나왔다. 이것의 원인은 무엇일까?

(1) Low Bias & Low Variance

  • Bias와 Variance이 모두 작아 에러율이 가장 낮은 모델

(2) Low Bias & High Variance

  • 학습 데이터셋에 over-fitting된 모델.
  • 학습 데이터셋에 매우 적합하지만 데이터의 노이즈 패턴도 같이 학습하기 때문에 테스트 데이터셋에 일반화하지 못하는 경우
  • 복잡한 모델일수록 Bias가 작고, Variance가 큼

(3) High Bias & Low Variance

  • 학습 데이터셋에 under-fitting된 모델.
  • 단순한 모델일수록 학습 데이터에서 모든 패턴을 찾지 못해 Bias가 크고 Variance는 작음

(4) High Bias & High Variance

  • Bias와 Variance이 모두 커 에러율이 가장 큰 모델

학습 데이터셋과 테스트 데이터셋간의 관계는 Bias-Variance Trade-off를 발생시킨다. 학습 데이터셋에 잘 맞게 학습하려면(작은 Bias) capacity가 큰 모델이 필요하다. 하지만 모델의 capacity가 너무 높으면 학습 데이터셋 외 테스트 데이터셋에 대한 Variance가 커져서 전체 에러율이 높아진다.

반대로 모델의 capacity가 너무 작으면 제대로 학습을 할 수 없어 학습 데이터셋에 대한 Variance가 작은 반면, 테스트 데이터셋에 대한 Bias가 커지므로 전체 에러율이 높아진다. 이와 같이 Bias-Variance Trade-off란 Bias와 Variance는 서로의 변화에 따라 상반되게 움직인다는 것을 알려준다.

레퍼런스

--

--

daewoo kim

AI developer & Author | Working@semiconductor-industry. I write and share about what I learn.