A compensação da variação de viés é baseada na quebra do erro quadrático médio:
MSE( y^) = E[ y- y^]2= E[ y- E[ y^] ]2+ E[ y^- E[ y^] ]2
Uma maneira de ver o comércio de desvio e variação é de quais propriedades do conjunto de dados são usadas no ajuste do modelo. Para o modelo simples, se assumirmos que a regressão OLS foi usada para ajustar a linha reta, apenas 4 números serão usados para ajustar a linha:
- A covariância da amostra entre x e y
- A variação da amostra de x
- A média da amostra de x
- A média da amostra de y
Portanto, qualquer gráfico que leve aos mesmos 4 números acima levará exatamente à mesma linha ajustada (10 pontos, 100 pontos, 100000000 pontos). Então, em certo sentido, é insensível à amostra específica observada. Isso significa que será "tendencioso" porque ignora efetivamente parte dos dados. Se essa parte ignorada dos dados for importante, as previsões estarão sempre em erro. Você verá isso se comparar a linha ajustada usando todos os dados com as linhas ajustadas obtidas com a remoção de um ponto de dados. Eles tendem a ser bastante estáveis.
Agora, o segundo modelo usa todos os fragmentos de dados que pode obter e ajusta os dados o mais próximo possível. Portanto, a posição exata de cada ponto de dados é importante e, portanto, você não pode mudar os dados de treinamento sem alterar o modelo ajustado como pode para o OLS. Portanto, o modelo é muito sensível ao conjunto de treinamento específico que você possui. O modelo ajustado será muito diferente se você fizer o mesmo gráfico de ponto de dados drop-one.