Ilustrando o tradeoff de desvio - variação usando um exemplo de brinquedo
Como aponta Matthew Drury, em situações realistas você não consegue ver o último gráfico, mas o exemplo de brinquedo a seguir pode fornecer interpretação visual e intuição para quem achar útil.
Conjunto de dados e suposições
Y
- Y= s i n ( πx - 0,5 ) + ϵε ~ Un eu fo r m ( - 0,5 , 0,5 )ou em outras palavras
- Y= f( x ) + ϵ
Observe que x não é uma variável aleatória, portanto, a variação de Y é Va r ( Y) = Va r ( ϵ ) = 112
Ajustaremos um modelo de regressão polinomial linear a esse conjunto de dados do formulário f^( x ) = β0 0+ β1 1x + β1 1x2+ . . . + βpxp.
Montagem de vários modelos de polinômios
Intuitivamente, você esperaria que uma curva de linha reta tivesse um desempenho ruim, pois o conjunto de dados é claramente não linear. Da mesma forma, o ajuste de um polinômio de ordem muito alta pode ser excessivo. Essa intuição é refletida no gráfico abaixo, que mostra os vários modelos e o erro quadrático médio correspondente para dados de trem e teste.
O gráfico acima funciona para uma única divisão de trem / teste, mas como sabemos se ele se generaliza?
Estimando o trem esperado e teste MSE
Aqui temos muitas opções, mas uma abordagem é dividir os dados aleatoriamente entre treinar / testar - ajustar o modelo na divisão especificada e repetir esse experimento várias vezes. O MSE resultante pode ser plotado e a média é uma estimativa do erro esperado.
É interessante ver que o MSE de teste flutua bastante para diferentes divisões de trem / teste dos dados. Porém, calcular a média de um número suficientemente grande de experimentos nos dá uma confiança melhor.
Observe a linha pontilhada cinza que mostra a variação de Ycomputado no início. Parece que, em média, o teste MSE nunca está abaixo desse valor
Viés - Decomposição de Variância
Conforme explicado aqui, o MSE pode ser dividido em três componentes principais:
E[ ( Y- f^)2] = σ2ϵ+ B i a s2[ f^] + Va r [ f^]
E[ ( Y- f^)2] = σ2ϵ+ [ f- E[ f^] ]2+ E[ f^- E[ f^] ]2
Onde no nosso estojo de brinquedos:
- f é conhecido no conjunto de dados inicial
- σ2ϵ é conhecido pela distribuição uniforme de ϵ
- E[ f^] pode ser calculado como acima
- f^ corresponde a uma linha levemente colorida
- E[ f^- E[ f^] ]2 pode ser estimado tomando a média
Dando a seguinte relação
Nota: o gráfico acima usa os dados de treinamento para ajustar-se ao modelo e calcula o MSE no teste train + .