15

Estou tentando entender a troca de viés e variância, a relação entre o viés do estimador e o viés do modelo e o relacionamento entre a variação do estimador e a variação do modelo.

Cheguei a estas conclusões:

Tendemos a superestimar os dados quando negligenciamos o viés do estimador, ou seja, quando pretendemos apenas minimizar o viés do modelo, negligenciando a variação do modelo (em outras palavras, pretendemos minimizar a variação do estimador sem considerar o viés do estimador também)
Vice-versa, tendemos a subestimar os dados quando negligenciamos a variação do estimador, ou seja, quando pretendemos apenas minimizar a variação do modelo, negligenciando o viés do modelo (em outras palavras, pretendemos apenas minimizar o viés do estimador sem considerar também a variância do estimador).

Minhas conclusões estão corretas?

— John M
fonte

John, acho que você vai gostar de ler este artigo de Tal Yarkoni e Jacob Westfall - ele fornece uma interpretação intuitiva do trade-off de desvio de variação: jakewestfall.org/publications/… .

— Isabella Ghement

22

Bem, mais ou menos. Conforme afirmado, você atribui ao cientista a intenção de minimizar o viés ou a variação. Na prática, você não pode observar explicitamente o viés ou a variação do seu modelo (se pudesse, saberia o sinal verdadeiro, caso em que não precisaria de um modelo). Em geral, você só pode observar a taxa de erro do seu modelo em um conjunto de dados específico e procura estimar a taxa de erro fora da amostra usando várias técnicas criativas.

Agora você não sabe que, pelo menos teoricamente, essa taxa de erro pode ser decomposta em termos de viés e variância, mas você não pode observar diretamente este equilíbrio em qualquer situação específica concreto. Então, eu iria reafirmar suas observações um pouco como:

Um modelo não é adequado aos dados quando o termo de viés contribui com a maioria dos erros fora da amostra.
Um modelo está super ajustado aos dados quando o termo de variação contribui com a maioria dos erros fora da amostra.

Em geral, não há uma maneira real de ter certeza, pois você nunca pode realmente observar o viés do modelo. No entanto, existem vários padrões de comportamento que indicam uma situação ou outra:

Os modelos de excesso de ajuste tendem a ter uma qualidade de desempenho muito pior em um conjunto de dados de teste versus um conjunto de dados de treinamento.
Os modelos de roupas íntimas tendem a ter a mesma qualidade de desempenho em um conjunto de dados de teste versus treinamento.

Estes são os padrões que se manifestam nos famosos gráficos de taxas de erro por complexidade do modelo, este é de The Elements of Statistical Learning:

modelComplexity

Muitas vezes, esses gráficos são sobrepostos a uma curva de viés e variância. Tirei este desta bela exposição :

insira a descrição da imagem aqui

Mas, é muito importante perceber que você nunca consegue ver essas curvas adicionais em nenhuma situação realista.

— Matthew Drury
fonte

4

Ilustrando o tradeoff de desvio - variação usando um exemplo de brinquedo

Como aponta Matthew Drury, em situações realistas você não consegue ver o último gráfico, mas o exemplo de brinquedo a seguir pode fornecer interpretação visual e intuição para quem achar útil.

Conjunto de dados e suposições

$Y$

$Y = sin(\pi x - 0.5) + \epsilon$ $\epsilon \sim Uniform(-0.5,0.5)$ ou em outras palavras
$Y = f(x) + \epsilon$

Observe que $x$ não é uma variável aleatória, portanto, a variação de $Y$ é $Var(Y) = Var(\epsilon) = \frac{1}{12}$

Ajustaremos um modelo de regressão polinomial linear a esse conjunto de dados do formulário $\hat f(x) = \beta_0 + \beta_1x + \beta_1 x^2 + ... + \beta_px^p$ .

Montagem de vários modelos de polinômios

Intuitivamente, você esperaria que uma curva de linha reta tivesse um desempenho ruim, pois o conjunto de dados é claramente não linear. Da mesma forma, o ajuste de um polinômio de ordem muito alta pode ser excessivo. Essa intuição é refletida no gráfico abaixo, que mostra os vários modelos e o erro quadrático médio correspondente para dados de trem e teste.

O gráfico acima funciona para uma única divisão de trem / teste, mas como sabemos se ele se generaliza?

Estimando o trem esperado e teste MSE

Aqui temos muitas opções, mas uma abordagem é dividir os dados aleatoriamente entre treinar / testar - ajustar o modelo na divisão especificada e repetir esse experimento várias vezes. O MSE resultante pode ser plotado e a média é uma estimativa do erro esperado.

É interessante ver que o MSE de teste flutua bastante para diferentes divisões de trem / teste dos dados. Porém, calcular a média de um número suficientemente grande de experimentos nos dá uma confiança melhor.

Observe a linha pontilhada cinza que mostra a variação de $Y$ computado no início. Parece que, em média, o teste MSE nunca está abaixo desse valor

Viés - Decomposição de Variância

Conforme explicado aqui, o MSE pode ser dividido em três componentes principais:

E [(Y - \hat{f})^{2}] = σ_{ϵ}^{2} + B Eu uma s^{2} [\hat{f}] + V uma r [\hat{f}]

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + Bias^2[\hat f] + Var[\hat f]$

E [(Y - \hat{f})^{2}] = σ_{ϵ}^{2} + {[f - E [\hat{f}]]}^{2} + E {[\hat{f} - E [\hat{f}]]}^{2}

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2$

Onde no nosso estojo de brinquedos:

$f$ é conhecido no conjunto de dados inicial
$\sigma^2_\epsilon$ é conhecido pela distribuição uniforme de $\epsilon$
$E[\hat f]$ pode ser calculado como acima
$\hat f$ corresponde a uma linha levemente colorida
$E\left[ \hat f - E[ \hat f] \right]^2$ pode ser estimado tomando a média

Dando a seguinte relação

Nota: o gráfico acima usa os dados de treinamento para ajustar-se ao modelo e calcula o MSE no teste train + .

— Xavier Bourret Sicotte
fonte

Pergunta sobre compensação de desvio e desvio

Ilustrando o tradeoff de desvio - variação usando um exemplo de brinquedo

Conjunto de dados e suposições

Montagem de vários modelos de polinômios

Estimando o trem esperado e teste MSE

Viés - Decomposição de Variância