Os problemas ocorrem quando um modelo tem uma alta tendência para ajustar o ruído.f(x,θ)
Nesse caso, o modelo tende a se ajustar demais. Ou seja, não está apenas expressando o modelo verdadeiro, mas também o ruído aleatório que você não deseja capturar com seu modelo (porque o ruído é uma parte não sistemática que não permite fazer previsões para novos dados).
Pode-se melhorar (reduzir) o erro total de ajuste, introduzindo algum viés, quando esse viés faz com que a variação / excesso de ajuste diminua mais fortemente do que o aumento do viés / baixo ajuste (ou seja, não representa corretamente o modelo verdadeiro) .
1. Por que exatamente e não podem ser diminuídos simultaneamente?E[(θ^n−E[θ^n])2]E[θ^n−θ]
Isso não é verdade. Eles podem ser diminuídos simultaneamente (dependendo do caso). Imagine que você introduziu algum viés que aumentou tanto a variação quanto o viés. Então, na direção inversa, reduzir esse viés reduzirá simultaneamente o viés e a variação.
Por exemplo, uma diferença quadrática média de raiz escalada para amostra de tamanho é um estimador imparcial para o desvio padrão da população quando . Agora, se você tivesse , reduziria o viés e a variação ao reduzir o tamanho dessa constante .c1n∑(xi−x¯)2−−−−−−−−−−−√nσc=nn−1−−−√c>nn−1−−−√c
No entanto, o viés adicionado (intencionalmente) à regularização geralmente é do tipo que reduz a variação (por exemplo, você pode reduzir para um nível abaixo de ). Assim, você obtém uma compensação pelo viés versus variação e a remoção do viés (na prática) aumentará a variação.cnn−1−−−√
2. Por que não podemos simplesmente pegar um estimador imparcial e reduzir a variação aumentando o tamanho da amostra?
Em princípio você pode.
Mas,
- Isso pode exigir muito mais esforço de amostragem, que é caro, e isso geralmente é uma limitação.
Possivelmente também pode haver dificuldades computacionais com certos problemas de estimativa e o tamanho da amostra precisaria aumentar extremamente para resolver isso, se for possível.
(por exemplo, parâmetros de alta dimensionalidade> medições ou como na regressão de crista : caminhos muito rasos em torno do ideal global)
Freqüentemente, também não há objeção ao viés. Quando se trata de reduzir o erro total (como em muitos casos), é preferível o uso de um estimador tendencioso, mas menos errôneo.
Sobre o seu exemplo de contador.
Relacionado à sua segunda pergunta, você pode realmente reduzir o erro aumentando o tamanho da amostra. E relacionado à sua primeira pergunta, você também pode reduzir o viés e a variação (digamos que você use uma média de amostra escalada como estimador da média da população e considere variar o parâmetro de escala ).c∑xinc
No entanto, a região de interesse prático é onde o viés decrescente coincide com uma variação crescente. A imagem abaixo mostra esse contraste usando uma amostra (tamanho = 5) obtida de uma distribuição normal com variância = 1 e média = 1. A média amostral não calculada é o preditor imparcial da média da população. Se você aumentasse o dimensionamento desse preditor, teria um viés crescente e uma variação crescente. No entanto, se você diminuir o dimensionamento do preditor, terá um viés crescente, mas uma variação decrescente. O preditor "ideal" não é, na verdade, a média da amostra, mas sim um estimador encolhido (consulte também Por que o estimador de James-Stein é chamado de estimador "encolhimento"? ).