Por que o viés é igual a zero para o estimador OLS em relação à regressão linear?

Entendo o conceito de compensação de desvio e desvio. O viés baseado no meu entendimento representa o erro devido ao uso de um classificador simples (por exemplo: linear) para capturar um limite de decisão não linear complexo. Então, eu esperava que o estimador OLS tivesse alto viés e baixa variação.

Mas me deparei com o Teorema de Gauss Markov, que diz que o viés de OLS = 0 é surpreendente para mim. Explique como o viés é zero para o OLS porque eu esperava que o viés fosse alto. Por que minha compreensão do viés está errada?

— GeorgeOfTheRF
fonte

A prova de que o viés de ols (para modelos lineares) é zero, pressupõe que o modelo é VERDADEIRO, ou seja, que todas as variáveis relevantes estão incluídas no modelo, que seu efeito é exatamente linear e assim por diante .... Se isso não for verdade, o resultado não será seguido.

— Kjetil b halvorsen

economictheoryblog.com/2015/02/26/markov_theorem

— GeorgeOfTheRF

O Teorema de Gauss-Markov está nos dizendo que, em um modelo de regressão, em que o valor esperado de nossos termos de erro é zero, E (\ epsilon_ {i}) = 0 e a variação dos termos de erro é constante e finita \ sigma ^ {2 } (\ epsilon_ {i}) = \ sigma ^ {2} \ textless \ infty e \ epsilon_ {i} e \ epsilon_ {j} não são correlacionados para todos os estimadores de mínimos quadrados b, {i} e b_ {1 } são imparciais e têm variação mínima entre todos os estimadores lineares imparciais.

— GeorgeOfTheRF

Eu não disse que o modelo deveria se encaixar perfeitamente, eu disse que todas as variáveis relevantes deveriam ser incluídas. Essas são duas condições diferentes!

— Kjetil b halvorsen

A suposição média zero sobre os erros equivale a exigir o que @kjetilbhalvorsen menciona: não há efeitos sistemáticos no termo do erro.

— Christoph Hanck

Podemos pensar em qualquer tarefa de aprendizado supervisionado, seja de regressão ou classificação, como uma tentativa de aprender um sinal subjacente a partir de dados ruidosos. Considere o seguinte exemplo simples:

Nosso objetivo é estimar o sinal verdadeiro base em um conjunto de pares observados onde e são ruídos aleatórios com média 0. Para isso final, ajustamos um modelo usando nosso algoritmo de aprendizado de máquina favorito. $f(x)$ $\{x_i, y_i\}$ $y_i = f(x_i) + \epsilon_i$ $\epsilon_i$ $\hat{f}(x)$

Quando dizemos que o estimador OLS é imparcial, o que realmente queremos dizer é que, se a forma verdadeira do modelo é , então o OLS estima e tem as propriedades encantadoras de e . $f(x) = \beta_0 + \beta_1 x$ $\hat{\beta}_0$ $\hat{\beta}_1$ $E(\hat{\beta}_0) = \beta_0$ $E(\hat{\beta}_1) = \beta_1$

Isso é verdade para o nosso exemplo simples, mas é uma suposição muito forte! Em geral, e na medida em que nenhum modelo esteja realmente correto, não podemos fazer tais suposições sobre . Portanto, um modelo com a forma será tendencioso. $f(x)$ $\hat{f}(x) = \hat{\beta}_0 + \hat{\beta}_1 x$

E se nossos dados forem assim? ( alerta de spoiler: ) $f(x) = sin(x)$

Agora, se ajustarmos o modelo ingênuo , é extremamente inadequado estimar (alto viés). Mas, por outro lado, é relativamente insensível ao ruído (baixa variação). $\hat{f}(x) = \hat{\beta}_0 + \hat{\beta}_1 x$ $f(x)$

Se adicionarmos mais termos ao modelo, diga , podemos capturar mais do sinal "desconhecido" em virtude da complexidade adicional na estrutura do nosso modelo. Baixamos o viés nos dados observados, mas a complexidade adicionada necessariamente aumenta a variação. (Observe que, se é verdadeiramente periódico, a expansão polinomial é uma má escolha!) $\hat{f}(x) = \hat{\beta}_0 + \hat{\beta}_1x + \hat{\beta}_2x^2 + ... \hat{\beta}_p x^p$ $f(x)$

Mas, novamente, a menos que saibamos que o verdadeiro , nosso modelo nunca será imparcial , mesmo se usarmos o OLS para ajustar os parâmetros. $f(x) = \beta_0 + \beta_1 sin(x)$

— Andy Kreek
fonte