Termo de variância na decomposição de regressão linear por viés e variância

Em 'The Elements of Statistical aprendizagem', a expressão para a decomposição de polarização-variância de-modelo linear é dada como

E r r (x_{0 0}) = σ_{ϵ}^{2} + E [f (x_{0 0}) - E \hat{f} (x_{0 0})]^{2} + | | h (x_{0 0}) | |^{2} σ_{ϵ}^{2},

$Err(x_0)=\sigma_\epsilon^2+E[f(x_0)-E\hat f(x_0)]^2+||h(x_0)||^2\sigma_\epsilon^2,$ onde é a função de destino real,

f (x_{0})

$f(x_0)$

σ_{ϵ}^{2}

$\sigma_\epsilon^2$ é a variação do erro aleatório no modelo e é o estimador linear de .

y = f (x) + ϵ

$y=f(x)+\epsilon$

\hat{f} (x)

$\hat f(x)$

f (x)

$f(x)$

O termo variância está me incomodando aqui porque a equação implica que a variância seria zero se os alvos forem silenciosos, isto é,Mas não faz sentido para mim porque, mesmo com ruído zero, ainda posso obter estimadores diferentes para diferentes conjuntos de treinamento, o que implica que a variação é diferente de zero. $\sigma_\epsilon^2=0.$ $\hat f(x_0)$

Por exemplo, suponha que a função alvo seja quadrática e os dados de treinamento contenham dois pontos amostrados aleatoriamente dessa quadrática; claramente, terei um ajuste linear diferente toda vez que amostrar dois pontos aleatoriamente do alvo quadrático. Então, como a variação pode ser zero? $f(x_0)$

Alguém pode me ajudar a descobrir o que há de errado na minha compreensão da decomposição da variação de polarização?

regression linear-model bias-variance-tradeoff

— Abhinav Gupta
fonte

Há sempre uma sutileza oculta nos tratamentos de preconceitos e variações, e é importante prestar muita atenção a isso ao estudar. Se você reler as primeiras palavras de ESL em uma seção desse capítulo, os autores deverão prestar algum respeito.

Discussões sobre estimativa de taxa de erro podem ser confusas, porque precisamos esclarecer quais quantidades são fixas e quais são aleatórias

A sutileza é o que é fixo e o que é aleatório .

Nos tratamentos tradicionais de regressão linear, os dados são tratados como fixos e conhecidos. Se você seguir os argumentos em ESL, verá que os autores também estão fazendo essa suposição. Sob estas premissas, o seu exemplo não entram em jogo, como a única fonte remanescente de aleatoriedade a partir da distribuição condicional de dado . Se ajudar, você pode substituir a notação em sua mente por . $X$ $y$ $X$ $Err(x_0)$ $Err(x_0 \mid X)$

Isso não quer dizer que sua preocupação seja inválida; certamente é verdade que a seleção de dados de treinamento realmente introduz aleatoriedade em nosso algoritmo de modelo, e um profissional diligente tentará quantificar o efeito dessa aleatoriedade em seus resultados. De fato, você pode ver claramente que as práticas comuns de inicialização e validação cruzada incorporam explicitamente essas fontes de aleatoriedade em suas inferências.

Para derivar uma expressão matemática explícita para o viés e a variação de um modelo linear no contexto de um conjunto de dados de treinamento aleatório, seria necessário fazer algumas suposições sobre a estrutura da aleatoriedade nos dadosIsso envolveria algumas suposições sobre a distribuição de . Isso pode ser feito, mas não se tornou parte das exposições principais dessas idéias. $X$ $X$

— Matthew Drury
fonte

X

$X$

Y | X

$Y|X$

(X, Y)

$(X,Y)$

E = E_{X} E_{Y | X}

$E=E_XE_{Y|X}$

V a r (\hat{f} (x_{0})) = E_{X} [| | h (x_{0}) | |^{2} σ_{ϵ}^{2}]

$Var(\hat f(x_0))=E_X[||h(x_0)||^2\sigma_\epsilon^2]$

σ_{ϵ}^{2}

$\sigma_\epsilon^2$

Meu palpite é que os autores estão assumindo que o modelo está especificado corretamente, ou seja, inclui todos e apenas os preditores relevantes com as transformações corretas. Eu teria que voltar ao livro em vez de confiar na minha memória para confirmar.

— Matthew Drury

Se por "especificado corretamente" você quer dizer que a função de destino é de fato linear, entendo que o ruído zero implicaria um viés zero. Mas, mesmo que a função de destino não seja linear, obtemos exatamente a mesma expressão para a variação.

— Abhinav Gupta 16/10

É verdade, mas nesse caso "especificado corretamente" significaria que você estava usando regressão linear para ajustar-se a um modelo, incluindo os preditores corretos. Portanto, se o verdadeiro relacionamento for quadrático, você estaria assumindo que seu modelo inclui os termos quadráticos.

— Matthew Drury