Estou lutando para entender a derivação do erro de previsão esperado abaixo (ESL), especialmente na derivação de 2.11 e 2.12 (condicionamento, o passo em direção ao mínimo pontual). Quaisquer ponteiros ou links muito apreciados.
Abaixo, estou relatando o trecho da ESL pág. 18. As duas primeiras equações são, em ordem, as equações 2.11 e 2.12.
Deixe denotar um vetor de entrada aleatória com valor real e uma variável de saída aleatória com valor real, com distribuição conjunta . Nós procuramos uma função para prever valores dados de entrada . Essa teoria requer uma função de perda para penalizar erros na previsão, e de longe o mais comum e conveniente é a perda de erro ao quadrado : . Isso nos leva a um critério para escolher ,L ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2 f
o erro de previsão esperado (ao quadrado). Ao condicionar em , podemos escrever EPE como
e vemos que basta minimizar a EPE em termos de pontos:
A solução é
a expectativa condicional, também conhecida como função de regressão .