(Esta é uma adaptação de Granger & Newbold (1986) "Forecasting Economic Time Series").
Por construção, sua função de custo de erro é . Isso incorpora uma suposição crítica (de que a função de custo de erro é simétrica em torno de zero) - uma função de custo de erro diferente não teria necessariamente o valor esperado condicional como oargumentomínimodo seu valor esperado. Você não pode minimizar sua função de custo de erro porque ela contém quantidades desconhecidas. Então você decide minimizar o valor esperado. Então sua função objetivo se torna[Y−g(X)]2argmin
E[Y−g(X)]2=∫∞−∞[y−g(X)]2fY|X(y|x)dy
que eu acredito que responde também a sua segunda pergunta. É intuitivo que o valor esperado será de condicional em X , uma vez que estamos tentando estimar / previsão Y baseado em X . Decomponha o quadrado para obterYXYX
E[Y−g(X)]2=∫∞−∞y2fY|X(y|x)dy−2g(X)∫∞−∞yfY|X(y|x)dy+[g(X)]2∫∞−∞fY|X(y|x)dy
O primeiro termo não contém portanto não afeta a minimização e pode ser ignorado. A integral no segundo termo é igual ao valor condicional esperado de Y, dado X , e a integral no último termo é igual à unidade. entãog(X)YX
argming( X )E[ Y- g( X) ]2= argming( X ){ -2g( X) E( Y∣ X) + [ g( X) ]2}
A primeira derivada wrt é - 2 E ( Y ∣ X ) + 2 g ( X ) levando à condição de primeira ordem para minimização g ( X ) = E ( Y ∣ X ) enquanto a segunda derivada é igual a 2 > 0, o suficiente para um mínimo.g( X)- 2 E( Y∣ X)+2g(X)g(X)=E(Y∣X)2>0
ADENDO: A lógica da abordagem de prova "adicionar e subtrair".
O OP está intrigado com a abordagem declarada na pergunta, porque parece tautológica. Não é, porque, ao usar a tática de adicionar e subtrair, torna zero uma parte específica da função objetivo para uma escolha arbitrária do termo que é adicionado e subtraído, NÃO iguala a função value , ou seja, o valor do objetivo função avaliada no minimizador candidato.
Para a escolha , temos a função de valor V ( E ( Y ∣ X ) ) = E [ ( Y - E ( Y ∣ X ) ) 2 ∣ X ]
Para a escolha arbitrária g ( X ) = h ( X ) temos a função de valor V ( h (g(X)=E(Y∣X)V(E(Y∣X))=E[(Y−E(Y∣X))2∣X]g(X)=h(X) .V(h(X))=E[(Y−h(X))2∣X]
Eu afirmo que
⇒ E ( Y 2 ∣ X ) - 2 E [ ( Y E ( Y ∣ X ) ) ∣ X ] + E [ ( E ( Y ∣ X ) ) 2 ∣ X ]
V(E(Y∣X))≤V(h(X))
⇒E(Y2∣X)−2E[(YE(Y∣X))∣X]+E[(E(Y∣X))2∣X]≤E(Y2∣X)−2E[(Yh(X))∣X]+E[(h(X))2∣X]
O primeiro mandato do LHS e do RHS é cancelado. Além disso, note que a expectativa exterior é condicional em . Pelas propriedades das expectativas condicionais, terminamos comX
...⇒−2E(Y∣X)⋅E(Y∣X)+[E(Y∣X)]2≤−2E(Y∣X)h(X)+[h(X)]2
⇒0≤[E(Y∣X)]2−2E(Y∣X)h(X)+[h(X)]2
que se aplica com estrita desigualdade se h ( x ) ≠ E ( Y ∣ X ) . Portanto, E ( Y ∣ X ) é o minimizador global e exclusivo.
⇒0≤[E(Y∣X)−h(x)]2
h(x)≠E(Y∣X)E(Y∣X)
Mas isso também diz que a abordagem "adicionar e subtrair" não é a maneira mais esclarecedora de prova aqui.