Problema com a prova da expectativa condicional como melhor preditor

19

Eu tenho um problema com a prova de

$E(Y|X) \in \arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big]$

que muito provavelmente revelam um mal-entendido mais profundo de expectativas e expectativas condicionais.

A prova que eu conheço é a seguinte (outra versão dessa prova pode ser encontrada aqui )

\begin{aligned} \arg min_{g (X)} E [(Y - g (x))^{2}] \\ = & \arg min_{g (X)} E [(Y - E (Y | X) + E (Y | X) - g (X))^{2}] \\ = & \arg min_{g (x)} E [(Y - E (Y | X))^{2} + 2 (Y - E (Y | X)) (E (Y | X) - g (X)) + (E (Y | X) - g (X))^{2}] \\ = & \arg min_{g (x)} E [2 (Y - E (Y | X)) (E (Y | X) - g (X)) + (E (Y | X) - g (X))^{2}] \end{aligned}

$\begin{align*} &\arg \min_{g(X)} E\Big[\big(Y - g(x)\big)^2\Big]\\ = &\arg \min_{g(X)} E \Big[ \big(Y - E(Y|X) + E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ \big(Y - E(Y|X)\big)^2 + 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ \end{align*}$

A prova geralmente continua com um argumento que mostra que $2 E\Big[ \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big)\Big] = 0$ e, portanto,

\begin{aligned} \arg min_{g (x)} E [(Y - g (x))^{2}] = \arg min_{g (x)} E [(E (Y | X) - g (X))^{2}] \end{aligned}

$\begin{align*} \arg \min_{g(x)} E\Big[\big(Y - g(x)\big)^2\Big] = \arg \min_{g(x)} E \Big[\big(E(Y|X) - g(X)\big)^2\Big] \end{align*}$

que pode ser visto como minimizado quando $g(X) = E(Y|X)$ .

Meus quebra-cabeças sobre a prova são os seguintes:

Considerar

$E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]$ .

Parece-me que, independentemente de qualquer argumento que mostre que o primeiro termo é sempre igual a zero, pode-se ver que a configuração $g(X) = E(Y|X)$ minimiza a expressão como implica $\big(E(Y|X) - g(X)\big) =0$ e, portanto,

$E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big] = E( 0 + 0)$ = 0.

Mas se isso for verdade, pode-se repetir a prova substituindo por qualquer outra função de , digamos , e chegar à conclusão de que é que minimiza a expressão. Então deve haver algo que eu não entendo (certo?). $E(Y|X)$ $X$ $h(X)$ $h(X)$

Eu tenho algumas dúvidas sobre o significado de na declaração do problema. Como a notação deve ser interpretada? Quer dizer $E[(Y−g(X))^2]$

$E_X[(Y−g(X))^2]$ , ou ? $E_Y[(Y−g(X))^2]$ $E_{XY}[(Y−g(X))^2]$

— Martin Van der Linden
fonte

11

(Esta é uma adaptação de Granger & Newbold (1986) "Forecasting Economic Time Series").

Por construção, sua função de custo de erro é . Isso incorpora uma suposição crítica (de que a função de custo de erro é simétrica em torno de zero) - uma função de custo de erro diferente não teria necessariamente o valor esperado condicional como odo seu valor esperado. Você não pode minimizar sua função de custo de erro porque ela contém quantidades desconhecidas. Então você decide minimizar o valor esperado. Então sua função objetivo se torna $\left[Y-g(X)\right]^2$ $\arg \min$

E {[Y - g (X)]}^{2} = \int_{- \infty}^{\infty} {[y - g (X)]}^{2} f_{Y | X} (y | x) d y

$E\left[Y-g(X)\right]^2 = \int_{-\infty}^{\infty}\left[y-g(X)\right]^2f_{Y|X}(y|x)dy$

que eu acredito que responde também a sua segunda pergunta. É intuitivo que o valor esperado será de condicional em , uma vez que estamos tentando estimar / previsão baseado em . Decomponha o quadrado para obter $Y$ $X$ $Y$ $X$

E {[Y - g (X)]}^{2} = \int_{- \infty}^{\infty} y^{2} f_{Y | X} (y | x) d y - 2 g (X) \int_{- \infty}^{\infty} y f_{Y | X} (y | x) d y + [g (X)]^{2} \int_{- \infty}^{\infty} f_{Y | X} (y | x) d y

$E\left[Y-g(X)\right]^2 = \int_{-\infty}^{\infty}y^2f_{Y|X}(y|x)dy -2g(X)\int_{-\infty}^{\infty}yf_{Y|X}(y|x)dy \\+ \Big[g(X)\Big]^2\int_{-\infty}^{\infty}f_{Y|X}(y|x)dy$

O primeiro termo não contém portanto não afeta a minimização e pode ser ignorado. A integral no segundo termo é igual ao valor condicional esperado de dado , e a integral no último termo é igual à unidade. então $g(X)$ $Y$ $X$

\arg min_{g (x)} E {[Y - g (X)]}^{2} = \arg min_{g (x)} {- 2 g (X) E (Y ∣ X) + [g (X)]^{2}}

$\arg \min_{g(x)} E\left[Y-g(X)\right]^2 = \arg \min_{g(x)} \Big\{ -2g(X)E(Y\mid X) + \Big[g(X)\Big]^2 \Big\}$

A primeira derivada wrt é levando à condição de primeira ordem para minimização enquanto a segunda derivada é igual a suficiente para um mínimo. $g(X)$ $-2E(Y\mid X) + 2g(X)$ $g(X) = E(Y\mid X)$ $2>0$

ADENDO: A lógica da abordagem de prova "adicionar e subtrair".

O OP está intrigado com a abordagem declarada na pergunta, porque parece tautológica. Não é, porque, ao usar a tática de adicionar e subtrair, torna zero uma parte específica da função objetivo para uma escolha arbitrária do termo que é adicionado e subtraído, NÃO iguala a função value , ou seja, o valor do objetivo função avaliada no minimizador candidato.

Para a escolha , temos a função de valor Para a escolha arbitrária temos a função de valor $g(X) = E(Y \mid X)$ $V\left(E(Y\mid X)\right) = E\Big[ (Y-E(Y \mid X))^2\mid X\Big]$ $g(X) = h(X)$ . $V\left(h(X)\right) = E\Big[ (Y-h(X))^2\mid X\Big]$

Eu afirmo que

V (E (Y ∣ X)) \leq V (h (X))

$V\left(E(Y\mid X)\right) \le V\left(h(X)\right)$

\Rightarrow E (Y^{2} ∣ X) - 2 E [(Y E (Y ∣ X)) ∣ X] + E [(E (Y ∣ X))^{2} ∣ X] \leq E (Y^{2} ∣ X) - 2 E [(Y h (X)) ∣ X] + E [(h (X))^{2} ∣ X]

$\Rightarrow E(Y^2\mid X) -2E\Big [(YE(Y \mid X))\mid X\Big] + E\Big [(E(Y \mid X))^2\mid X\Big] \\\le E(Y^2\mid X) -2E\Big [(Yh(X))\mid X\Big] + E\Big [(h(X))^2\mid X\Big]$

O primeiro mandato do LHS e do RHS é cancelado. Além disso, note que a expectativa exterior é condicional em . Pelas propriedades das expectativas condicionais, terminamos com $X$

. . . \Rightarrow - 2 E (Y ∣ X) \cdot E (Y ∣ X) + [E (Y ∣ X)]^{2} \leq - 2 E (Y ∣ X) h (X) + [h (X)]^{2}

$...\Rightarrow -2E(Y \mid X)\cdot E\Big (Y\mid X\Big) + \Big [E(Y \mid X)\Big]^2 \le -2E(Y\mid X)h(X) + \Big [h(X)\Big]^2$

\Rightarrow 0 \leq [E (Y ∣ X)]^{2} - 2 E (Y ∣ X) h (X) + [h (X)]^{2}

$\Rightarrow 0 \le \Big [E(Y \mid X)\Big]^2-2E(Y\mid X)h(X) + \Big [h(X)\Big]^2$

que se aplica com estrita desigualdade se . Portanto, é o minimizador global e exclusivo.

\Rightarrow 0 \leq [E (Y ∣ X) - h (x)]^{2}

$\Rightarrow 0 \le \Big [E(Y \mid X) - h(x)\Big]^2$

h (x) \neq E (Y ∣ X)

$h(x) \neq E(Y \mid X)$

E (Y ∣ X)

$E(Y \mid X)$

Mas isso também diz que a abordagem "adicionar e subtrair" não é a maneira mais esclarecedora de prova aqui.

— Alecos Papadopoulos
fonte

Obrigado pela resposta. Isso ajuda a esclarecer minha segunda pergunta. Como tentei transmitir no título da pergunta, meu principal problema (o primeiro no post) era mais sobre o mecanismo de prova. Minha principal preocupação é com minha compreensão da prova que apresentei na pergunta. Como expliquei, meu entendimento da prova me leva a uma afirmação flagrantemente problemática. Então, eu gostaria de entender se meu erro é, pois pode revelar alguns mal-entendidos mais profundos sobre os conceitos de expectativa e condição condicional. Alguma idéia sobre isso?

— Martin Van der Linden

1

Eu adicionei algumas explicações sobre a abordagem "adicionar e subtrair" à prova.

— Alecos Papadopoulos

E [- 2 (Y - h (X)) (h (X) - g (X)) + (h (X) - g (X))^{2}] = 0

$E \Big[ - 2 \big(Y - h(X) \big) \big(h(X) - g(X)\big) + \big(h(X) - g(X)\big)^2\Big] = 0$

g (X) = h (X)

$g(X) = h(X)$

h (X)

$h(X)$

(Y - h (X)) (h (X) - g (X))

$\big(Y - h(X) \big) \big(h(X) - g(X)\big)$

g (X)

$g(X)$

E [- 2 (Y - h (X)) (h (X) - g (X)) + (h (X) - g (X))^{2}] < 0

$E \Big[ - 2 \big(Y - h(X) \big) \big(h(X) - g(X)\big) + \big(h(X) - g(X)\big)^2\Big] < 0$ .

— Martin Van der Linden

1

Hmmm ... o sinal de menos na expressão a que você se refere é um erro - deve ser um sinal de mais. É claro que você poderia reorganizar os termos para obter novamente um sinal de menos ... isso prejudica a intuição que você ganhou?

— Alecos Papadopoulos

Obrigado por acompanhar a pergunta. Editei a postagem inicial para corrigir esse erro. Felizmente, acho que isso não prejudica a intuição adquirida. Na verdade, isso me ajuda a entender outro erro: eu estava assumindo que o sinal de menos era importante para garantir que

0

$0$ não era necessariamente o mínimo de

E [- 2 (Y - h (X)) (h (X) - g (X)) + (h (X) - g (X))^{2}]

$E[−2(Y−h(X))(h(X)−g(X))+(h(X)−g(X))^2]$ . Mas percebo que não se trata apenas do sinal antes do 2. (Espero) O que eu realmente precisava entender é que, em geral (por exemplo, para

h (X)

$h(X)$ )

E [2 (Y - h (X)) (h (X) - g (X))]

$E[2(Y−h(X))(h(X)−g(X))]$ não precisa ser minimizado quando

g (X) = h (X)

$g(X)=h(X)$ (certo?).

— Martin Van der Linden

5

Observe que, para provar a resposta, você realmente só precisa mostrar que

E [- 2 (Y - E (Y | X)) (E (Y | X) - g (X))] = 0 0

$E \Big[ -2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) \Big] = 0$

Quanto a qual expectativa levar, você a leva condicionalmente, caso contrário, o termo

\arg min_{g (X)} E [(Y - g (X))^{2}]

$\arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big]$

Não faz sentido, como $g(X)$ é uma variável aleatória se $E$ é $E_{XY}$ e não $E_{Y|X}$ . Mostre que você realmente deve escrever $E\Big[\big(Y - g(X)\big)^2|X\Big]$ ou $E_{Y|X}\Big[\big(Y - g(X)\big)^2\Big]$ para deixar isso claro. Agora, com esse esclarecimento, o termo $\big(E(Y|X) - g(X)\big)$ é uma constante e pode ser puxada para fora da expecation, e você tem:

- 2 (E (Y | X) - g (X)) E [(Y - E (Y | X)) | X] = - 2 (E (Y | X) - g (X)) [E (Y | X) - E [E (Y | X) | X]] = - 2 (E (Y | X) - g (X)) [E (Y | X) - E (Y | X)] = 0 0

Portanto, você pode escrever a função objetivo como:

E_{Y | X} [(Y - g (X))^{2}] = E_{Y | X} [(Y - E_{Y | X} (Y | X))^{2}] + (E_{Y | X} (Y | X) - g (X))^{2}

$E_{Y|X}\Big[\big(Y - g(X)\big)^2\Big]=E_{Y|X}\Big[\big(Y - E_{Y|X}(Y|X)\big)^2\Big]+\big(E_{Y|X}(Y|X) - g(X)\big)^2$

O minimizador é óbvio a partir daqui. Observe que, se você tiver uma média de mais de $X$ também, um argumento muito semelhante pode ser usado para mostrar:

E_{X} [(E (Y | X) - g (X))^{2}] = E_{X} [(E_{Y | X} (Y | X) - E_{X} [E_{Y | X} (Y | X)])^{2}] + (E_{X} [E_{Y | X} (Y | X)] - E_{X} [g (X)])^{2}

$E_{X}\Big[\big(E(Y|X) - g(X)\big)^2\Big]=E_{X}\Big[\big(E_{Y|X}(Y|X) - E_X\big[E_{Y|X}(Y|X)\big]\big)^2\Big]+\Big(E_{X}\big[E_{Y|X}(Y|X)\big] - E_X\big[g(X)\big]\Big)^2$

Isso mostra que se você definir $g(X)=E_{Y|X}(Y|X)$ para cada $X$ , você também terá um minimizador sobre essa função. Então, em certo sentido, não importa realmente se $E$ é $E_{YX}$ ou $E_{Y|X}$ .

— probabilityislogic
fonte

3

Há um ponto de vista matemático que é muito simples. O que você tem é um problema de projeção em um espaço de Hilbert, como projetar um vetor em $\mathbb{R}^n$ em um subespaço.

Deixei $(\Omega, \mathcal{F}, \mu)$ denotar o espaço de probabilidade subjacente. Para que o problema faça sentido, considere as variáveis aleatórias com segundos momentos finitos, ou seja, o espaço de Hilbert $L^2(\Omega, \mathcal{F}, \mu)$ . O problema agora é este: dado $X, Y \in L^2(\Omega, \mathcal{F}, \mu)$ , encontre a projeção de $Y$ no subespaço $L^2(\Omega, \mathcal{F}_X, \mu)$ , Onde $\mathcal{F}_X$ é o $\sigma$ -subalgebra de $\mathcal{F}$ gerado por $X$ . (Assim como no caso dimensional finito, minimizar $L^2$ distância para um subespaço significa encontrar a projeção). A projeção desejada é $E(X|Y)$ , por construção. (Isso realmente caracteriza $E(X|Y)$ , se alguém inspecionar a prova de existência).

— Michael
fonte

Esta é uma bela resposta.

— jII 18/03/2015

0

Em relação à sua última pergunta, a expectativa pode ser errada $p(x,y)$ (o erro incondicional) ou wrt $p(y\mid x)$ (o erro condicional em cada valor $X = x$ ) Felizmente, minimizando o erro condicional em cada valor $X = x$ também minimiza o erro incondicional, portanto, essa não é uma distinção crucial.

— Ulisses Braga-Neto
fonte