Lei da variância total como teorema de Pitágoras

Suponha que $X$ e $Y$ tenham um segundo momento finito. No espaço de Hilbert de variáveis aleatórias com segundo momento finito (com produto interno de $T_1,T_2$ definido por $E(T_1T_2)$ , $||T||^2=E(T^2)$ ), pode-se interpretar $E(Y|X)$ como a projecção de $Y$ sobre o espaço de funções de $X$ .

Também sabemos que a Lei da Variância Total lê

V a r (Y) = E (V a r (Y | X)) + V a r (E (Y | X))

$Var(Y)=E(Var(Y|X)) + Var(E(Y|X))$

Existe uma maneira de interpretar essa lei em termos da figura geométrica acima? Disseram-me que a lei é a mesma do Teorema de Pitágoras para o triângulo retângulo com os lados $Y, E(Y|X), Y-E(Y|X)$ . Entendo por que o triângulo é angular, mas não como o Teorema de Pitágoras está capturando a Lei da Variância Total.

variance conditional-expectation

— renrenthehamster
fonte

Suponho que você se sinta confortável em relação ao triângulo retângulo, o que significa que $E[Y\mid X]$ e $Y - E[Y\mid X]$ são variáveis aleatórias não correlacionadas . Para variáveis aleatórias não correlacionadas $A$ e $B$ ,

\begin{matrix} (1) & var (UMA + B) = var (UMA) + var (B), \end{matrix}

$\operatorname{var}(A+B) = \operatorname{var}(A) + \operatorname{var}(B),\tag{1}$ e

portanto, se definirmos

A = Y - E [Y ∣ X]

$A = Y - E[Y\mid X]$ e

B = E [Y ∣ X]

$B = E[Y\mid X]$ modo que

A + B = Y

$A+B = Y$ , obtemos que

\begin{matrix} 2) & var (Y) = var (Y - E [Y ∣ X]) + var (E [Y ∣ X]) . \end{matrix}

$\operatorname{var}(Y) = \operatorname{var}(Y-E[Y\mid X]) + \operatorname{var}(E[Y\mid X]).\tag{2}$ Resta mostrar que

é o mesmo que

para que possamos reestabelecer

como

qual é a fórmula de variação total.

var (Y - E [Y ∣ X])

$\operatorname{var}(Y-E[Y\mid X])$

E [var (Y ∣ X)]

$E[\operatorname{var}(Y\mid X)]$

(2)

$(2)$

\begin{matrix} (3) & var (Y) = E [var (Y ∣ X)] + var (E [Y ∣ X]) \end{matrix}

$\operatorname{var}(Y) = E[\operatorname{var}(Y\mid X)] + \operatorname{var}(E[Y\mid X])\tag{3}$

É bem conhecido que o valor esperado da variável aleatória é , isto é, . Então vemos que $E[Y\mid X]$ $E[Y]$ $E\biggr[E[Y\mid X]\biggr] = E[Y]$ a partir do qual se segue que , isto é, Seja denotado a variável aleatória

E [A] = E [Y - E [Y ∣ X]] = E [Y] - E [E [Y ∣ X]] = 0,

$E[A] = E\biggr[Y - E[Y\mid X]\biggr] = E[Y] - E\biggr[E[Y\mid X]\biggr] = 0,$

var (A) = E [A^{2}]

$\operatorname{var}(A) = E[A^2]$

\begin{matrix} (4) & var (Y - E [Y ∣ X]) = E [(Y - E [Y ∣ X])^{2}] . \end{matrix}

$\operatorname{var}(Y-E[Y\mid X]) = E\left[(Y-E[Y\mid X])^2\right].\tag{4}$

C

$C$

para que possamos escrever essa

Mas,

onde

(Y - E [Y ∣ X])^{2}

$(Y-E[Y\mid X])^2$

\begin{matrix} (5) & var (Y - E [Y ∣ X]) = E [C] . \end{matrix}

$\operatorname{var}(Y-E[Y\mid X]) = E[C].\tag{5}$

E [C] = E [E [C ∣ X]]

$E[C] = E\biggr[E[C\mid X]\biggr]$

Agora,dadoque

E [C ∣ X] = E [(Y - E [Y ∣ X])^{2} | X] .

$E[C\mid X] = E\biggr[(Y-E[Y\mid X])^2{\bigr\vert} X\biggr].$

X = x

$X = x$ , a distribuição condicional de

tem

e então

Em outras palavras,

Y

$Y$

E [Y ∣ X = x]

$E[Y\mid X=x]$

E [(Y - E [Y ∣ X = x])^{2} | X = x] = var (Y ∣ X = x) .

$E\biggr[(Y-E[Y\mid X=x])^2{\bigr\vert} X=x\biggr] = \operatorname{var}(Y\mid X = x).$

modo que avariável aleatória

seja apenas

. Portanto,

E [C ∣ X = x] = var (Y ∣ X = x)

$E[C\mid X = x] = \operatorname{var}(Y\mid X = x)$

E [C ∣ X]

$E[C\mid X]$

var (Y ∣ X)

$\operatorname{var}(Y\mid X)$

\begin{matrix} (6) & E [C] = E [E [C ∣ X]] = E [var (Y ∣ X)], \end{matrix}

$E[C] = E\biggr[E[C\mid X]\biggr] = E[\operatorname{var}(Y\mid X)], \tag{6}$

(5)

$(5)$

var (Y - E [Y ∣ X]) = E [var (Y ∣ X)] .

$\operatorname{var}(Y-E[Y\mid X]) = E[\operatorname{var}(Y\mid X)].$

(2)

$(2)$

(3)

$(3)$

— Dilip Sarwate
fonte

Y - E (Y | X)

$Y-E(Y|X)$ é uma variável com média zero. Conseqüentemente

v a r (Y - E (Y | X)) = E [Y - E (Y | X)]^{2}

$var(Y-E(Y|X))=E[Y-E(Y|X)]^2$ . Agora

E v a r (Y | X) = E [E ((Y - E (Y | X))^{2} | X)] = E [Y - E (Y | X)]^{2}

$Evar(Y|X)=E[E((Y-E(Y|X))^2|X)]=E[Y-E(Y|X)]^2$ . Segunda parte um pouco menos complicada da resposta.

— Mvctas #

@mpiktas Obrigado. Estou ciente da maneira mais curta de obter o resultado desejado, mas sempre tenho dificuldade em explicá-lo de uma maneira que os alunos iniciantes possam acompanhar facilmente. Aliás, nessa última equação que você escreveu, a quantidade à direita tem um expoente fora de lugar: é a quantidade dentro dos colchetes que deve ser ao quadrado; isto é, deve ser

E [(Y - E [Y | X])^{2}]

$E\bigr[(Y-E[Y|X])^2\bigr ]$ . Tarde demais para corrigi-lo, a menos que um moderador o obrigue.

— Dilip Sarwate

Por outro lado, muitos probabilistas interpretariam corretamente a equação de @mpiktas como está escrita; o conjunto extra de parênteses é frequentemente descartado. Talvez meus olhos estejam me enganando, mas acho que a notação dele é consistente o tempo todo. Estou feliz em ajudar a consertar as coisas, se desejado. :-)

— cardeal

@ cardinal Não interpretei mal a escrita de mpiktas e entendi completamente o que ele estava dizendo. Enquanto eu também estou acostumado a interpretar

E X

$EX$ ou

E X

$\mathbb EX$ como o valor esperado de

X

$X$ , Eu sempre tenho minhas dúvidas sobre

E X^{2}

$EX^2$ , especialmente porque o PEMDAS não diz nada sobre isso. A expectativa tem prioridade sobre a exponenciação ou não? Acho que estou acostumado ao operador de expectativa de aplicar a tudo dentro dos colchetes. Por favor, não edite o comentário de m [iktas, mas se você quiser excluir tudo neste tópico de "Incidentalmente" em diante no meu comentário anterior, vá em frente.

— precisa saber é o seguinte

Sinto muito, @Dilip. Minha intenção não era sugerir que você não entendeu; Eu sabia que você tinha! Concordo também que a notação pode se prestar a ambiguidades e é bom indicá-las quando surgirem! O que eu quis dizer foi que pensei na segunda equação no comentário (ou seja,

v a r \dots

$var\ldots$ ) made clear the convention that was used henceforth. :-)

— cardinal

Statement:

The Pythagorean theorem says, for any elements $T_1$ and $T_2$ of an inner-product space with finite norms such that $\langle T_1,T_2\rangle = 0$ ,

\begin{matrix} (1) & | | T_{1} + T_{2} | |^{2} = | | T_{1} | |^{2} + | | T_{2} | |^{2} . \end{matrix}

$||T_1+T_2||^2 = ||T_1||^2 + ||T_2||^2 \tag{1}.$ Or in other words, for orthogonal vectors, the squared length of the sum is the sum of the squared lengths.

Our Case:

In our case $T_1 = E(Y|X)$ and $T_2 = Y - E[Y|X]$ are random variables, the squared norm is $||T_i||^2 = E[T_i^2]$ and the inner product $\langle T_1,T_2\rangle = E[T_1T_2]$ . Translating $(1)$ into statistical language gives us:

\begin{matrix} (2) & E [Y^{2}] = E [{E (Y | X)}^{2}] + E [(Y - E [Y | X])^{2}], \end{matrix}

$E[Y^2] = E[\{E(Y|X)\}^2] + E[(Y - E[Y|X])^2] \tag{2},$ because

E [T_{1} T_{2}] = Cov (T_{1}, T_{2}) = 0

$E[T_1T_2] = \operatorname{Cov}(T_1,T_2) = 0$ . We can make this look more like your stated Law of Total Variance if we change

(2)

$(2)$ by...

Subtract $(E[Y])^2$ from both sides, making the left hand side $\operatorname{Var}[Y]$ ,
Noting on the right hand side that $E[\{E(Y|X)\}^2] - (E[Y])^2 = \operatorname{Var}(E[Y|X])$ ,
Noting that $E[(Y - E[Y|X])^2] = E[E\{(Y - E[Y|X])^2\}|X] = E[\operatorname{Var}(Y|X)]$ .

For details about these three bullet points see @DilipSarwate's post. He explains this all in much more detail than I do.

— Taylor
fonte