Intuição (geométrica ou outra) de


18

Considere a identidade elementar da variação:

Var(X)=E[(XE[X])2]=...=E[X2](E[X])2

É uma simples manipulação algébrica da definição de um momento central em momentos não centrais.

Permite manipulação conveniente de em outros contextos. Ele também permite o cálculo da variação por meio de uma única passagem sobre os dados, em vez de duas, primeiro para calcular a média e depois para calcular a variação.Var(X)

Mas o que isso significa ? Para mim, não há intuição geométrica imediata que relacione a dispersão sobre a média a espalhar em torno de 0. Como é um conjunto em uma única dimensão, como você vê a propagação em torno de uma média como a diferença entre a propagação em torno da origem e o quadrado da significar?X

Existem boas interpretações de álgebra linear ou físicas ou outras que dariam informações sobre essa identidade?


7
Dica: esse é o teorema de Pitágoras.
whuber

1
@ Matthew Eu me pergunto o que " " pretende significar. Suspeito que não seja uma expectativa, mas apenas uma abreviação da média aritmética. Caso contrário, as equações estariam incorretas (e quase sem sentido, pois, então, equiparariam variáveis ​​aleatórias a números). E
whuber

2
@whuber Como os produtos internos introduzem a idéia de distâncias e ângulos, e o produto interno do espaço vetorial de variáveis ​​aleatórias com valor real é definido como (?), eu me pergunto se alguma intuição geométrica pode ser dada via a desigualdade do triângulo. Não tenho ideia de como proceder, mas fiquei pensando se isso faz algum sentido. E[XY]
Antoni Parellada

1
@ Anttoni A desigualdade do triângulo é muito geral. Um produto interno é um objeto muito mais especial. Felizmente, a intuição geométrica apropriada é precisamente a da geometria euclidiana. Além disso, mesmo no caso das variáveis ​​aleatórias e , a geometria necessária pode ser confinada ao espaço vetorial bidimensional real gerado por e : isto é, ao próprio plano euclidiano. No presente caso, não parece ser um RV: é apenas um vetor . Aqui, o espaço medido por e é o plano euclidiano no qual toda a geometria acontece. Y X Y X n X ( 1 , 1 , , 1 )XYXYXnX(1,1,,1)
whuber

3
Definir na resposta à qual e dividir todos os termos por (se você desejar) fornecerá a solução algébrica completa para a variação: não há motivo para copiá-lo novamente. Isso porque é a média aritmética de , de onde é apenas vezes a variação que você definiu aqui, é vezes a média aritmética ao quadrado e é vezes a média aritmética dos valores ao quadrado. n β 0y| | y - y | | 2n| | y | | 2n| | y| | 2nβ^1=0nβ^0y||yy^||2n||y^||2n||y||2n
whuber

Respostas:


21

Expandindo o ponto do @ whuber nos comentários, se e Z são ortogonais, você tem o Teorema de Pitágoras :YZ

Y2+Z2=Y+Z2

Observe que é um produto interno válido e que é a norma induzida por esse produto interno .Y = Y,ZE[YZ]Y=E[Y2]

Seja uma variável aleatória. Seja , seja . Se e são ortogonais:Y = E [ X ] Z = X - E [ X ] Y ZXY=E[X]Z=XE[X]YZ

Y2+Z2=Y+Z2E[E[X]2]+E[(XE[X])2]=E[X2]E[X]2+Var[X]=E[X2]

E é fácil mostrar que e são ortogonais sob este produto interno:Z = X - E [ X ]Y=E[X]Z=XE[X]

Y,Z=E[E[X](XE[X])]=E[X]2E[X]2=0

Uma das pernas do triângulo é , a outra perna é , ea hipotenusa é . E o teorema de Pitágoras pode ser aplicado porque uma variável aleatória modificada é ortogonal à sua média.E [ X ] XXE[X]E[X]X


Observação técnica:

Y = E [ X ] 1 E [ X ] 1 1 = [ 1 , 1 , 1 , , 1 ] Y X 1Y neste exemplo realmente deve ser o vetor , ou seja, o escalar vezes o vetor constante (por exemplo, no caso de resultado discreto e finito). é a projeção vetorial de no vetor constante .Y=E[X]1E[X]11=[1,1,1,,1]YX1

Exemplo Simples

Considere o caso em que é uma variável aleatória de Bernoulli em que . Nós temos:p = 0,2Xp=.2

X=[10]P=[.2.8]E[X]=iPiXi=.2

Y=E[X]1=[.2.2]Z=XE[X]=[.8.2]

E a imagem é: insira a descrição da imagem aqui

A magnitude ao quadrado do vetor vermelho é a variação de , a magnitude ao quadrado do vetor azul é , e a magnitude ao quadrado do vetor amarelo é .E [ X ] 2 E [ X 2 ]XE[X]2E[X2]

LEMBRE-SE, porém, que essas magnitudes, a ortogonalidade etc ... não se ao produto usual mas ao produto interno . A magnitude do vetor amarelo não é 1, é 0,2.Σ i P i Y i Z iiYiZiiPiYiZi

O vetor vermelho e o vetor azul são perpendiculares ao produto interno mas não são perpendiculares na introdução, senso de geometria do ensino médio. Lembre-se de que não estamos usando o produto escalar usual como produto interno!Z = X - E [ X ] Σ i P i Y i Z i Σ i Y i Z iY=E[X]Z=XE[X]iPiYiZiiYiZi


Isso é muito bom!
Antoni Parellada

1
Boa resposta (+1), mas falta uma cifra e também pode ser um pouco confusa para o OP, porque o seu Z é o X deles ...
ameba diz Reinstate Monica

@MatthewGunn, ótima resposta. você pode conferir minha resposta abaixo para uma representação em que a ortogonalidade está no sentido euclidiano.
YBE 5/01

Eu odeio ser obtuso, mas estou tendo problemas para manter , e a direção da lógica correta ('porque' vem em lugares que não fazem sentido para mim). Parece que muitos fatos (bem fundamentados) são declarados aleatoriamente. Em que espaço está o produto interno? Por que 1 ? V a r ( X )ZVar(X)
Mitch

@Mitch A ordem lógica é: (1) Observe que um espaço de probabilidade define um espaço vetorial; podemos tratar variáveis ​​aleatórias como vetores. (2) Defina o produto interno das variáveis ​​aleatórias e como . Em um espaço interno do produto, os vetores e são definidos como ortogonais se o produto interno for zero. (3a) Seja uma variável aleatória. (3b) Seja e . (4) Observe que e definidos desta maneira são ortogonais. (5) Dado que eZ E [ Y Z ] Y Z X Y = E [ X ] Z = X - E [ X ] Y Z Y ZYZE[YZ]YZXY=E[X]Z=XE[X]YZYZsão ortogonais, aplica-se o teorema de Pitágoras. (6) Por álgebra simples, o teorema de Pitágoras é equivalente à identidade.
Matthew Gunn

7

Eu irei para uma abordagem puramente geométrica para um cenário muito específico. Vamos considerar uma variável aleatória com valor discreto, recebendo valores com probabilidades . Vamos assumir ainda que essa variável aleatória pode ser representada em como um vetor, . { x 1 , x 2 } ( p 1 , p 2 ) R 2 X = ( x 1 X{x1,x2}(p1,p2)R2X=(x1p1,x2p2)insira a descrição da imagem aqui

Observe que o quadrado do comprimento de é que é igual a . Assim, .x 2 1 p 1 + x 2 2 p 2 E [ X 2 ] X = Xx12p1+x22p2E[X2]X=E[X2]

Como , a ponta do vetor realmente rastreia uma elipse. Torna-se mais fácil ver se reparametrizes e como e . Portanto, temos e .X p 1 p 2 cos 2 ( θ ) sin 2 ( θ ) p1+p2=1Xp1p2cos2(θ)sin2(θ)p1=cos(θ)p2=sin(θ)

Uma maneira de desenhar elipses é através de um mecanismo chamado Trammel of Archimedes . Como descrito no wiki: Consiste em dois lançadeiras que são confinadas ("trammelled") a canais ou trilhos perpendiculares e uma haste que é conectada às lançadeiras por pivôs em posições fixas ao longo da haste. À medida que os ônibus se movimentam para frente e para trás, cada um ao longo de seu canal, o final da haste se move em um caminho elíptico. Este princípio é ilustrado na figura abaixo.

Agora vamos analisar geometricamente uma instância desse tresmalho quando o vaivém vertical está em e o vaivém horizontal está em formando um ângulo de . Devido à construção, e , (aqui é considerado wlog).B θ | B X | = x 2 | A B | = x 1 - x 2θ x 1x 2ABθ|BX|=x2|AB|=x1x2θx1x2

insira a descrição da imagem aqui

Vamos traçar uma linha de origem, , que é perpendicular à haste. Pode-se mostrar que . Para esta variável aleatória específica Portanto, a distância perpendicularda origem para a haste é realmente igual ao desvio padrão, .| O C | = ( x 1 - x 2 ) sen ( θ ) cos ( θ ) V a r ( X )OC|OC|=(x1x2)sin(θ)cos(θ)| OC| σ

Var(X)=(x12p1+x22p2)(x1p1+x2p2)2=x12p1+x22p2x12p12x22p222x1x2p1p2=x12(p1p12)+x22(p2p22)2x1x2p1p2=p1p2(x122x1x2+x22)=[(x1x2)p1p2]2=|OC|2
|OC|σ

Se calcularmos o comprimento do segmento de a : X | C X |CX

|CX|=x2+(x1x2)cos2(θ)=x1cos2(θ)+x2sin2(θ)=x1p1+x2p2=E[X]

Aplicando o Teorema de Pitágoras no triângulo OCX, terminamos com

E[X2]=Var(X)+E[X]2.

Resumindo , para um tresmalho que descreve todas as possíveis variáveis ​​aleatórias com valor discreto, assumindo valores , é a distância da origem até a ponta do mecanismo e o desvio padrão é a distância perpendicular à haste.{x1,x2} σE[X2]σ

Nota : Observe que quando é ou , é completamente determinístico. Quando é , terminamos com a variação máxima.0 π / 2 X θ π / 4θ0π/2Xθπ/4


1
+1 boa resposta. E multiplicar vetores pelo quadrado das probabilidades é um truque interessante / útil para fazer com que a noção probabilística usual de ortogonalidade pareça ortogonal!
Matthew Gunn

Ótimos gráficos. Todos os símbolos fazem sentido (o trammel que descreve uma elipse e, em seguida, aplica-se o TH Pitagórico), mas de alguma forma eu não estou entendendo intuitivamente como ele dá uma idéia de como 'magicamente' relaciona os momentos (a propagação e o centro).
Mitch

considere o trammel como um processo que define todas as variáveis ​​aleatórias possíveis valor. Quando a haste é horizontal ou vertical, você tem um RV determinístico. No meio, há aleatoriedade e acontece que, na minha estrutura geométrica proposta, quão aleatório um RV (seu padrão) é exatamente medido pela distância da haste à origem. Pode haver um relacionamento mais profundo aqui, pois as curvas elípticas conectam vários objetos na matemática, mas eu não sou um matemático, então não consigo realmente ver essa conexão. (x1,x2)
YBE 8/01

3

Você pode reorganizar da seguinte maneira:

Var(X)=E[X2](E[X])2E[X2]=(E[X])2+Var(X)

Em seguida, interprete da seguinte forma: o quadrado esperado de uma variável aleatória é igual ao quadrado de sua média mais o desvio ao quadrado esperado de sua média.


Oh. Hã. Simples. Mas os quadrados ainda parecem meio não interpretados. Quero dizer, faz sentido (meio que, extremamente vagamente) sem os quadrados.
Mitch

3
Eu não sou vendido sobre isso.
Michael R. Chernick

1
Se o teorema de Pitágoras se aplica, qual é o triângulo com quais lados e como as duas pernas são perpendiculares?
Mitch

1

Desculpe por não ter a habilidade de elaborar e fornecer uma resposta adequada, mas acho que a resposta está no conceito de momentos da mecânica clássica física, especialmente a conversão entre 0 momentos "brutos" centralizados e momentos centrais médios centralizados. Lembre-se de que a variação é o momento central de segunda ordem de uma variável aleatória.


1

A intuição geral é que você pode relacionar esses momentos usando o Teorema de Pitágoras (PT) em um espaço vetorial adequadamente definido, mostrando que dois dos momentos são perpendiculares e o terceiro é a hipotenusa. A única álgebra necessária é mostrar que as duas pernas são de fato ortogonais.

Para o seguinte, assumo que você quis dizer médias e variações de amostra para fins de computação, em vez de momentos para distribuições completas. Isso é:

E[X]=1nxi,mean,first central sample momentE[X2]=1nxi2,second sample moment (noncentral)Var(X)=1n(xiE[X])2,variance,second central sample moment

(onde todas as somas estão acima de itens).n

Para referência, a prova elementar de é apenas um símbolo: V a r ( X )Var(X)=E[X2]E[X]2

Var(X)=1n(xiE[X])2=1n(xi22E[X]xi+E[X]2)=1nxi22nE[X]xi+1nE[X]2=E[X2]2E[X]2+1nnE[X]2=E[X2]E[X]2

Há pouco significado aqui, apenas manipulação elementar da álgebra. Pode-se notar que é uma constante dentro do somatório, mas é isso.E[X]

Agora, no espaço vetorial / interpretação geométrica / intuição, o que mostraremos é a equação levemente reorganizada que corresponde a PT, que

Var(X)+E[X]2=E[X2]

Portanto, considere , a amostra de itens, como um vetor em . E vamos criar dois vetores e .XnRnE[X]1XE[X]1

O vetor tem a média da amostra como cada uma de suas coordenadas.E[X]1

O vetor é .XE[X]1x1E[X],,xnE[X]

Esses dois vetores são perpendiculares porque o produto escalar dos dois vetores é 0:

E[X]1(XE[X]1)=E[X](xiE[X])=(E[X]xiE[X]2)=E[X]xiE[X]2=nE[X]E[X]nE[X]2=0

Portanto, os dois vetores são perpendiculares, o que significa que são as duas pernas de um triângulo retângulo.

Então, por PT (que contém ), a soma dos quadrados dos comprimentos das duas pernas é igual ao quadrado da hipotenusa.Rn

Pela mesma álgebra usada na prova algébrica chata no topo, mostramos que é o quadrado do vetor hipotenusa:E[X2]

(XE[X])2+E[X]2=...=E[X2] onde quadrado é o produto escalar (e é realmente e é .E[x]1(XE[X])2Var(X)

A parte interessante dessa interpretação é a conversão de uma amostra de itens de uma distribuição univariada para um espaço vetorial de dimensões. Isso é semelhante a amostras bivariadas serem interpretadas como realmente duas amostras em variáveis.nnnn

Em um sentido que é suficiente, o triângulo retângulo de vetores e aparece como a hipotenusa. Demos uma interpretação (vetores) para esses valores e mostramos que eles correspondem. Isso é legal o suficiente, mas não esclarecedor estatisticamente ou geometricamente. Na verdade, não diria o porquê e seria um monte de maquinaria conceitual extra para, no final, reproduzir a prova puramente algébrica que já tínhamos no início.E[X2]

Outra parte interessante é que a média e a variação, embora intuitivamente medam o centro e se espalhem em uma dimensão, são ortogonais em dimensões. O que isso significa, que eles são ortogonais? Eu não sei! Existem outros momentos ortogonais? Existe um sistema maior de relações que inclua essa ortogonalidade? momentos centrais vs momentos não centrais? Eu não sei!n


Também estou interessado em uma interpretação / intuição por trás da equação de compensação de variação de viés superficialmente semelhante. Alguém tem dicas aí?
Mitch

Seja a probabilidade de ocorrência do estado . Se então , isto é, é simplesmente o produto escalar entre e dividido por . Se , o que eu usei como produto interno ( ) é basicamente o produto escalar dividido por . Toda essa interpretação pitagórica ainda precisa que você use o produto interno específico (embora seja algebriamente próximo ao produto pontilhado clássico para uma medida de probabilidadepiipi=1nipiXiYi=1niXiYiE[XY]XYnipi=1nE[XY]=ipiXiYinE[XY]Ptal que ). ipi=1n
Matthew Gunn

Aliás, o truque que o @YBE fez é definir novos vetores e modo que e . Em seguida, pontue o produto .O produto de e corresponde a (que é o que eu usei como produto interno). y x i=xix^y^y i=xix^i=xipix y =Σixiy^i=xipix y E [ x y ]x^y^=ixipiyipi=ipixiyi=E[xy]x^y^E[xy]
Matthew Gunn
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.