Qual é a intuição por trás das distribuições gaussianas condicionais?


46

Suponha que . Em seguida, a distribuição condicional de considerando que é multivariada, normalmente distribuída com média:X 1 X 2 = x 2XN2(μ,Σ)X1X2=x2

E[P(X1|X2=x2)]=μ1+σ12σ22(x2μ2)

e variância:

Var[P(X1|X2=x2)]=σ11σ122σ22

Faz sentido que a variação diminua, pois temos mais informações. Mas qual é a intuição por trás da fórmula média? Como a covariância entre X1 e X2 fator na média condicional?


2
Sua pergunta é simplesmente 'por que não é a média da distribuição condicional = μ1 '?
gung - Restabelece Monica

@ gung: Isso é verdade se x2=μ2 . Mas por que σ11 e σ22 envolvidos?
eroeijr

3
Em unidades naturais ("padronizadas"), escrevemos Xi=μ1+σiZi onde . Nesses termos, a distribuição condicional é Normal comE(Z1|Z2)=ρZ2eρ=σ12/(σ1σ2). O fato de que| p| 1é chamado de "reversão média" ou"regressão à média": há uma extensa literatura técnica e popular sobre isso há 130 anos. σi=σiiE(Z1|Z2)=ρZ2ρ=σ12/(σ1σ2).|ρ|1
whuber

2
Diga, eroeijr, esta publicação é sua? (Além do 'convidado' no início, há uma semelhança distinta nos nomes.) Se for o seu, peça para mesclar as duas contas e receber esse grande bônus em pontos que você teria.
precisa saber é

2
Como o @Glen_b sugeriu, se você tiver várias contas (não registradas), preencha o formulário em stats.stackexchange.com/contact e solicite que sejam mescladas.
chl 28/09/13

Respostas:


57

Sinopse

Toda afirmação na pergunta pode ser entendida como uma propriedade das elipses. A única propriedade em particular para a distribuição normal bivariada que é necessário é o fato de que em um padrão bivariada distribuição normal dos --para que X e Y não estão correlacionados - a variância condicional de Y não depende de X . (Isso, por sua vez, é uma conseqüência imediata do fato de que a falta de correlação implica independência para variáveis ​​normais em conjunto.)X,YXYYX

A análise a seguir mostra precisamente que propriedade das elipses está envolvida e deriva todas as equações da pergunta usando idéias elementares e a aritmética mais simples possível, de uma maneira que se pretende lembrar com facilidade.


Distribuições circularmente simétricas

A distribuição da pergunta é um membro da família de distribuições normais bivariadas. Todos são derivados de um membro básico, o Normal bivariado padrão , que descreve duas distribuições Normal padrão não correlacionadas (formando suas duas coordenadas).

Figura 1: distribuição normal bivariada padrão

O lado esquerdo é um gráfico de relevo da densidade normal bivariada padrão. O lado direito mostra o mesmo em pseudo-3D, com a parte frontal cortada.

Este é um exemplo de uma distribuição circular simétrica : a densidade varia com a distância de um ponto central, mas não com a direção desse ponto. Assim, os contornos de seu gráfico (à direita) são círculos.

A maioria das outras distribuições normais bivariadas não são circularmente simétricas, no entanto: suas seções transversais são elipses. Essas elipses modelam a forma característica de muitas nuvens de pontos bivariados.

Figura 2: outra distribuição normal bivariada, plotada

Estes são retratos da distribuição normal bivariada com matriz de covariância É um modelo para os dados com o coeficiente de correlação-2/3.Σ=(123231).2/3


Como criar elipses

Uma elipse - de acordo com sua definição mais antiga - é uma seção cônica, que é um círculo distorcido por uma projeção em outro plano. Considerando a natureza da projeção, assim como os artistas visuais, podemos decompô-la em uma sequência de distorções fáceis de entender e calcular.

Primeiro, estique (ou, se necessário, aperte) o círculo ao longo do que se tornará o eixo longo da elipse até o comprimento correto:

Etapa 1: esticar

Em seguida, aperte (ou estique) essa elipse ao longo de seu eixo menor:

Etapa 2: apertar

Terceiro, gire-o em torno do centro para a orientação final:

Etapa 3: girar

Por fim, mude para o local desejado:

Etapa 4: mudança

Todas essas são transformações afins. (De fato, as três primeiras são transformações lineares ; a mudança final a torna afim.) Como uma composição de transformações afins ainda é (por definição) ainda afim, a distorção líquida do círculo para a elipse final é uma transformação afim. Mas pode ser um pouco complicado:

Transformação composta

Observe o que aconteceu com os eixos (naturais) da elipse: depois que foram criados pelo deslocamento e aperto, eles (é claro) giraram e deslocaram-se junto com o próprio eixo. Nós facilmente ver estes eixos, mesmo quando eles não são atraídos, porque eles são eixos de simetria da própria elipse.

Gostaríamos de aplicar nossa compreensão de elipses para entender distribuições distorcidas circularmente simétricas, como a família bivariada Normal. Infelizmente, há um problema com essas distorções : elas não respeitam a distinção entre os eixos e y . A rotação na etapa 3 estraga isso. Olhe para os fracos coordenar grades nos fundos: estes mostram o que acontece com uma grade (de malha 1 / 2xy1/2nas duas direções) quando está distorcida. Na primeira imagem, o espaçamento entre as linhas verticais originais (mostrado sólido) é dobrado. Na segunda imagem, o espaçamento entre as linhas horizontais originais (mostradas tracejadas) é reduzido em um terço. Na terceira imagem, os espaçamentos da grade não são alterados, mas todas as linhas são giradas. Eles mudam para cima e para a direita na quarta imagem. A imagem final, mostrando o resultado líquido, exibe essa grade esticada, espremida, girada e deslocada. As linhas sólidas originais da coordenada constante não são mais verticais.x

A idéia principal - alguém pode se atrever a dizer que é o ponto crucial da regressão - é que existe uma maneira pela qual o círculo pode ser distorcido em uma elipse sem girar as linhas verticais . Como a rotação foi a culpada, vamos direto ao ponto e mostramos como criar uma elipse girada sem parecer girar nada !

Elipse enviesada

Esta é uma transformação inclinada. Na verdade, ele faz duas coisas ao mesmo tempo:

  • Ele aperta na direção (por uma quantidade λ , digamos). Isso deixa o eixo- x sozinho.yλx

  • Ele eleva qualquer ponto resultante em uma quantidade diretamente proporcional a x . Escrevendo essa constante de proporcionalidade como ρ , isso envia ( x , y ) para ( x , y + ρ x ) .(x,y)xρ(x,y)(x,y+ρx)

O segundo passo eleva o eixo na linha y = ρ x , mostrada na figura anterior. Como mostra a figura, quero trabalhar com uma transformação de inclinação especial, que efetivamente gire a elipse em 45 graus e a inscreva no quadrado da unidade. O eixo principal desta elipse é a linha y = x . É visualmente evidente que | p | 1 . (Os valores negativos de ρ inclinam a elipse para a direita e não para a direita.) Essa é a explicação geométrica da "regressão à média".xy=ρxy=x|ρ|1ρ

Escolher um ângulo de 45 graus torna a elipse simétrica em torno da diagonal do quadrado (parte da linha ). Para descobrir os parâmetros dessa transformação de inclinação, observe:y=x

  • O levantamento por move o ponto ( 1 , 0 ) para ( 1 , ρ ) .ρx(1,0)(1,ρ)

  • A simetria em torno da diagonal principal implica que o ponto também está na elipse.(ρ,1)

Onde esse ponto começou?

  • O ponto original (superior) no círculo unitário (com a equação implícita ) com a coordenada x ρ era ( ρ , x2+y2=1xρ.(ρ,1-ρ2)

  • Qualquer ponto da forma primeiro é compactado para ( ρ , λ y ) e depois elevado para ( ρ , λ y + ρ × ρ ) .(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)

A solução única para a equação éλ=(ρ,λ1-ρ2+ρ2)=(ρ,1) . Essa é a quantidade pela qual todas as distâncias na direção vertical devem ser reduzidas para criar uma elipse em um ângulo de 45 graus quando for inclinada verticalmente porρ.λ=1-ρ2ρ

Para firmar essas idéias, aqui está um quadro que mostra como uma distribuição circular simétrica é distorcida em distribuições com contornos elípticos por meio dessas transformações inclinadas. Os painéis mostram os valores de igual a 0 , 3 / 10 , 6 / 10 , e 9 / 10 , da esquerda para a direita.ρ0 0, 3/10, 6/10,9/10,

Quadro

A figura mais à esquerda mostra um conjunto de pontos de partida em torno de um dos contornos circulares, bem como parte do eixo horizontal. As figuras subseqüentes usam setas para mostrar como esses pontos são movidos. A imagem do eixo horizontal aparece como um segmento de linha inclinado (com inclinação ). (As cores representam diferentes quantidades de densidade nas diferentes figuras.)ρ


Inscrição

Estamos prontos para fazer a regressão. Um método padrão, elegante (mas simples) para executar a regressão é o primeiro a expressar as variáveis ​​originais em novas unidades de medida: nós as centralizamos em suas médias e usamos seus desvios padrão como unidades. Isso move o centro da distribuição para a origem e torna todos os seus contornos elípticos inclinados 45 graus (para cima ou para baixo).

Quando esses dados padronizados formam uma nuvem de pontos circular, a regressão é fácil: os meios condicionais em são todos 0 , formando uma linha que passa pela origem. (Simetria circular implica simetria em relação ao eixo x , mostrando que todas as distribuições condicionais são simétricas, de onde elas têm 0 médias.) Como vimos, podemos ver a distribuição padronizada como decorrente dessa situação simples básica em duas etapas: primeiro , todos os valores y (padronizados) são multiplicados por x0 0x0 0y para algum valor deρ; a seguir, todos os valores comcoordenadasxsão inclinados verticalmente porρx. O que essas distorções fizeram na linha de regressão (que representa os meios condicionais contrax)?1-ρ2ρxρxx

  • O encolhimento das coordenadas multiplicou todos os desvios verticais por uma constante. Isso meramente mudou a escala vertical e deixou todas as médias condicionais inalteradas em 0 .y0 0

  • A transformação de inclinação vertical adicionou a todos os valores condicionais em x , adicionando ρ x à sua média condicional: a curva y = ρ x é a curva de regressão, que acaba sendo uma linha.ρxxρxy=ρx

Da mesma forma, podemos verificar que, como o eixo é o menor quadrado ajustado à distribuição circular simétrica, o mínimo de quadrados adequado à distribuição transformada também é a linha y = ρ x : a linha de mínimos quadrados coincide com a linha de regressão.xy=ρx

Esses belos resultados são uma conseqüência do fato de que a transformação de inclinação vertical não altera nenhuma coordenada .x

Podemos facilmente dizer mais:

  • O primeiro marcador (sobre encolhimento) mostra que quando tem alguma distribuição circular simétrica, a variação condicional de Y | X foi multiplicado por ( (X,Y)Y|X.(1-ρ2)2=1-ρ2

  • De maneira mais geral: a transformação de inclinação vertical redimensiona cada distribuição condicional por e depois o adiciona porρx.1-ρ2ρx

Para a distribuição normal bivariada padrão, a variação condicional é uma constante (igual a ), independente de x . Concluímos imediatamente que, após aplicar essa transformação de inclinação, a variação condicional dos desvios verticais ainda é uma constante e é igual a 1 - ρ 2 . Como as distribuições condicionais de um normal bivariado são elas próprias normais, agora que conhecemos seus meios e variações, temos informações completas sobre eles.1x1-ρ2

Finalmente, precisamos relacionar com a matriz de covariância original Σ . ρΣ Para isso, recordar que a (mais agradável) definição do coeficiente de correlação entre duas padronizados variáveis e Y é a expectativa da sua produto X Y . (A correlação de X e Y é simplesmente declarada como sendo a correlação de suas versões padronizadas.) Portanto, quando ( X , Y ) segue qualquer distribuição circular simétrica e aplicamos a transformação de inclinação às variáveis, podemos escreverXYXYXY(X,Y)

ε=Y-ρX

para os desvios verticais da linha de regressão e observe que deve ter uma distribuição simétrica em torno de 0 . Por quê? Uma vez que antes da transformação de inclinação foi aplicada, Y tinham uma distribuição simétrica em torno de 0 e, depois, (a) a apertou e (b) ele levantado por ρ X . O primeiro não mudou sua simetria, enquanto o último o apresentou em ρ X , QED. A próxima figura ilustra isso.ε0 0Y0 0ρXρX

Gráfico 3D mostrando distribuições condicionais e a linha dos mínimos quadrados

As linhas pretas traçam alturas proporcionais às densidades condicionais em vários valores espaçados regularmente de . A linha branca grossa é a linha de regressão, que passa pelo centro de simetria de cada curva condicional. Este gráfico mostra o caso ρ = - 1 / 2 em coordenadas normalizadas.xρ=-1/2

Consequentemente

E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0 0=ρ.

A igualdade final se deve a dois fatos: (1) porque foi padronizado, a expectativa de seu quadrado é sua variação padronizada, igual a 1 por construção; e (2) a expectativa de X ε é igual à expectativa de X ( - ε ) em virtude da simetria de ε . Como o último é o negativo do primeiro, ambos devem ser iguais a 0 : esse termo desaparece.X1XεX(-ε)ε0 0

Nós identificámos o parâmetro da transformação de inclinação, , como sendo o coeficiente de correlação de X e Y .ρXY


Conclusões

Observando que qualquer elipse pode ser produzida distorcendo um círculo com uma transformação de inclinação vertical que preserva a coordenada , chegamos a um entendimento dos contornos de qualquer distribuição de variáveis ​​aleatórias ( X , Y ) obtida de uma simetria circular um por meio de alongamentos, apertões, rotações e mudanças (ou seja, qualquer transformação afim). Re-expressando os resultados em termos das unidades originais de x e y - o que equivale a adicionar de volta suas médias, μ x e μ y , após multiplicar pelos seus desvios padrão σ xx(X,Y)xyμxμyσxe - descobrimos que:σy

  • A linha dos mínimos quadrados e a curva de regressão passam pela origem das variáveis ​​padronizadas, o que corresponde ao "ponto das médias" nas coordenadas originais.(μx,μy)

  • A curva de regressão, que é definida como sendo o locus de meios condicionais, coincide com a linha de mínimos quadrados.{(x,ρx)},

  • A inclinação da linha de regressão em coordenadas padronizadas é o coeficiente de correlação ; nas unidades originais, portanto, é igual a σ y ρ / σ x .ρσyρ/σx

Consequentemente, a equação da reta de regressão é

y=σyρσx(x-μx)+μy.
  • A variância condicional de é σ 2 y ( 1 - ρ 2 ) vezes a variação condicional de Y | X onde ( X , Y ) tem uma distribuição padrão (simétrica circularmente com variações de unidade em ambas as coordenadas), X = ( X - μ X ) / σ x , e Y = ( Y - μY|Xσy2(1-ρ2)Y|X(X,Y)X=(X-μX)/σx .Y=(Y-μY)/σY

Nenhum desses resultados é uma propriedade específica das distribuições normais bivariadas! Para a família normal bivariada, a variância condicional de é constante (e igual a 1 ): esse fato torna a família particularmente simples de trabalhar. Em particular:Y|X1

  • Porque na matriz covariância os coeficientes são σ 11 = σ 2 x , σ 12 = σ 21 = p σ x σ y , e σ 22 = σ 2 y , a variância condicional dos Y | X para uma distribuição normal bivariada éΣσ11=σx2, σ12=σ21=ρσxσy,σ22=σy2,Y|X

σy2(1-ρ2)=σ22(1-(σ12σ11σ22)2)=σ22-σ122σ11.

Notas técnicas

A idéia principal pode ser declarada em termos de matrizes que descrevem as transformações lineares. Tudo se resume a encontrar uma "raiz quadrada" adequada da matriz de correlação para a qual é um vetor próprio. Portanto:y

(1ρρ1)=UMAUMA

Onde

UMA=(10 0ρ1-ρ2).

Uma raiz quadrada muito mais conhecida é a inicialmente descrita (envolvendo uma rotação em vez de uma transformação de inclinação); é aquele produzido por uma decomposição de valor singular e desempenha um papel de destaque na análise de componentes principais (PCA):

(1ρρ1)=BB;

B=Q(ρ+10 00 01-ρ)Q

onde é a matriz de rotação para umarotação de45graus.Q=(12-121212)45

Assim, a distinção entre PCA e regressão se resume à diferença entre duas raízes quadradas especiais da matriz de correlação.


1
Belas fotos e ótimas descrições. Houve algumas frases na atualização que foram deixadas incompletas (como você sabia basicamente o que ia dizer, mas não havia decidido a redação final).
cardeal

1
@ Cardinal Obrigado. Vou reler isso e procurar essas coisas, bem como os erros inevitáveis. Você é muito gentil em apontar outras coisas que certamente notou, como algumas lacunas na exposição. O maior é que eu realmente não mostrei que essas elipses estão em ângulos de 45 graus (equivalentemente, inscritas no quadrado da unidade); Eu simplesmente assumi isso. Ainda estou procurando uma demonstração simples. A outra é que se pode preocupar que a transformação de inclinação possa produzir uma distribuição diferente da original, esticar, apertar, girar, deslocar - mas é fácil mostrar que não.
whuber

3
Isso é realmente interessante. Obrigado por reservar um tempo para escrevê-lo.
Bill

No primeiro parágrafo das aplicações, está escrito que: "nós os centralizamos à sua maneira e usamos seus desvios padrão como unidades. Isso move o centro da distribuição para a origem e faz com que todos os seus contornos elípticos sejam inclinados 45 graus", mas eu não ' Não entende como centralizar as variáveis ​​em seus meios move seus centros para a origem e os alinha a 45 graus?
Kaushal28

@whuber quando você começa com o círculo unitário (conjunto de amostras padronizado), você diz que a correlação é 0, então eu imagino, obtemos um círculo algo como . Mas como 0 correlação significa independência? (porquef(X,Y)é obtido porf(f(X,Y)=e12(x2+y2)f(X,Y) . como se vê Normalmente, não é verdadeira direita Mesmo variáveis dependentes poderia produzir 0 correlação?f(X)f(Y)
Parthiban Rajendran

21

Isso é essencialmente regressão linear (OLS). Nesse caso, você está encontrando a distribuição condicional de dado que X = x i . (Estritamente falando, a regressão OLS não faz suposições sobre a distribuição de X , enquanto seu exemplo é um normal multivariado, mas ignoraremos essas coisas.) Agora, se a covariância entre X 1 eYX=xEuXX1 não for 0 , então a média dadistribuiçãocondicionalde X 2 tem que mudar à medida que você altera o valor de x 1X20 0X2x1onde você está 'cortando' a distribuição multivariada. Considere a figura abaixo:

insira a descrição da imagem aqui

X1X2X2X1μX2|X1=25μX2|X1=45.

σ22ΣX2σ2σ

y^Eu

β^1=Cov(x,y)Var(x)
σ12/σ22μX2|X1=xEuμX2μX2 x2EuX1X2

O que acontece se você condicionar mais variáveis? Você apenas adiciona e subtrai termos extras da média e da variação?

2
YXy^Eu=XEuβ^β^=(XTX)-1XTY

O que você usou para produzir o gráfico? Mathematica?
mpiktas

@mpiktas, meu gráfico ou whuber's? Eu acredito que o são Mathematica, mas eu fiz esse acima w / R. (código feio embora ...)
gung - Reintegrar Monica

1
@mpiktas, não consigo imaginar que meu código deva ser descrito como "impressionante" ... As curvas normais são desenhadas com dnorm(y). Simplesmente adiciono a saída ao 25& 45, & uso como x.
gung - Reinstate Monica

3

X1X2σ1,2>0X2X2X1X1

X2=x2>μ2X2X1σ1,2>0 0X1X2X2X1

E{X1|X2=x2}=μ1+σ1,2σ2,2(x2-μ2)
X2E{X1|X2=x2}>μ1

X1X2

BeuP{X1|X2=x2}=μ1+σ1,2σ2,2(x2-μ2)
BeuP

x2-μ2σ12/σ22

1
x2>μ2E(X1|X2=x2)<μ1σ1,2>0 0

1
"Intuitivo" não implica "não quantitativo": os dois podem andar juntos. Muitas vezes, é difícil encontrar um argumento intuitivo que dê resultados quantitativos, mas frequentemente isso pode ser feito e o processo de encontrar esse argumento é sempre esclarecedor.
whuber

Quanto ao último parágrafo: Descobri que a distribuição normal não é tão especial: as famílias criadas por transformações afins de distribuições circularmente simétricas são as especiais (das quais existem muitas).
whuber

@whuber Isso é bem interessante. Você tem um link ou cita?
Bill
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.