Sinopse
Toda afirmação na pergunta pode ser entendida como uma propriedade das elipses. A única propriedade em particular para a distribuição normal bivariada que é necessário é o fato de que em um padrão bivariada distribuição normal dos --para que X e Y não estão correlacionados - a variância condicional de Y não depende de X . (Isso, por sua vez, é uma conseqüência imediata do fato de que a falta de correlação implica independência para variáveis normais em conjunto.)X, YXYYX
A análise a seguir mostra precisamente que propriedade das elipses está envolvida e deriva todas as equações da pergunta usando idéias elementares e a aritmética mais simples possível, de uma maneira que se pretende lembrar com facilidade.
Distribuições circularmente simétricas
A distribuição da pergunta é um membro da família de distribuições normais bivariadas. Todos são derivados de um membro básico, o Normal bivariado padrão , que descreve duas distribuições Normal padrão não correlacionadas (formando suas duas coordenadas).
O lado esquerdo é um gráfico de relevo da densidade normal bivariada padrão. O lado direito mostra o mesmo em pseudo-3D, com a parte frontal cortada.
Este é um exemplo de uma distribuição circular simétrica : a densidade varia com a distância de um ponto central, mas não com a direção desse ponto. Assim, os contornos de seu gráfico (à direita) são círculos.
A maioria das outras distribuições normais bivariadas não são circularmente simétricas, no entanto: suas seções transversais são elipses. Essas elipses modelam a forma característica de muitas nuvens de pontos bivariados.
Estes são retratos da distribuição normal bivariada com matriz de covariância É um modelo para os dados com o coeficiente de correlação-2/3.Σ = ( 1- 23- 231) .- 2 / 3
Como criar elipses
Uma elipse - de acordo com sua definição mais antiga - é uma seção cônica, que é um círculo distorcido por uma projeção em outro plano. Considerando a natureza da projeção, assim como os artistas visuais, podemos decompô-la em uma sequência de distorções fáceis de entender e calcular.
Primeiro, estique (ou, se necessário, aperte) o círculo ao longo do que se tornará o eixo longo da elipse até o comprimento correto:
Em seguida, aperte (ou estique) essa elipse ao longo de seu eixo menor:
Terceiro, gire-o em torno do centro para a orientação final:
Por fim, mude para o local desejado:
Todas essas são transformações afins. (De fato, as três primeiras são transformações lineares ; a mudança final a torna afim.) Como uma composição de transformações afins ainda é (por definição) ainda afim, a distorção líquida do círculo para a elipse final é uma transformação afim. Mas pode ser um pouco complicado:
Observe o que aconteceu com os eixos (naturais) da elipse: depois que foram criados pelo deslocamento e aperto, eles (é claro) giraram e deslocaram-se junto com o próprio eixo. Nós facilmente ver estes eixos, mesmo quando eles não são atraídos, porque eles são eixos de simetria da própria elipse.
Gostaríamos de aplicar nossa compreensão de elipses para entender distribuições distorcidas circularmente simétricas, como a família bivariada Normal. Infelizmente, há um problema com essas distorções : elas não respeitam a distinção entre os eixos e y . A rotação na etapa 3 estraga isso. Olhe para os fracos coordenar grades nos fundos: estes mostram o que acontece com uma grade (de malha 1 / 2xy1 / 2nas duas direções) quando está distorcida. Na primeira imagem, o espaçamento entre as linhas verticais originais (mostrado sólido) é dobrado. Na segunda imagem, o espaçamento entre as linhas horizontais originais (mostradas tracejadas) é reduzido em um terço. Na terceira imagem, os espaçamentos da grade não são alterados, mas todas as linhas são giradas. Eles mudam para cima e para a direita na quarta imagem. A imagem final, mostrando o resultado líquido, exibe essa grade esticada, espremida, girada e deslocada. As linhas sólidas originais da coordenada constante não são mais verticais.x
A idéia principal - alguém pode se atrever a dizer que é o ponto crucial da regressão - é que existe uma maneira pela qual o círculo pode ser distorcido em uma elipse sem girar as linhas verticais . Como a rotação foi a culpada, vamos direto ao ponto e mostramos como criar uma elipse girada sem parecer girar nada !
Esta é uma transformação inclinada. Na verdade, ele faz duas coisas ao mesmo tempo:
Ele aperta na direção (por uma quantidade λ , digamos). Isso deixa o eixo- x sozinho.yλx
Ele eleva qualquer ponto resultante em uma quantidade diretamente proporcional a x . Escrevendo essa constante de proporcionalidade como ρ , isso envia ( x , y ) para ( x , y + ρ x ) .( x , y)xρ( x , y)( x , y+ ρ x )
O segundo passo eleva o eixo na linha y = ρ x , mostrada na figura anterior. Como mostra a figura, quero trabalhar com uma transformação de inclinação especial, que efetivamente gire a elipse em 45 graus e a inscreva no quadrado da unidade. O eixo principal desta elipse é a linha y = x . É visualmente evidente que | p | ≤ 1 . (Os valores negativos de ρ inclinam a elipse para a direita e não para a direita.) Essa é a explicação geométrica da "regressão à média".xy= ρ xy= x| p | ≤1ρ
Escolher um ângulo de 45 graus torna a elipse simétrica em torno da diagonal do quadrado (parte da linha ). Para descobrir os parâmetros dessa transformação de inclinação, observe:y= x
O levantamento por move o ponto ( 1 , 0 ) para ( 1 , ρ ) .ρ x( 1 , 0 )( 1 , ρ )
A simetria em torno da diagonal principal implica que o ponto também está na elipse.( ρ , 1 )
Onde esse ponto começou?
O ponto original (superior) no círculo unitário (com a equação implícita ) com a coordenada x ρ era ( ρ , √x2+ y2= 1xρ.( ρ , 1 - ρ2-----√)
Qualquer ponto da forma primeiro é compactado para ( ρ , λ y ) e depois elevado para ( ρ , λ y + ρ × ρ ) .( ρ , y)( ρ , λ y)( ρ , λ y+ ρ × ρ )
A solução única para a equação éλ= √( ρ , λ 1 - ρ2-----√+ ρ2) = ( ρ , 1 ) . Essa é a quantidade pela qual todas as distâncias na direção vertical devem ser reduzidas para criar uma elipse em um ângulo de 45 graus quando for inclinada verticalmente porρ.λ = 1 - ρ2-----√ρ
Para firmar essas idéias, aqui está um quadro que mostra como uma distribuição circular simétrica é distorcida em distribuições com contornos elípticos por meio dessas transformações inclinadas. Os painéis mostram os valores de igual a 0 , 3 / 10 , 6 / 10 , e 9 / 10 , da esquerda para a direita.ρ0 , 3 / 10 , 6 / 10 ,9 / 10 ,
A figura mais à esquerda mostra um conjunto de pontos de partida em torno de um dos contornos circulares, bem como parte do eixo horizontal. As figuras subseqüentes usam setas para mostrar como esses pontos são movidos. A imagem do eixo horizontal aparece como um segmento de linha inclinado (com inclinação ). (As cores representam diferentes quantidades de densidade nas diferentes figuras.)ρ
Inscrição
Estamos prontos para fazer a regressão. Um método padrão, elegante (mas simples) para executar a regressão é o primeiro a expressar as variáveis originais em novas unidades de medida: nós as centralizamos em suas médias e usamos seus desvios padrão como unidades. Isso move o centro da distribuição para a origem e torna todos os seus contornos elípticos inclinados 45 graus (para cima ou para baixo).
Quando esses dados padronizados formam uma nuvem de pontos circular, a regressão é fácil: os meios condicionais em são todos 0 , formando uma linha que passa pela origem. (Simetria circular implica simetria em relação ao eixo x , mostrando que todas as distribuições condicionais são simétricas, de onde elas têm 0 médias.) Como vimos, podemos ver a distribuição padronizada como decorrente dessa situação simples básica em duas etapas: primeiro , todos os valores y (padronizados) são multiplicados por √x0 0x0 0y para algum valor deρ; a seguir, todos os valores comcoordenadasxsão inclinados verticalmente porρx. O que essas distorções fizeram na linha de regressão (que representa os meios condicionais contrax)?1 - ρ2-----√ρxρ xx
O encolhimento das coordenadas multiplicou todos os desvios verticais por uma constante. Isso meramente mudou a escala vertical e deixou todas as médias condicionais inalteradas em 0 .y0 0
A transformação de inclinação vertical adicionou a todos os valores condicionais em x , adicionando ρ x à sua média condicional: a curva y = ρ x é a curva de regressão, que acaba sendo uma linha.ρ xxρ xy= ρ x
Da mesma forma, podemos verificar que, como o eixo é o menor quadrado ajustado à distribuição circular simétrica, o mínimo de quadrados adequado à distribuição transformada também é a linha y = ρ x : a linha de mínimos quadrados coincide com a linha de regressão.xy= ρ x
Esses belos resultados são uma conseqüência do fato de que a transformação de inclinação vertical não altera nenhuma coordenada .x
Podemos facilmente dizer mais:
O primeiro marcador (sobre encolhimento) mostra que quando tem alguma distribuição circular simétrica, a variação condicional de Y | X foi multiplicado por ( √( X, Y)Y| X.( 1 - ρ2-----√)2= 1 - ρ2
De maneira mais geral: a transformação de inclinação vertical redimensiona cada distribuição condicional por e depois o adiciona porρx.1 - ρ2-----√ρ x
Para a distribuição normal bivariada padrão, a variação condicional é uma constante (igual a ), independente de x . Concluímos imediatamente que, após aplicar essa transformação de inclinação, a variação condicional dos desvios verticais ainda é uma constante e é igual a 1 - ρ 2 . Como as distribuições condicionais de um normal bivariado são elas próprias normais, agora que conhecemos seus meios e variações, temos informações completas sobre eles.1x1 - ρ2
Finalmente, precisamos relacionar com a matriz de covariância original Σ . ρΣ Para isso, recordar que a (mais agradável) definição do coeficiente de correlação entre duas padronizados variáveis e Y é a expectativa da sua produto X Y . (A correlação de X e Y é simplesmente declarada como sendo a correlação de suas versões padronizadas.) Portanto, quando ( X , Y ) segue qualquer distribuição circular simétrica e aplicamos a transformação de inclinação às variáveis, podemos escreverXYXYXY( X, Y)
ε = Y- ρ X
para os desvios verticais da linha de regressão e observe que deve ter uma distribuição simétrica em torno de 0 . Por quê? Uma vez que antes da transformação de inclinação foi aplicada, Y tinham uma distribuição simétrica em torno de 0 e, depois, (a) a apertou e (b) ele levantado por ρ X . O primeiro não mudou sua simetria, enquanto o último o apresentou em ρ X , QED. A próxima figura ilustra isso.ε0 0Y0 0ρ Xρ X
As linhas pretas traçam alturas proporcionais às densidades condicionais em vários valores espaçados regularmente de . A linha branca grossa é a linha de regressão, que passa pelo centro de simetria de cada curva condicional. Este gráfico mostra o caso ρ = - 1 / 2 em coordenadas normalizadas.xρ = - 1 / 2
Consequentemente
E (XY) = E ( X( ρ X+ ε ) ) = ρ E ( X2) + E ( Xε)=ρ(1)+0=ρ.
A igualdade final se deve a dois fatos: (1) porque foi padronizado, a expectativa de seu quadrado é sua variação padronizada, igual a 1 por construção; e (2) a expectativa de X ε é igual à expectativa de X ( - ε ) em virtude da simetria de ε . Como o último é o negativo do primeiro, ambos devem ser iguais a 0 : esse termo desaparece.X1XεX(−ε)ε0
Nós identificámos o parâmetro da transformação de inclinação, , como sendo o coeficiente de correlação de X e Y .ρXY
Conclusões
Observando que qualquer elipse pode ser produzida distorcendo um círculo com uma transformação de inclinação vertical que preserva a coordenada , chegamos a um entendimento dos contornos de qualquer distribuição de variáveis aleatórias ( X , Y ) obtida de uma simetria circular um por meio de alongamentos, apertões, rotações e mudanças (ou seja, qualquer transformação afim). Re-expressando os resultados em termos das unidades originais de x e y - o que equivale a adicionar de volta suas médias, μ x e μ y , após multiplicar pelos seus desvios padrão σ xx( X, Y)xyμxμyσxe - descobrimos que:σy
A linha dos mínimos quadrados e a curva de regressão passam pela origem das variáveis padronizadas, o que corresponde ao "ponto das médias" nas coordenadas originais.( μx, μy)
A curva de regressão, que é definida como sendo o locus de meios condicionais, coincide com a linha de mínimos quadrados.{ ( x , ρ x ) } ,
A inclinação da linha de regressão em coordenadas padronizadas é o coeficiente de correlação ; nas unidades originais, portanto, é igual a σ y ρ / σ x .ρσyρ/σx
Consequentemente, a equação da reta de regressão é
y=σyρσx(x−μx)+μy.
- A variância condicional de é σ 2 y ( 1 - ρ 2 ) vezes a variação condicional de Y ′ | X ′ onde ( X ′ , Y ′ ) tem uma distribuição padrão (simétrica circularmente com variações de unidade em ambas as coordenadas), X ′ = ( X - μ X ) / σ x , e Y ′ = ( Y - μY|Xσ2y(1−ρ2)Y′|X′(X′,Y′)X′=(X−μX)/σx .Y′=(Y−μY)/σY
Nenhum desses resultados é uma propriedade específica das distribuições normais bivariadas! Para a família normal bivariada, a variância condicional de é constante (e igual a 1 ): esse fato torna a família particularmente simples de trabalhar. Em particular:Y′|X′1
- Porque na matriz covariância os coeficientes são σ 11 = σ 2 x , σ 12 = σ 21 = p σ x σ y , e σ 22 = σ 2 y , a variância condicional dos Y | X para uma distribuição normal bivariada éΣσ11=σ2x, σ12=σ21=ρσxσy,σ22=σ2y,Y|X
σ2y(1−ρ2)=σ22(1−(σ12σ11σ22−−−−−√)2)=σ22−σ212σ11.
Notas técnicas
A idéia principal pode ser declarada em termos de matrizes que descrevem as transformações lineares. Tudo se resume a encontrar uma "raiz quadrada" adequada da matriz de correlação para a qual é um vetor próprio. Portanto:y
(1ρρ1)=AA′
Onde
A=(1ρ01−ρ2−−−−−√).
Uma raiz quadrada muito mais conhecida é a inicialmente descrita (envolvendo uma rotação em vez de uma transformação de inclinação); é aquele produzido por uma decomposição de valor singular e desempenha um papel de destaque na análise de componentes principais (PCA):
(1ρρ1)=BB′;
B = Q ( ρ + 1----√0 00 01 - ρ----√) Q′
onde é a matriz de rotação para umarotação de45graus.Q = ⎛⎝12√12√- 12√12√⎞⎠45
Assim, a distinção entre PCA e regressão se resume à diferença entre duas raízes quadradas especiais da matriz de correlação.