Cálculo da expectativa matemática do coeficiente de correlação ou na regressão linear


8

Estou postando novamente uma pergunta em math.stackexchange.com , acho que a resposta atual em math.se não está correta.

Selecione números de um conjunto , é o th número selecionado, e é o posto de nos números. A seleção é sem substituição. é sempre menor do que . A classificação é a ordem do número a depois que os números são classificados em ordem crescente.n{1,2,...,U}yiixiyinnUn

Podemos obter pontos de dados . E uma linha de melhor ajuste para esses pontos de dados pode ser encontrada por regressão linear. (coeficiente de correlação) é a qualidade da linha de ajuste. Quero calcular ou (correlação de determinação) .n(x1,y1),(x2,y2),...,(xn,yn)rxyE(rxy)E(rxy2)

Se o não puder ser calculado, uma estimativa ou limite inferior ainda estará OK.E[rxy]

Atualizado: ao calcular o coeficiente de correlação da amostra usando dados gerados aleatoriamente, podemos ver que está bastante fechado para 1, então quero provar isso da visão teórica ou dizer teoricamente que os dados gerados pelo método acima são muito linear.rxy

Atualizado: É possível obter a distribuição do coeficiente de correlação da amostra?


Por favor, poste um link para a pergunta math.SE. Normalmente, não é bom enviar mensagens cruzadas, a menos que tenha decorrido um tempo significativo.
cardeal

O mesmo número pode ser selecionado duas vezes? N é menor ou maior que U?
Nick Sabbe

1
Aqui está a pergunta anterior sobre math.SE: math.stackexchange.com/questions/32569/…
cardinal

@ Nick Sabbe A seleção é sem substituição. n é sempre menor que U.
Fan Zhang

1
@Fan As técnicas aplicáveis ​​incluiriam formas quadráticas em variáveis ​​aleatórias ( stats.stackexchange.com/questions/9220 ), o "método delta" para estimar momentos de funções de variáveis ​​aleatórias; distribuições de estatísticas de pedidos para variáveis ​​uniformes; a relação entre as lacunas entre variáveis uniforme e a distribuição exponencial, e possivelmente até métodos saddlepoint, aproximações normais, limite central Teorema, etc
whuber

Respostas:


1

Re-organizar o problema em termos de novas variáveis, de modo que . Então temos , como @whuber apontou nos comentários. Portanto, você está efetivamente regredindo em , e . Portanto, se pudermos calcular a distribuição marginal para e mostrar que ela é basicamente linear em o problema está resolvido e teremos .1z1<z2<<znU(xi,yi)=(xi,zxi)zjjrxy=rxzzjjrxy1

Primeiro precisamos da distribuição conjunta para . Isso é bastante simples, depois de você ter a solução, mas não achei isso claro antes de fazer as contas. Apenas uma breve lição sobre matemática valendo a pena - então apresentarei a matemática primeiro, depois a resposta fácil.z1,,zn

Agora, a distribuição da junta original é . Alterar variáveis ​​simplesmente renomeia as coisas para probabilidades discretas e, portanto, a probabilidade ainda é constante. No entanto, a rotulagem não é 1 para 1, portanto, não podemos simplesmente escrever . Em vez disso, temosp(y1,,yn)1p(z1,,zn)=(Un)!U!

p(z1,,zn)=1C1z1<z2<<znU

E podemos encontrar pela normalização C

C=zn=nUzn1=n1zn1z2=2z31z1=1z21(1)=zn=nUzn1=n1zn1z2=2z31(z21)
=zn=nUzn1=n1zn1z3=2z41(z31)(z32)2=zn=nUz4=4z51(z41)(z42)(z43)(2)(3)
=zn=nUzn1=n1zn1zj=jzj+11(zj1j1)=(Un)

O que mostra que a taxa de mudança de nome é igual a - para cada há . Faz sentido porque qualquer permutação dos rótulos em leva ao mesmo conjunto de valores classificados . Agora, a distribuição marginal , repetimos acima, mas com a soma de reduzida e um intervalo diferente de soma para o restante, a saber, os mínimos mudam de para e obtemos:(Un)!U!(Un)=1n!(z1,,zn)n! (y1,,yn)yiziz1z1(2,,n)(z1+1,,z1+n1)

p(z1)=zn=z1+n1Uzn1=z1+n2zn1z2=z1+1z31p(z1,z2,,zn)=(Uz1n1)(Un)

Com suporte . Este formulário, combinado com um pouco de intuição, mostra que a distribuição marginal de qualquer pode ser por:z1{1,2,,U+1n}zj

  1. escolhendo valores de abaixo de , o que pode ser feito de (se );j1zj(zj1j1)zjj
  2. escolhendo o valor , que pode ser feito de 1 maneira; ezj
  3. escolhendo valores acima de que pode ser feito de maneiras (se )njzj(Uzjnj)zjU+jn

Esse método de raciocínio generaliza com esforço as distribuições conjuntas, como (que pode ser usado para calcular o valor esperado da covariância da amostra, se você desejar). Portanto, temos:p(zj,zk)

p(zj)=(zj1j1)(Uzjnj)(Un)jzjU+jnp(zj,zk)=(zj1j1)(zkzj1kj1)(Uzknk)(Un)jzjzk+jkU+jn

Agora, o marginal é o pdf de uma distribuição hipergeométrica negativa com os parâmetros (em termos da notação do artigo). Agora isso é claro, não linear exatamente em , mas a expectativa marginal para ék=j,r=n,N=Ujzj

E(zj)=jU+1n+1

Isso é de fato linear em e você esperaria o coeficiente beta de da regressão e interceptação de zero.jU+1n+1

ATUALIZAR

Parei minha resposta um pouco antes. Agora concluímos esperançosamente uma resposta mais completa

Permitindo e , o quadrado esperado de a covariância de amostra entre e é dada por:j¯=n+12z¯=1nj=1nzjjzj

E[sxz2]=E[1nj=1n(jj¯)(zjz¯)]2
=1n2[j=1n(jj¯)2E(zj2)+2k=2nj=1k1(jj¯)(kj¯)E(zjzk)]

Então precisamos , onde e (usando a fórmula no arquivo pdf). Então a primeira soma se tornaE(zj2)=V(zj)+E(zj)2=Aj2+BjA=(U+1)(U+2)(n+1)(n+2)B=(U+1)(Un)(n+1)(n+2)

j=1n(jj¯)2E(zj2)=j=1n(j22jj¯+j¯2)(Aj2+Bj)
=n(n1)(U+1)120(U(2n+1)+(3n1))

Também precisamos de . E(zjzk)=E[zj(zkzj)]+E(zj2)

E[zj(zkzj)]=zk=kU+knzj=jzk+jkzj(zkzj)p(zj,zk)
=j(kj)zk=kU+knzj=jzk+jk(zjj)(zkzjkj)(Uzknk)(Un)=j(kj)zk=kU+kn(zk+1k+1)(U+1(zk+1)nk)(Un)
=j(kj)(U+1n+1)(Un)=j(kj)U+1n+1
E(zjzk)=jkU+1n+1+j2(U+1)(Un)(n+1)(n+2)+j(U+1)(Un)(n+1)(n+2)

E a segunda soma é:

2k=2nj=1k1(jj¯)(kj¯)E(zjzk)
=n(U+1)(n1)720(n+2)(6(Un)(n32n29n2)+(n+2)(5n324n235n+6))

E assim, depois de algumas manipulações bastante tediosas, você obtém o valor esperado da covariância ao quadrado de:

E[sxz2]=(n1)(n2)U(U+1)120(U+1)(n1)(n3+2n2+11n+22)720(n+2)

Agora, se temos , o primeiro termo domina como , enquanto o segundo termo é . Podemos mostrar que o termo dominante é bem aproximado por , e temos outra razão teórica pela qual a correlação de pearson é muito próxima de (além do fato de ).U>>nO(U2n2)O(Un3)E[sx2sz2]1E(zj)j

Agora, a variação esperada da amostra de é apenas a variação da amostra, que é . A variação esperada da amostra para é dada por:jsx2=1nj=1n(jj¯)2=(n+1)(n1)12zj

E[sz2]=E[1nj=1n(zjz¯)2]=1nj=1nE(zj2)[1nj=1nE(zj)]2
=A(n+1)(2n+1)6+B(n+1)2(U+1)24
=(U+1)(U1)12

Combinando tudo junto, e observando que , temos:E[sx2sz2]=sx2E[sz2]

E[sx2sz2]=(n+1)(n1)(U+1)(U1)144(n1)(n2)U(U+1)120E[sxz2]

Que é aproximadamente a mesma coisa queE[rxz2]1


Entendo sua resposta e minha pergunta é como obter a expectativa de coeficiente de correlação de seu estado atual.
Fan Zhang

Lamento apenas ver a resposta hoje. Uma coisa que eu acho que deveria ser esclarecido por que quando , então . E[sx2sz2]E[sxz2]E[rxz2]1
Fan Zhang

Eu acho que o último passo está errado. E [X / Y] não é igual a E [X] / E [Y].
Fan Zhang

@FanZhang - O último passo está aproximadamente correto. Isso ocorre porque podemos expandir para a primeira ordem sobre . E temos . Como para qualquer variável aleatória cuja expectativa existe, obtemos . g(X,Y)=XY(E[X],E[Y])XYE[X]E[Y]+(XE[X])1E[Y](YE[Y])E[X]E[Y]2E(XE[X])=0E(XY)E[X]E[Y]
probabilityislogic

Obrigado. E como é chamado esse tipo de aproximação?
Fan Zhang

3

Se você deseja apenas mostrar que deve estar próximo de 1 e calcular um limite inferior para isso, é simples, porque isso significa que para e você só precisa maximizar a variação dos resíduos. Isso pode ser feito exatamente de quatro maneiras simétricas. Os dois extremos (correlações mais baixas e mais altas possíveis) são ilustrados para .rxy2UnU=20,n=9

Gráficos de correlação extrema para U = 20, n = 9

Para valores grandes de e valores apropriados de , pode realmente chegar perto de 0. Por exemplo, com e valores muito grandes de , no pior dos casos.Unrxy2n=100Unrxy20.03


Então, estamos tentando mostrar que está próximo de 1 (ou que podemos esperar encontrar quase uma linha reta) [estou trabalhando neste problema com Zhang Fan]. Embora ruim em alguns casos, deve haver relativamente poucos casos. Uma esperança para resolver esse problema é, portanto, limitar o número de casos em que, por exemplo, (ou algum outro limite). E(rxy2)rxy2rxy20.99
Douglas S. Stones

Espero que 0,99 seja um limite razoável a considerar. Por exemplo, se calcularmos alguns exemplos em R, podemos obter consistentemente cor (x, y) 's muito próximos de 1. Por exemplo, 0,99994561 é um resultado típico retornado por: m <- 10 ^ 5; n <-10 ^ 3; lista <- amostra (1: m, tamanho = n, substitua = FALSE); lista <- classificar (lista); cor (lista, 1: n);
Douglas S. Stones

@Douglas Isso sugere o que pode ser uma simplificação considerável: ao atingir um objetivo como 0,99, você pode converter a proporção de formas quadráticas que aparecem em em uma diferença (limpando o denominador) e depois investigar a chance de que o diferença é positiva. Então agora você está olhando para a distribuição de uma forma quadrática sob permutações uniformemente aleatórias: esse é um problema acessível. rxy2
whuber

@Douglas, @Fan Também podemos fazer algumas heurísticas: assintoticamente, o parecerá uniforme, indicando como . Considere a estatística Kolmogorov-Smirnov , por exemplo: usar isso como um limite superior para os resíduos mostra que é proporcional a uma superestimação (bruta) de . Portanto pelo menos tão rápido quanto . yir21UD1r2r21D0
whuber

@whuber Você tem uma descrição mais detalhada sobre a estatística D de Kolmogorov-Smirnov?
Fan Zhang
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.