Você não pode usar a representação linear da correlação em distribuições de suporte discretas.
No caso especial da distribuição binomial, a representação
pode ser explorado, pois
Se escolhermos que alguns dos sejam iguais a alguns dos 's e gerados independentemente, obteremos
que a notação indica que é escolhido idêntico a vez de gerado como um Bernoulli
X=∑i=18δiY=∑i=118γiδi,γi∼B(1,2/3)
cov(X,Y)=∑i=18∑j=118cov(δi,γj)
δiγjcov(X,Y)=∑i=18∑j=118I(δi:=γj)var(γj)
I(δi:=γj)δiγjB(1,2/3) .
Como a restrição é , temos que resolver
Isso significa que se escolhermos 6 dos 8 igual a 6 dos 18 , devemos obter essa correlação de 0,5.
cov(X,Y)=0.5×8×18−−−−−√×23×13
∑i=18∑j=118I(δi:=γj)=0.5×8×18−−−−−√=6
δiγj
A implementação é a seguinte:
- Gere , , ;Z∼B(6,2/3)Y1∼B(12,2/3)X1∼B(2,2/3)
- Toma eX=Z+Z1Y=Z+Y1
Podemos verificar este resultado com uma simulação R
> z=rbinom(10^8,6,.66)
> y=z+rbinom(10^8,12,.66)
> x=z+rbinom(10^8,2,.66)
cor(x,y)
> cor(x,y)
[1] 0.5000539
Comente
Esta é uma solução bastante artificial para o problema, pois funciona apenas porque é um quadrado perfeito e porque é um número inteiro. Para outras correlações aceitáveis, a randomização seria necessária, ou seja, seria zero ou um com alguma probabilidade .8×18cor(X,Y)×8×18−−−−−√I(δi:=γj)ϱ
Termo aditivo
O problema foi proposto e resolvido anos atrás no Stack Overflow com a mesma idéia de compartilhar Bernoullis.