Gere pares de números aleatórios uniformemente distribuídos e correlacionados

Eu gostaria de gerar pares de números aleatórios com certa correlação. No entanto, a abordagem usual de usar uma combinação linear de duas variáveis normais não é válida aqui, porque uma combinação linear de variáveis uniformes não é mais uma variável distribuída uniformemente. Eu preciso que as duas variáveis sejam uniformes.

Alguma idéia de como gerar pares de variáveis uniformes com uma determinada correlação?

correlation random-generation uniform

— Onturenio
fonte

Intimamente relacionado: stats.stackexchange.com/questions/30526 . Você também deseja conferir a tag copula - basta clicar no link aqui. Uma técnica rápida e suja é permitir que

X

$X$ seja uniforme e quando e caso contrário. A correlação é , de onde faz o truque. Mas cópulas lhe dará mais controle ....

[0, 1]

$[0,1]$

Y = X

$Y=X$

X \leq α

$X\le\alpha$

Y = 1 + α - X

$Y=1+\alpha-X$

ρ = 2 (α - 1)^{3} + 1

$\rho=2(\alpha-1)^3+1$

α = 1 - ((1 - ρ) / 2)^{1 / 3}

$\alpha=1-((1-\rho)/2)^{1/3}$

— whuber

Obrigado pelo comentário, mas sim, eu acho que este método é realmente "sujo"

— Onturenio

Minha esperança era que, ao ver essa abordagem, você reconhecesse que pode (e deve) fornecer critérios adicionais relativos às propriedades de seus pares de números aleatórios. Se isso estiver "sujo", exatamente o que há de errado com a solução? Diga-nos para que possamos fornecer respostas mais adequadas à sua situação.

— whuber

Esta questão foi respondida incidentalmente na resposta a uma questão intimamente relacionada: como gerar pares de RVs com uma relação de regressão linear. Como a inclinação da regressão linear está relacionada de maneira prontamente calculada ao coeficiente de correlação, e todas as inclinações possíveis podem ser produzidas, é possível produzir exatamente o que você deseja. Consulte stats.stackexchange.com/questions/257779/… .

— whuber

Consulte também stats.stackexchange.com/questions/31771 , que responde à generalização de três uniformes aleatórios.

— whuber

Respostas:

Não conheço um método universal para gerar variáveis aleatórias correlacionadas com qualquer distribuição marginal. Então, proponho um método ad hoc para gerar pares de variáveis aleatórias distribuídas uniformemente com uma dada correlação (Pearson). Sem perda de generalidade, presumo que a distribuição marginal desejada seja uniforme padrão (ou seja, o suporte é ). $[0, 1]$

A abordagem proposta baseia-se no seguinte:
a) Para as variáveis aleatórias uniformes padrão e com as respectivas funções de distribuição de e , temos , para . Assim, por definição Rho de Spearman é $U_1$ $U_2$ $F_1$ $F_2$ $F_i(U_i) = U_i$ $i = 1, 2$ Portanto, o rho de Spearman e o coeficiente de correlação de Pearson são iguais (versões amostrais podem, no entanto, diferir).

ρ_{S} (U_{1}, U_{2}) = c o r r (F_{1} (U_{1}), F_{2} (U_{2})) = c o r r (U_{1}, U_{2}) .

$\rho_{\rm S}(U_1, U_2) = {\rm corr}(F_1(U_1), F_2(U_2)) = {\rm corr}(U_1, U_2) .$

b) Se são variáveis aleatórias com margens contínuas e Gaussiana cópula com (Pearson) correlação coeficiente , em seguida, Rho de Spearman é $X_1, X_2$ $\rho$ Isso facilita a geração de variáveis aleatórias com o valor desejado do rho de Spearman.

ρ_{S} (X_{1}, X_{2}) = \frac{6}{π} \arcsin (\frac{ρ}{2}) .

$\rho_{\rm S}(X_1, X_2) = \frac{6}{\pi} \arcsin \left(\frac{\rho}{2}\right) .$

A abordagem é gerar dados da cópula gaussiana com um coeficiente de correlação adequado modo que o rho de Spearman corresponda à correlação desejada para as variáveis aleatórias uniformes. $\rho$

Algoritmo de simulação
Deixe denotar o nível de correlação desejado e o número de pares a serem gerados. O algoritmo é: $r$ $n$

Calcule . $\rho = 2\sin (r \pi/6)$
Gere um par de variáveis aleatórias da cópula gaussiana (por exemplo, com esta abordagem )
Repita o passo 2 vezes. $n$

Exemplo
O seguinte código é um exemplo de execução deste algoritmo com R com um alvo de correlação e pares. $r = 0.6$ $n = 500$

## Initialization and parameters 
set.seed(123)
r <- 0.6                            # Target (Spearman) correlation
n <- 500                            # Number of samples

## Functions
gen.gauss.cop <- function(r, n){
    rho <- 2 * sin(r * pi/6)        # Pearson correlation
    P <- toeplitz(c(1, rho))        # Correlation matrix
    d <- nrow(P)                    # Dimension
    ## Generate sample
    U <- pnorm(matrix(rnorm(n*d), ncol = d) %*% chol(P))
    return(U)
}

## Data generation and visualization
U <- gen.gauss.cop(r = r, n = n)
pairs(U, diag.panel = function(x){
          h <- hist(x, plot = FALSE)
          rect(head(h$breaks, -1), 0, tail(h$breaks, -1), h$counts/max(h$counts))})

Na figura abaixo, os gráficos diagonais mostram histogramas das variáveis e e os gráficos fora da diagonal mostram gráficos de dispersão de e . $U_1$ $U_2$ $U_1$ $U_2$ insira a descrição da imagem aqui

Por construção, as variáveis aleatórias têm margens uniformes e um coeficiente de correlação (próximo a) . Porém, devido ao efeito da amostragem, o coeficiente de correlação dos dados simulados não é exatamente igual a . $r$ $r$

cor(U)[1, 2]
# [1] 0.5337697

Observe que a gen.gauss.copfunção deve funcionar com mais de duas variáveis simplesmente especificando uma matriz de correlação maior.

Estudo de simulação
O estudo de simulação a seguir repetido para a correlação alvo sugere que a distribuição do coeficiente de correlação converge para a correlação desejada conforme o tamanho da amostra aumenta. $r= -0.5, 0.1, 0.6$ $n$

## Simulation
set.seed(921)
r <- 0.6                                                # Target correlation
n <- c(10, 50, 100, 500, 1000, 5000); names(n) <- n     # Number of samples
S <- 1000                                               # Number of simulations

res <- sapply(n,
              function(n, r, S){
                   replicate(S, cor(gen.gauss.cop(r, n))[1, 2])
               }, 
               r = r, S = S)
boxplot(res, xlab = "Sample size", ylab = "Correlation")
abline(h = r, col = "red")

insira a descrição da imagem aqui

— QuantIbex
fonte

O método geral para gerar distribuições multivariadas correlacionadas com determinadas distribuições marginais é chamado de cópula .

— whuber

@whuber, o uso de cópula permite especificar uma estrutura de dependência entre variáveis aleatórias. O problema é que a correlação (Pessoa) é influenciada pela estrutura de dependência e pelas margens. Portanto, cada escolha de margens exigirá uma escolha correspondente de parâmetros de cópula, sem mencionar que alguns níveis de correlação simplesmente não podem ser atingidos para determinadas margens (por exemplo, veja aqui ). Se você conhece um método que permite 'controlar' o nível de correlação para qualquer escolha de margens, eu gostaria de saber sobre ele.

— precisa saber é o seguinte

Obrigado @QuantIbex. Mas eu não entendo por que "a) implica que rho de Spearman e () coeficiente de correlação de Pearson para variáveis aleatórias com margens uniforme padrão são aproximadamente iguais em grande amostra"

— Onturenio

[- 1, 1]

$[-1,1]$

@Quantibex Tomei a liberdade de adicionar uma frase que indique que sua gen.gauss.copfunção funcionará para mais de duas variáveis com um ajuste (trivial). Se você não gostar da adição ou deseja colocá-la de maneira diferente, reverta ou altere conforme necessário.

— Glen_b -Reinstate Monica

$u_1$ $U(0,1)$ $u_1$ $w_1$ $U(0,1)$ $I = 1$ $u_1$ $w_2$ $U(0,1)$ $I = 0$ $u_1$ $U(0,1)$ $u_2$

$E(u_1 u_2) = E[I w_1 + (1-I) w_2][I w_1 + (1-I) w_3]$

$I(I-1)=0$ $I^2=I$ $(1-I)^2=(1-I)$ $I$ $0$ $1$ $I$ $w$

$E(u_1 u_2) = E(I)E(w_1^2) + E(1-I)E(w_2)E(w_3)$ $=pE(w_1^2)+(1-p)/4$

$V(w_1)=1/12$ $E(w_1^2)=1/3$ $E(u_1 u_2) = p/12 + 1/4$ $cov(u_1 u_2) = p/12$ $V(u_1)=V(u_2)=1/12$ $cor(u_1, u_2) = p$

— Neal Oden
fonte

$(u_1, u_2) = Iw_1 + (1-I) (w_2, w_3)$ $w_1, w_2,$ $w_3$ $U(0,1)$ $I$ $p$ $u_1$ $u_2$ $U(0,1)$ $p$ $k$

$(u_1, u_2) = I(w_1, 1-w_1) + (1-I)(w_2, w_3)$ $-p$

— Neal Oden
fonte

Você pode adicionar uma prova curta de por que isso funciona?

— The Laconic

se você deseja ser computacionalmente eficiente,

u_{1} = w_{1}

$u_1=w_1$ também produz a mesma correlação (ambos os casos positivos e negativos)

— Anvit