Existe uma distribuição de junta paramétrica tal que e são uniformes e

Existe uma distribuição de junta paramétrica tal que $X$ e $Y$ sejam uniformes em $[0, 1]$ (isto é, uma cópula) e $\mathbb{E}[Y | X = x]$ é linear (com o que quero dizer afim) em $x$ ? Ou seja,

E [Y | X = x] = a + b x

$\mathbb{E}[Y \;|\; X = x] = a + b\,x$ enquanto

X

$X$ e

Y

$Y$ são marginalmente

Uniform [0, 1]

$\text{Uniform}[0, 1]$ .

É claro que eu poderia deixar $X$ e $Y$ independentes, nesse caso $\mathbb{E}[Y \;|\; X = x] = 0.5$ . Existem cópulas paramétricas simples que satisfazem minhas restrições sem que as duas variáveis sejam independentes? (Outro caso de borda seria $Y=X$ e $\mathbb{E}[Y \;|\; X = x] = x$ .)

Note-se que a $a$ e $b$ em $\mathbb{E}[Y \;|\; X = x] = a + b\,x$ possui apenas um grau de liberdade, uma vez que $\mathbb{E}[Y] = 0.5 = \mathbb{E}[\mathbb{E}[Y \; | \; X]] = a + 0.5\,b$ .

Alguma motivação do mundo real para tornar isso menos abstrato: a pesquisa de Chetty et al. Sobre mobilidade intergeracional de renda encontra (aproximadamente) cópulas lineares de renda (isto é, uma relação aproximadamente linear entre a classificação de renda dos pais e a renda dos filhos). Consulte http://www.rajchetty.com/chettyfiles/mobility_trends_published.pdf (Figura 1. Classificação da renda infantil versus classificação da renda dos pais por coorte de nascimento) e http://www.rajchetty.com/chettyfiles/mobility_geo.pdf (Figura II : Associação entre as classificações percentuais das crianças e dos pais).

— Adrian
fonte

A relação trivial (que eu não acho que você quiser) é ter . (graças a @whuber por apontar meu exemplo anterior não era uma cópula)

X = Y

$X=Y$

— Cliff AB

Podemos desenvolver famílias paramétricas ricas a partir da solução trivial com cópula , o caso de correlação perfeita (positiva) e sua contrapartida para uma correlação negativa perfeita. Concentrar a probabilidade ao longo do segmento de linha que liga a com fornece a cópula $F(x,y) = \min(x,y)$ $(0,\alpha)$ $(1,\beta)$ $\beta\gt \alpha$

F (x, y; α, β) = {\begin{cases} \begin{matrix} x y, & 0 \leq y < α or β < y \leq 1 \\ β x, & x (β - α) \leq y - α \\ α x + y - α & otherwise. \end{matrix} \end{cases}

$F(x,y;\alpha,\beta) = \cases{\matrix{x y,&0\le y \lt \alpha\text{ or }\beta \lt y \le 1 \\ \beta x,&x(\beta-\alpha)\le y-\alpha \\ \alpha x + y-\alpha&\text{otherwise.}}}$

Uma cópula semelhante surge quando , que também designarei . $\beta \lt \alpha$ $F(x,y;\alpha,\beta)$

Pense nisto como misturas: quando , existem componentes uniformes nos retângulos horizontais , , e no retângulo central existe uma correlação perfeita (cuja distribuição é a de para uma variável uniformemente distribuída ) Essa concepção de facilita o cálculo da regressão: é uma soma ponderada das três médias condicionais, $\beta \gt \alpha$ $[0,1]\times [0,\alpha]$ $[0,1]\times[\beta,1]$ $[0,1]\times[\alpha,\beta]$ $(U, \alpha+(\beta-\alpha)U)$ $U$ $F$

E (Y ∣ X) = α (\frac{α}{2}) + (β - α) (α + (β - α) X) + (1 - β) (\frac{1 + β}{2}) .

$\mathbb{E}(Y\mid X) = \alpha\left(\frac{\alpha}{2}\right) + (\beta-\alpha)\left(\alpha + (\beta-\alpha)X\right) + (1-\beta)\left(\frac{1+\beta}{2}\right).$

Evidentemente, isso é linear em : a interceptação é igual a e a inclinação é vezes o sinal de . Além disso, foi construído para ter marginais uniformes. $X$ $(1+(\beta-\alpha)^2)/2$ $(\beta-\alpha)^2$ $\beta-\alpha$

Para criar uma família paramétrica, escolha qualquer distribuição paramétrica para com o parâmetro . Seja a função de distribuição. Descreve uma mistura de via integração: $(\alpha,\beta)$ $\theta$ $G(\alpha,\beta;\theta)$ $F(;\alpha,\beta)$

\tilde{F} (x, y; θ) = \iint F (x, y; α, β) d G (α, β; θ)

$\tilde F(x,y;\theta) = \iint F(x,y;\alpha,\beta)dG(\alpha,\beta;\theta)$

é a função de distribuição (cópula). Como cada possui marginais uniformes, o mesmo acontece com . Além disso, sua regressão é linear porque $F(;\alpha,\beta)$ $\tilde F(;\theta)$

\begin{aligned} E_{\tilde{F} (; θ)} (Y ∣ X) & = \iint E_{F (; α, β)} (Y ∣ X) d G (α, β; θ) \\ = \iint ((1 + (β - α)^{2}) / 2 + sgn (β - α) (β - α)^{2} X) d G (α, β; θ) \\ = \iint (1 + (β - α)^{2}) / 2 d G (α, β; θ) + \iint sgn (β - α) (β - α)^{2} d G (α, β; θ) X \\ = E_{G (; θ)} ((1 + (β - α)^{2}) / 2) + E_{G (; θ)} (sgn (β - α) (β - α)^{2}) X . \end{aligned}

$\eqalign{ \mathbb{E}_{\tilde F(;\theta)}(Y\mid X) &= \iint \mathbb{E}_{F(;\alpha,\beta)}(Y\mid X)dG(\alpha,\beta;\theta)\\ &=\iint ((1+(\beta-\alpha)^2)/2 + \operatorname{sgn}(\beta-\alpha)(\beta-\alpha)^2 X)dG(\alpha,\beta;\theta) \\ &= \iint (1+(\beta-\alpha)^2)/2 dG(\alpha,\beta;\theta) + \iint \operatorname{sgn}(\beta-\alpha)(\beta-\alpha)^2 dG(\alpha,\beta;\theta)\,X\\ &= \mathbb{E}_{G(;\theta)}((1+(\beta-\alpha)^2)/2) + \mathbb{E}_{G(;\theta)}(\operatorname{sgn}(\beta-\alpha)(\beta-\alpha)^2)X. }$

Isso mostra como o intercepto e a inclinação são as expectativas da interceptação e da inclinação (em relação a ), fornecendo informações úteis para selecionar as famílias apropriadas . $G$ $G(;\theta)$

Esses gráficos documentam uma simulação de uma dessas famílias. Aqui, foi extraído de uma distribuição Beta e foi extraído independentemente de uma distribuição Beta . A primeira coluna mostra histogramas das realizações desses parâmetros. A segunda coluna mostra histogramas das distribuições marginais de e : elas são satisfatoriamente próximas de uniformes. A coluna mais à direita mostra um subconjunto aleatório dos 100.000 valores simulados, juntamente com uma estimativa de sua regressão (linha vermelha) e uma aproximação à regressão teórica (linha pontilhada preta): eles concordam estreitamente. A regressão estimada foi obtida calculando-se as médias de $\alpha$ $(5,1)$ $\beta$ $(3,10)$ $X$ $Y$ $X$ e dentro das janelas do , depois suavizando o traço com Loess. $Y$ $X$

(A linha de regressão "teórica" é apenas uma aproximação obtida substituindo e nas fórmulas de expectativa por suas expectativas. As fórmulas exatas são fáceis de resolver nesse caso, mas são longas e complicadas de codificar.) $\alpha$ $\beta$

O Rcódigo que produziu essa figura pode ser facilmente usado para estudar outras famílias . $G(;\theta)$

#
# Draw `n` variates from the mixture copula.
# `alpha` and `beta` are intended to be realizations of G(;theta).
#
runif.xy <- function(n, alpha=0, beta=1) {
  a <- pmin(alpha, beta)
  b <- pmax(alpha, beta)
  xy <- matrix(runif(2*n), nrow=2)              # Start with a uniform distribution
  i <- xy[2,] > a & xy[2,] < b                  # Select the middle rectangle
  xy[2, i] <- (xy[1,]*(beta - alpha) + alpha)[i]# Create perfect correlation
  return(xy)
}
#
# Specify the parameters ("theta").
#
a.alpha <- 5
b.alpha <- 1
a.beta <- 3
b.beta <- 10
#
# Draw the slope `beta` and intercept `alpha` from G(;theta).
#
n.sim <- 1e5
alpha <- rbeta(n.sim, a.alpha, b.alpha)
beta <- rbeta(n.sim, a.beta, b.beta)
#
# Draw (X,Y) from the mixture.
#
sim <- runif.xy(n.sim, alpha, beta)
#
# Plot histograms of alpha, beta, X, Y.
#
par(mfcol=c(2,3))
hist(alpha); abline(v=a.alpha/(a.alpha+b.alpha), col="Red", lwd=2)
hist(beta); abline(v=a.beta/(a.beta+b.beta), col="Red", lwd=2)
hist(sim[1,], main="X Marginal", xlab="X")
hist(sim[2,], main="Y Marginal", xlab="Y")
#
# Plot the simulation and its regression curve.
#
i <- sample.int(n.sim, min(5e3, n.sim)) # Limit how many points are shown
plot(t(sim[, i]), asp=1, pch=19, col="#00000002", main="Simulation",
     xlab="X", ylab="Y")

library(zoo)
i <- order(sim[1,])
x <- as.vector(rollapply(ts(sim[1, i]), ceiling(n.sim/100), mean))
y <- as.vector(rollapply(ts(sim[2, i]), ceiling(n.sim/100), mean))
lines(lowess(y ~ x), col="Red", lwd=2)
#
# Overplot the theoretical regression curve.
#
a <- a.alpha / (a.alpha + b.alpha) # Expectation of `alpha`
b <- a.beta / (a.beta + b.beta)    # Expectation of `beta`
intercept <- (1 + (b-a)^2)/2
slope <- (b - a)^2 * sign(b-a)
abline(c(intercept, slope), lty=3, lwd=3)

— whuber
fonte