Valor esperado da mediana da amostra, dada a média da amostra

16

Seja denotado a mediana e denotado a média, de uma amostra aleatória de tamanho de uma distribuição que é . Como posso calcular ? $Y$ $\bar{X}$ $n=2k+1$ $N(\mu,\sigma^2)$ $E(Y|\bar{X}=\bar{x})$

Intuitivamente, devido à suposição de normalidade, faz sentido afirmar que e, de fato, essa é a resposta correta. Isso pode ser mostrado rigorosamente? $E(Y|\bar{X}=\bar{x})=\bar{x}$

Meu pensamento inicial foi abordar esse problema usando a distribuição normal condicional, que geralmente é um resultado conhecido. O problema é que, como eu não conheço o valor esperado e, consequentemente, a variação da mediana, precisaria calcular aqueles que usam a estatística ordem. Mas isso é muito complicado e eu prefiro não ir a menos que seja absolutamente necessário. $k+1$

— JohnK
fonte

2

Acredito que isso seja uma consequência imediata da generalização que acabei de publicar em stats.stackexchange.com/a/83887 . A distribuição dos resíduos é claramente simétrica em torno de , onde sua mediana tem uma distribuição simétrica, portanto sua média é zero. Portanto, a expectativa da mediana em si (não apenas dos resíduos) é igual a , QED.

xi−x¯ $x_i-\bar{x}$

0 $0$

0+E(X¯ | X¯=x¯)=x¯ $0 + E(\bar{X}\ |\ \bar{X}=\bar{x}) = \bar{x}$

— whuber

@whuber Desculpe, resíduos?

— JohnK

Eu os defini no meu comentário: são as diferenças entre cada

xi $x_i$ e sua média.

— whuber

@whuber Não, eu entendo, mas ainda estou trabalhando para entender como sua outra resposta está relacionada à minha pergunta e como exatamente a expectativa que você usou funciona.

— JohnK

2

@whuber Ok, então por favor me corrija Se eu estiver errado, E agora o segundo termo é zero porque a mediana é simétrica em torno de . Portanto, a expectativa reduz a

E(Y|X¯)=E(X¯|X¯)+E(Y−X¯|X¯) $E(Y|\bar{X})=E(\bar{X}|\bar{X})+E(Y-\bar{X}|\bar{X})$

x¯ $\bar{x}$

— JohnK

7

Deixe denotam a amostra original e o vector aleatório com entradas . Então é centralizado normalmente (mas suas entradas não são independentes, como pode ser visto pelo fato de que sua soma é zero com probabilidade total). Como funcional linear de , o vector de é normal, portanto, o cálculo das suas sufixos matriz covariância para mostrar que é independente de . $X$ $Z$ $Z_k=X_k-\bar X$ $Z$ $X$ $(Z,\bar X)$ $Z$ $\bar X$

Passando para , vê-se que , onde é a mediana de . Em particular, depende de somente, portanto, é independente de , e a distribuição de é simétrica, portanto, é centralizada. $Y$ $Y=\bar X+T$ $T$ $Z$ $T$ $Z$ $T$ $\bar X$ $Z$ $T$

Finalmente,

E (Y ∣ X ¯) = X ¯ + E (T ∣ X ¯) = X ¯ + E (T) = X ¯ .

$E(Y\mid\bar X)=\bar X+E(T\mid\bar X)=\bar X+E(T)=\bar X.$

— fez
fonte

Obrigado, isso foi solicitado há quase um ano e estou muito feliz que alguém finalmente tenha esclarecido.

— JohnK

7

A mediana da amostra é uma estatística de ordem e tem uma distribuição não normal; portanto, a distribuição de amostra finita conjunta da mediana da amostra e da média da amostra (que tem uma distribuição normal) não seria normal bivariada. Recorrendo a aproximações, assintoticamente o seguinte vale (veja minha resposta aqui ):

n - - \sqrt [(X ¯ n Y n) - (μ v)] \to L N [(00), Σ]

$\sqrt n\Big [\left (\begin{matrix} \bar X_n \\ Y_n \end{matrix}\right) - \left (\begin{matrix} \mu \\ \mathbb v \end{matrix}\right)\Big ] \rightarrow_{\mathbf L}\; N\Big [\left (\begin{matrix} 0 \\ 0 \end{matrix}\right) , \Sigma \Big]$

com

Σ = (σ 2 E (| X - v |) [2 f (v)] - 1 E (| X - v |) [2 f (v)] - 1 [2 f (v)] - 2)

$\Sigma = \left (\begin{matrix} \sigma^2 & E\left( |X-\mathbb v|\right)\left[2f(\mathbb v)\right]^{-1} \\ E\left(|X-\mathbb v|\right)\left[2f(\mathbb v)\right]^{-1} & \left[2f(\mathbb v)\right]^{-2} \end{matrix}\right)$

onde é a média da amostra e a média da população, é a mediana da amostra e a mediana da população, é a densidade de probabilidade das variáveis aleatórias envolvidas e é a variância. $\bar X_n$ $\mu$ $Y_n$ $\mathbb v$ $f()$ $\sigma^2$

Então, aproximadamente, para amostras grandes, sua distribuição conjunta é normal bivariada, então temos que

E (Y n ∣ X ¯ n = x ¯) = v + ρ σ v σ X ¯ (x ¯ - μ)

$E(Y_n \mid \bar X_n=\bar x) = \mathbb v + \rho\frac {\sigma_{\mathbb v}}{\sigma_{\bar X}}(\bar x -\mu)$

onde é o coeficiente de correlação. $\rho$

Manipulando a distribuição assintótica para se tornar a distribuição conjunta de amostra grande aproximada da média e mediana da amostra (e não das quantidades padronizadas), temos

ρ = 1 n E ( | X - v | ) [ 2 f ( v ) ] - 1 1 n σ [ 2 f ( v ) ] - 1 = E ( | X - v | ) σ

$\rho = \frac {\frac 1nE\left(|X-\mathbb v|\right)\left[2f(\mathbb v)\right]^{-1}}{\frac 1n \sigma \left[2f(\mathbb v)\right]^{-1}} = \frac {E\left(|X-\mathbb v|\right)}{\sigma }$

Então,

E (Y n ∣ X ¯ n = x ¯) = v + E ( | X - v | ) σ [ 2 f ( v ) ] - 1 σ (x ¯ - μ)

$E(Y_n \mid \bar X_n=\bar x) = \mathbb v + \frac {E\left(|X-\mathbb v|\right)}{\sigma }\frac {\left[2f(\mathbb v)\right]^{-1}}{\sigma}(\bar x -\mu)$

Temos que devido à simetria da densidade normal, então chegamos a $2f(\mathbb v) = 2/\sigma\sqrt{2\pi}$

E (Y n ∣ X ¯ n = x ¯) = v + π 2 - - \sqrt E (∣ ∣ ∣ X - μ σ ∣ ∣ ∣) (x ¯ - μ)

$E(Y_n \mid \bar X_n=\bar x) = \mathbb v + \sqrt{\frac {\pi}{2}}E\left(\left|\frac {X-\mu}{\sigma}\right|\right)(\bar x -\mu)$

onde usamos . Agora, a variável padronizada é um normal padrão, portanto, seu valor absoluto é uma distribuição semi-normal com valor esperado igual a (uma vez que a variação subjacente é unidade). então $\mathbb v = \mu$ $\sqrt{2/\pi}$

E (Y n ∣ X ¯ n = x ¯) = v + π 2 - - \sqrt 2 π - - \sqrt (x ¯ - μ) = v + x ¯ - μ = x ¯

$E(Y_n \mid \bar X_n=\bar x) = \mathbb v + \sqrt{\frac {\pi}{2}}\sqrt{\frac {2}{\pi}}(\bar x -\mu) = \mathbb v + \bar x -\mu = \bar x$

— Alecos Papadopoulos
fonte

2

Como sempre, boa resposta +1. No entanto, como não temos informações sobre o tamanho da amostra, a distribuição assintótica pode não ser válida. Se não há como obter a distribuição exata, suponho que terei que me contentar. Muito obrigado.

— JohnK

6

A resposta é . $\bar{x}$

Deixe ter uma distribuição multivariada para a qual todos os marginais são simétricos em relação a um valor comum . (Não importa se são independentes ou mesmo se são distribuídos de forma idêntica.) Defina como a média aritmética de escreva para o vetor de resíduos. A suposição de simetria em implica que a distribuição de é simétrica em torno de ; isto é, quando for qualquer evento, $x = (x_1, x_2, \ldots, x_n)$ $F$ $\mu$ $\bar{x}$ $x_i,$ $\bar{x} = (x_1+x_2+\cdots+x_n)/n$ $x-\bar{x} = (x_1-\bar{x}, x_2-\bar{x}, \ldots, x_n-\bar{x})$ $F$ $x - \bar{x}$ $0$ $E\subset\mathbb{R}^n$

Pr F (x - x ¯ \in E) = Pr F (x - x ¯ \in - E) .

${\Pr}_F(x - \bar{x}\in E) = {\Pr}_F(x - \bar{x}\in -E).$

A aplicação do resultado generalizado em /stats//a/83887 mostra que a mediana de tem uma distribuição simétrica em torno de . Supondo que sua expectativa exista (o que certamente ocorre quando as distribuições marginais de são normais), essa expectativa deve ser (porque a simetria implica que ela é igual a seu próprio negativo). $x-\bar{x}$ $0$ $x_i$ $0$

Agora, como subtrair o mesmo valor de cada conjunto de valores não muda sua ordem, (a mediana do ) é igual a mais a mediana de . Consequentemente, sua expectativa condicional em é igual à expectativa de condicional em , mais . O último obviamente é enquanto o primeiro é porque a expectativa incondicional é . A soma deles é QED. $\bar{x}$ $Y$ $x_i$ $\bar{x}$ $x-\bar{x}$ $\bar{x}$ $x-\bar{x}$ $\bar{x}$ $E(\bar{x}\ |\ \bar{x})$ $\bar{x}$ $0$ $0$ $\bar{x},$

— whuber
fonte

Obrigado por publicá-lo como resposta completa. Agora eu entendo a essência do seu argumento, mas posso fazer o ping se algo ainda não estiver claro.

— JohnK

5

JohnK, preciso alertá-lo para ser cauteloso. Um contra-exemplo a esse argumento foi trazido à minha atenção. Incentivei seu autor a publicá-lo aqui para uma discussão mais aprofundada, mas, brevemente, diz respeito a uma distribuição bivariada discreta com marginais simétricos, mas marginais condicionais assimétricos. Sua existência aponta para uma dedução defeituosa no início do meu argumento. Atualmente, espero que o argumento seja resgatado impondo condições mais fortes ao , mas minha atenção está atualmente focada em outro lugar e talvez eu não consiga pensar nisso por um tempo.

$x_i$

— whuber

4

Enquanto isso, gostaria de encorajá-lo a aceitar esta resposta. Normalmente, eu excluí qualquer resposta minha que esteja incorreta, mas (como você pode saber) eu gosto de soluções baseadas em princípios básicos e não em cálculos detalhados, por isso espero que esse argumento possa ser resgatado. Portanto, pretendo deixá-lo aberto a críticas e melhorias (e, portanto, tornei-o CW); deixe os votos caírem como puderem.

— whuber

Claro, obrigado por me informar. Discutiremos mais quando tiver tempo. Enquanto isso, vou me contentar com o argumento assintótico proposto por @Alecos Papadopoulos.

— JohnK

6

Isso é mais simples do que as respostas acima. A média da amostra é uma estatística completa e suficiente (quando a variação é conhecida, mas nossos resultados não dependem da variação, portanto, também será válido na situação em que a variação for desconhecida). Então o Rao-Blackwell, juntamente com os teoremas de Lehmann-Scheffe (ver wikipedia ...), implicará que a expectativa condicional da mediana, dada a média aritmética, é o estimador imparcial da variação mínima única da expectativa . Mas sabemos que essa é a média aritmética, daí o resultado segue. $\mu$

Também usamos que a mediana é um estimador imparcial, que segue da simetria.

— kjetil b halvorsen
fonte

1

Por simetria, , de fato. Então, a partir desses dois teoremas, sabemos que é o estimador imparcial de variância mínima exclusiva para que já sabemos ser igual a . Esta é uma resposta brilhante, muito obrigado. Eu o teria marcado como o correto, se ainda não tivesse feito isso por outra resposta.

$E[Y]=\mu$

$E[Y|\bar{X}]$

$\mu$

$\bar{X}$

— JohnK