Teorema do limite central para medianas da amostra


55

Se eu calcular a mediana de um número suficientemente grande de observações extraídas da mesma distribuição, o teorema do limite central afirma que a distribuição de medianas se aproximará de uma distribuição normal? Meu entendimento é que isso é verdade com os meios de um grande número de amostras, mas também é verdade com as medianas?

Caso contrário, qual é a distribuição subjacente das medianas da amostra?


9
Você precisa de algumas condições de regularidade para que a mediana tenha uma distribuição normal sob redimensionamento no limite. Para ver o que pode dar errado, considere qualquer distribuição em um número finito de pontos, digamos, uniforme em . X{1,0,1}
cardeal

5
Em relação às condições de regularidade: Se a distribuição subjacente tiver uma densidade diferenciável na mediana (verdadeira), a mediana da amostra terá uma distribuição normal assintótica com uma variação que depende da referida derivada. Isso vale mais geralmente para quantis arbitrários.
cardeal

6
@ cardinal Eu acredito que você precisa de condições adicionais: quando a densidade é segunda diferenciável, é igual a zero na mediana e tem zero primeira derivada lá, a distribuição assintótica da mediana da amostra será bimodal.
whuber

4
@ whuber: Sim, porque a densidade (e não sua derivada, como afirmei inadvertidamente anteriormente) entra na variação como recíproca, o valor da densidade nesse ponto não deve ser zero. Desculpas por abandonar essa condição!
cardeal

4
Os contra-exemplos elementares podem ser criados usando qualquer distribuição que atribua probabilidade de a um intervalo e probabilidade a que como a Bernoulli ( ). As medianas da amostra serão menores ou iguais a \ mu , sempre que forem maiores ou iguais a \ mu + \ delta . A chance de a mediana não estar em (\ mu, \ mu + \ delta) se aproxima de 0 para amostras grandes, deixando efetivamente uma "lacuna" em (\ mu, \ mu + \ delta)1/2(,μ]1/2[μ+δ,)δ>0,(1/2)μ=0,δ=1μμ+δ0 ( μ , μ + δ )(μ,μ+δ)0(μ,μ+δ)na distribuição limitadora - que obviamente então não será normal, não importa como seja padronizada.
whuber

Respostas:


39

Se você trabalha em termos de variáveis ​​indicadoras (por exemplo, se e caso contrário), você pode aplicar diretamente o teorema do limite central a uma média de e, usando o método Delta , transformá-lo em um distribuição normal assintótica para , que por sua vez significa que você começa a normalidade assintótica para quantiles fixos de .Zi=1Xix0ZFX1(Z¯)X

Portanto, não apenas a mediana, mas os quartis, percentis 90, ... etc.

Vagamente, se estivermos falando sobre o th quantil da amostra em amostras suficientemente grandes, obtemos que ele terá aproximadamente uma distribuição normal com a média do th quantil da população e variância .qqxqq(1q)/(nfX(xq)2)

Portanto, para a mediana ( ), a variação em amostras suficientemente grandes será de aproximadamente .q=1/21/(4nfX(μ~)2)

Você precisa de todas as condições ao longo do caminho, é claro, para que não funcione em todas as situações, mas para distribuições contínuas em que a densidade no quantil da população é positiva e diferenciável, etc ...

Além disso, ele não vale para quantis extremos, porque o CLT não entra lá (a média de Zs não será assintoticamente normal). Você precisa de uma teoria diferente para valores extremos.


Editar: a crítica do whuber está correta; isso funcionaria se fosse uma mediana da população e não uma mediana da amostra. O argumento precisa ser modificado para realmente funcionar corretamente.x


5
Acho que falta uma parte lógica dessa explicação: como exatamente se usa indicadores para obter medianas da amostra ? Posso ver como, quando é a mediana subjacente , o indicador funcionará: mas esse indicador não coincide com a mediana da amostra ou com qualquer função dela. X ixxXix
whuber

Como você passa de distribuições normais assintóticas para para obter normalidade assintótica para quantis fixos de X? Edit: Eu tenho isso, que torna-se um valor percentual 0-100% valores assim quantílicas são assintoticamente normais¯ ZFX1(Z¯)Z¯
adam

49

A idéia principal é que a distribuição amostral da mediana seja simples de expressar em termos da função de distribuição, mas mais complicada de expressar em termos do valor da mediana. Uma vez que entendemos como a função de distribuição pode re-expressar valores como probabilidades e vice-versa, é fácil derivar a exata distribuição amostral da mediana. É necessária uma pequena análise do comportamento da função de distribuição perto de sua mediana para mostrar que isso é assintoticamente normal.

(A mesma análise funciona para a distribuição amostral de qualquer quantil, não apenas a mediana.)

Não farei nenhuma tentativa de ser rigoroso nesta exposição, mas realizo-a em etapas que são prontamente justificadas de maneira rigorosa, se você quiser fazer isso.


Intuição

Estes são instantâneos de uma caixa contendo 70 átomos de um gás atômico quente:

figura 1

Em cada imagem, encontrei um local, mostrado como uma linha vertical vermelha, que divide os átomos em dois grupos iguais entre a esquerda (desenhada como pontos pretos) e a direita (pontos brancos). Essa é uma mediana das posições: 35 dos átomos ficam à esquerda e 35 à direita. As medianas mudam porque os átomos estão se movendo aleatoriamente ao redor da caixa.

Estamos interessados ​​na distribuição dessa posição intermediária. Essa pergunta é respondida revertendo meu procedimento: primeiro vamos desenhar uma linha vertical em algum lugar, digamos no local . Qual é a chance de metade dos átomos estar à esquerda de e metade à sua direita? Os átomos à esquerda individualmente tinham chances de estar à esquerda. Os átomos à direita individualmente tinham chances de para estar à direita. Assumindo que suas posições são estatisticamente independentes, as chances se multiplicam, dando pela chance dessa configuração específica. Uma configuração equivalente poderia ser alcançado para uma divisão diferente dos átomos em duas= x 1 - x x 35 ( 1 - x ) 35 70 35xxx1xx35(1x)357035peças A adição desses números para todas essas divisões possíveis dá a chance de

Pr(x is a median)=Cxn/2(1x)n/2

onde é o número total de átomos e é proporcional ao número de divisões de átomos em dois subgrupos iguais.C nnCn

Esta fórmula identifica a distribuição da mediana como um beta distribuição(n/2+1,n/2+1) .

Agora considere uma caixa com uma forma mais complicada:

Figura 2

Mais uma vez as medianas variam. Como a caixa está baixa perto do centro, não há muito volume: uma pequena mudança no volume ocupado pela metade esquerda dos átomos (os pretos mais uma vez) - ou, como podemos admitir, a área à esquerda, como mostrado nessas figuras - corresponde a uma mudança relativamente grande na posição horizontal da mediana. De fato, como a área subtendida por uma pequena seção horizontal da caixa é proporcional à altura , as alterações nas medianas são divididas pela altura da caixa. Isso faz com que a mediana seja mais variável para esta caixa do que para a caixa quadrada, porque esta é muito mais baixa no meio.

Em resumo, quando medimos a posição da mediana em termos de área (à esquerda e à direita), a análise original (para uma caixa quadrada) permanece inalterada. A forma da caixa só complica a distribuição se insistirmos em medir a mediana em termos de sua posição horizontal. Quando fazemos isso, a relação entre a representação da área e da posição é inversamente proporcional à altura da caixa.

Há mais a aprender com essas fotos. É claro que, quando poucos átomos estão na (ou) caixa, há uma chance maior de que metade deles possa acidentalmente terminar agrupada em ambos os lados. À medida que o número de átomos aumenta, o potencial para um desequilíbrio extremo diminui. Para acompanhar isso, peguei "filmes" - uma longa série de 5000 quadros - para a caixa curva preenchida com , depois com , depois e, finalmente, com átomos, e observei as medianas. Aqui estão os histogramas das posições medianas:15 75 37531575375

Figura 3

Claramente, para um número suficientemente grande de átomos, a distribuição de sua posição mediana começa a parecer em forma de sino e fica mais estreita: isso parece um resultado do Teorema do Limite Central, não é?


Resultados Quantitativos

A "caixa", é claro, descreve a densidade de probabilidade de alguma distribuição: seu topo é o gráfico da função de densidade (PDF). Assim, as áreas representam probabilidades. Colocar pontos aleatoriamente e independentemente dentro de uma caixa e observar suas posições horizontais é uma maneira de extrair uma amostra da distribuição. (Essa é a ideia por trás da amostragem por rejeição. )n

A próxima figura conecta essas idéias.

Figura 4

Isso parece complicado, mas é realmente muito simples. Existem quatro gráficos relacionados aqui:

  1. O gráfico superior mostra o PDF de uma distribuição junto com uma amostra aleatória do tamanho . Valores maiores que a mediana são mostrados como pontos brancos; valores menores que a mediana como pontos pretos. Não precisa de uma escala vertical, porque sabemos que a área total é a unidade.n

  2. O gráfico do meio é a função de distribuição cumulativa para a mesma distribuição: usa altura para denotar probabilidade. Ele compartilha seu eixo horizontal com o primeiro gráfico. Seu eixo vertical deve ir de a porque representa probabilidades.101

  3. O gráfico da esquerda deve ser lido de lado: é o PDF da distribuição Beta . Ele mostra como a mediana na caixa variará quando a mediana for medida em termos de áreas à esquerda e à direita do meio (em vez de ser medida por sua posição horizontal). Eu desenhei pontos aleatórios deste PDF, como mostrado, e os conectei com linhas tracejadas horizontais aos locais correspondentes no CDF original: é assim que os volumes (medidos à esquerda) são convertidos em posições (medidas na parte superior, central) e gráficos inferiores). Um desses pontos realmente corresponde à mediana mostrada no gráfico superior; Eu desenhei uma linha vertical sólida para mostrar isso.16(n/2+1,n/2+1)16

  4. O gráfico de fundo é a densidade amostral da mediana, medida pela sua posição horizontal. É obtido convertendo a área (na plotagem esquerda) para a posição. A fórmula de conversão é dada pelo inverso do CDF original: esta é simplesmente a definição do CDF inverso! (Em outras palavras, o CDF converte a posição em área à esquerda; o CDF inverso converte de volta da área para a posição.) Plotamos linhas verticais tracejadas, mostrando como os pontos aleatórios do gráfico esquerdo são convertidos em pontos aleatórios no gráfico inferior . Esse processo de leitura transversal e descendente nos diz como ir de uma área para outra.

Seja o CDF da distribuição original (plot do meio) e o CDF da distribuição Beta. Para encontrar a chance de a mediana estar à esquerda de alguma posição , primeiro use para obter a área à esquerda de na caixa: este é o próprio . A distribuição Beta à esquerda nos diz que há metade dos átomos nesse volume, dando : esse é o CDF da posição mediana . Para encontrar seu PDF (como mostrado na plotagem inferior), use a derivada:FGxFxF(x)G(F(x))

ddxG(F(x))=G(F(x))F(x)=g(F(x))f(x)

onde é o PDF (plotagem superior) é o PDF beta (plotada esquerda).fg

Essa é uma fórmula exata para a distribuição da mediana para qualquer distribuição contínua. (Com algum cuidado na interpretação, pode ser aplicado a qualquer distribuição, seja contínua ou não.)


Resultados Assintóticos

Quando é muito grande e não tem um salto em sua mediana, a mediana da amostra deve variar bastante em torno da verdadeira mediana da distribuição. Supondo também que o PDF seja contínuo próximo a , na fórmula anterior não mudará muito de seu valor em fornecido por Além disso, também não mudará muito de seu valor: para primeira ordem,nFμfμ f(x)μ,f(μ).F

F(x)=F(μ+(xμ))F(μ)+F(μ)(xμ)=1/2+f(μ)(xμ).

Assim, com uma aproximação cada vez melhor à medida que cresce,n

g(F(x))f(x)g(1/2+f(μ)(xμ))f(μ).

Isso é apenas uma mudança de localização e escala da distribuição Beta. O redimensionamento por dividirá sua variação por (que é melhor ser diferente de zero!). Aliás, a variação de Beta é muito próxima de .f(μ)f(μ)2(n/2+1,n/2+1)n/4

Esta análise pode ser vista como uma aplicação do método Delta .

Finalmente, Beta é aproximadamente Normal para grande . Existem muitas maneiras de ver isso; talvez o mais simples seja analisar o logaritmo de seu PDF próximo a :(n/2+1,n/2+1)n1/2

log(C(1/2+x)n/2(1/2x)n/2)=n2log(14x2)+C=C2nx2+O(x4).

(As constantes e apenas normalizam a área total para a unidade.) Por meio da terceira ordem em então, é o mesmo que o log do PDF normal com variação (Este argumento é rigoroso usando funções geradoras de características ou cumulantes, em vez do log do PDF.)CCx,1/(4n).

Juntando isso, concluímos que

  • A distribuição da mediana da amostra varia aproximadamente ,1/(4nf(μ)2)

  • e é aproximadamente normal para grande ,n

  • tudo desde que o PDF seja contínuo e diferente de zero na medianafμ.


Eu gosto da quarta figura. Você fez isso usando R?
EngrStudent - Restabelece Monica

@Engr Eu provavelmente poderia ter feito algo assim R, talvez usando layout, mas na verdade foi feito com o Mathematica 9. #
whuber

11
É uma coisa de beleza.
EngrStudent - Restabelece Monica

@whuber não é Beta (n / 2 + 1, n / 2 + 1) em Beta (1,1) antes? Ver, por exemplo, ine.pt/revstat/pdf/rs080204.pdf
Tim

11
@ Tim Não entendo a relevância da referência a um anterior, mas agradeço por você apontar que o nome correto da distribuição Beta identificada na seção "Intuição" é Beta . Vou consertar isso onde quer que ocorra (que está em vários lugares da discussão). (n/2+1,n/2+1)
whuber

18

A resposta esclarecedora do @EngrStudent nos diz que devemos esperar resultados diferentes quando a distribuição for contínua e quando for discreta (os gráficos "vermelhos", em que a distribuição assintótica da mediana da amostra falha espetacularmente para parecer normal, corresponde à distribuição binomial (3), Geométrico (11), Hipergeométrico (12), Binomial Negativo (14), Poisson (18), Uniforme Discreto (22).

E, de fato, é esse o caso. Quando a distribuição é discreta, as coisas ficam complicadas. Fornecerei a prova para o Caso Absolutamente Contínuo, essencialmente não fazendo mais do que detalhar a resposta já dada por @Glen_b, e depois discutirei um pouco o que acontece quando a distribuição é discreta, fornecendo também uma referência recente para quem estiver interessado em mergulhar no.

DISTRIBUIÇÃO ABSOLUTAMENTE CONTÍNUA
Considere uma coleção de variáveis ​​aleatórias absolutamente contínuas iid com função de distribuição (cdf) e função de densidade . Defina onde é a função do indicador. Portanto é um Bernoulli rv, com {X1,...Xn}FX(x)=P(Xix)FX(x)=fX(x)ZiI{Xix}I{}Zi

E(Zi)=E(I{Xix})=P(Xix)=FX(x),Var(Zi)=FX(x)[1FX(x)],i

Seja a média amostral desses iid Bernoullis, definida para fixo como que significa que O Teorema do Limite Central se aplica e temosYn(x)x

Yn(x)=1ni=1nZi
E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1FX(x)]

n(Yn(x)FX(x))dN(0,FX(x)[1FX(x)])

Observe que ou seja, diferente da função de distribuição empírica. Ao aplicar o "Método Delta", obtemos que para uma função contínua e diferenciável com derivada diferente de zero no ponto de interesse, obtemosYn(x)=F^n(x)g(t)g(t)

n(g[F^n(x)]g[FX(x)])dN(0,FX(x)[1FX(x)](g[FX(x)])2)

Agora, escolha onde denota a função inversa. Esta é uma função contínua e diferenciável (já que é) e, pelo Teorema da Função Inversa, temosg(t)FX1(t),t(0,1)1FX(x)

g(t)=ddtFX1(t)=1fx(FX1(t))

Inserindo esses resultados em no resultado assintótico derivado do método delta, temosg

n(FX1(F^n(x))FX1(FX(x)))dN(0,FX(x)[1FX(x)][fx(FX1(FX(x)))]2)

e simplificando,

n(FX1(F^n(x))x)dN(0,FX(x)[1FX(x)][fx(x)]2)

.. para qualquer fixo . Agora defina , a mediana (verdadeira) da população. Então temos e o resultado geral acima se torna, para nosso caso de interesse,xx=mFX(m)=1/2

n(FX1(F^n(m))m)dN(0,1[2fx(m)]2)

Mas converge para a mediana da amostra . Isto é porqueFX1(F^n(m))m^

FX1(F^n(m))=inf{x:FX(x)F^n(m)}=inf{x:FX(x)1ni=1nI{Xim}}

O lado direito da desigualdade converge para e o menor para o qual, eventualmente, , é a mediana da amostra.1/2xFX1/2

Então nós obtemos

n(m^m)dN(0,1[2fx(m)]2)
que é a Central Teorema do limite para a mediana da amostra para distribuições absolutamente contínuas.

DISTRIBUIÇÕES DISCRETAS
Quando a distribuição é discreta (ou quando a amostra contém laços), foi argumentado que a definição "clássica" de quantis de amostra e, portanto, da mediana também pode ser enganosa em primeiro lugar , como o conceito teórico a ser usado para medir o que se tenta medir por quantis.
De qualquer forma, foi simulado que, sob essa definição clássica (a que todos conhecemos), a distribuição assintótica da mediana da amostra não é normal e é uma distribuição discreta.

Uma definição alternativa de quantis de amostra é usar o conceito da função "distribuição média", definida como

Fmid(x)=P(Xx)12P(X=x)

A definição de quantis amostrais através do conceito de função de distribuição média pode ser vista como uma generalização que pode cobrir como casos especiais as distribuições contínuas, mas também as não tão contínuas.

Para o caso de distribuições discretas, entre outros resultados, verificou-se que a mediana da amostra, definida por esse conceito, tem uma distribuição assintoticamente normal com uma variação de aparência elaborada.

A maioria destes são resultados recentes. A referência é Ma, Y., Genton, MG, & Parzen, E. (2011). Propriedades assintóticas de quantis de amostras de distribuições discretas. Anais do Instituto de Matemática Estatística, 63 (2), 227-243. , onde é possível encontrar uma discussão e links para a literatura relevante mais antiga.


2
(+1) Para o artigo. Esta é uma excelente resposta.
Alex Williams

Você pode explicar por que converge para a mediana da amostra ? FX1(F^n(m))m^
kasa

Eu sei que na distribuição, mas não consigo ver como a mediana da amostra é igual aF^n(m)FX(m)m^FX1(F^n(m))
kasa

11
@kasa Eu elaborei um pouco sobre o assunto.
Alecos Papadopoulos

Lamento continuar trazendo isso à tona novamente: mas o menor para o qual, eventualmente, , é a mediana da população, não a mediana da amostra, não é? xFX(x)1/2
kasa

10

Sim, é, e não apenas para a mediana, mas para qualquer quantil de amostra. Copiando deste artigo , escrito por TS Ferguson, professor da UCLA (sua página está aqui ), que lida de maneira interessante com a distribuição conjunta da média amostral e dos quantis amostrais, temos:

Deixe seja iid com a função de distribuição , densidade , média e variância finita . Seja e denote o quantil de , de modo que . Suponha que a densidade seja contínua e positiva em . Seja denotar a amostra ésima quantil. Então F ( x ) f ( x ) u σ 2 0 < p < 1 x p p FX1,...,XnF(x)f(x)μσ20<p<1xppFF(xp)=pf(x)xpYn=X(n:np)p

n(Ynxp)dN(0,p(1p)/(f(xp))2)

Para (mediana), e você possui o CLT para medianas,p=1/2xp=m

n(Ynm)dN(0,[2f(m)]2)

11
Agradável. Vale ressaltar que a variância da mediana da amostra não é tão fácil de estimar quanto a média da amostra.
Michael M

@Alecos - como você conseguiu duas respostas para esta pergunta?
EngrStudent - Reintegrar Monica

11
@EngrStudent O sistema permite, apenas solicita que você verifique se deseja realmente adicionar uma segunda resposta.
Alecos Papadopoulos

8

Eu gosto da resposta analítica dada por Glen_b. É uma boa resposta.

Precisa de uma foto. Eu gosto de fotos

Aqui estão as áreas de elasticidade em uma resposta à pergunta:

  • Existem muitas distribuições no mundo. É provável que a quilometragem varie.
  • Suficiente tem significados diferentes. Para um contra-exemplo a uma teoria, algumas vezes é necessário um único contra-exemplo para que "suficiente" seja atendido. Para demonstração de baixas taxas de defeitos usando incerteza binomial, centenas ou milhares de amostras podem ser necessárias.

Para um padrão normal, usei o seguinte código MatLab:

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

e recebi o seguinte gráfico como saída:

insira a descrição da imagem aqui

Então, por que não fazer isso para as outras 22 distribuições "internas", exceto usando prob-plots (onde linha reta significa muito normal)?

insira a descrição da imagem aqui

E aqui está o código fonte:

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

Quando vejo a prova analítica, penso que "em teoria, todas podem se encaixar", mas quando a experimento, posso temperar isso com "existem várias maneiras de isso não funcionar tão bem, geralmente envolvendo discretos ou altamente restritos". valores "e isso pode me fazer querer ter mais cuidado ao aplicar a teoria a qualquer coisa que custe dinheiro.

Boa sorte.


Estou errado ou a distribuição para a qual a mediana não é normalmente distribuída é discreta?
SEF 19/03
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.