A Seção 1.7.2 de Descobrindo estatísticas usando R por Andy Fields, et all, ao listar virtudes de média versus mediana, declara:
... a média tende a ser estável em diferentes amostras.
Depois de explicar as muitas virtudes da mediana, por exemplo,
... A mediana não é afetada por pontuações extremas nos dois extremos da distribuição ...
Dado que a mediana não é afetada por pontuações extremas, eu pensaria que fosse mais estável entre as amostras. Então fiquei intrigado com a afirmação dos autores. Para confirmar que eu executei uma simulação - eu gerei 1M de números aleatórios e fiz a amostragem de 100 números 1000 vezes e calculei a média e a mediana de cada amostra e depois calculei o dp dessas médias e medianas da amostra.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Como você pode ver, os meios são mais bem distribuídos que as medianas.
Na imagem em anexo, o histograma vermelho é para medianas - como você pode ver, é menos alto e tem cauda mais gorda, o que também confirma a afirmação do autor.
Estou impressionado com isso, no entanto! Como a mediana mais estável tende a variar mais entre as amostras? Parece paradoxal! Quaisquer ideias serão apreciadas.
rnorm
por rcauchy
.