Há muitas respostas para essa pergunta. Aqui está um que você provavelmente não verá em outro lugar, por isso estou incluindo aqui porque acredito que seja pertinente ao tópico. As pessoas geralmente acreditam que, porque a mediana é considerada uma medida robusta em relação aos valores discrepantes, também é robusta para quase tudo. De fato, também é considerado robusto ao viés em distribuições distorcidas. Essas duas propriedades robustas da mediana são frequentemente ensinadas juntas. Pode-se notar que as distribuições distorcidas subjacentes também tendem a gerar pequenas amostras que parecem ter discrepâncias e a sabedoria convencional é que se use medianas nessas situações.
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(apenas uma demonstração de que isso é distorcido e a forma básica)
hist(rexg(1e4, 0, 1, 1))
Agora, vamos ver o que acontece se coletarmos nesta distribuição vários tamanhos de amostra e calcularmos a mediana e pretendermos ver quais são as diferenças entre eles.
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
Como pode ser visto no gráfico acima, a mediana (em vermelho) é muito mais sensível ao n do que à média. Isso é contrário a alguma sabedoria convencional sobre o uso de medianas com ns baixos, especialmente se a distribuição puder ser distorcida. E, reforça o ponto de que a média é um valor conhecido enquanto a mediana é sensível a outras propriedades, uma se qual for o n.
Esta análise é semelhante a Miller, J. (1988). Um aviso sobre o tempo médio de reação. Journal of Experimental Psychology: Human Perception and Performance , 14 (3): 539-543.
REVISÃO
Ao pensar sobre a questão da distorção, considerei que o impacto na mediana poderia ser apenas porque em amostras pequenas você tem uma probabilidade maior de que a mediana esteja na cauda da distribuição, enquanto a média quase sempre será ponderada por valores mais próximos da média. modo. Portanto, talvez se alguém estivesse apenas amostrando com uma probabilidade de outliers, talvez os mesmos resultados ocorressem.
Então, pensei em situações em que podem ocorrer discrepâncias e os experimentadores podem tentar eliminá-las.
Se os outliers ocorreram de maneira consistente, como um em cada amostra de dados, as medianas são robustas contra o efeito desse outlier e a história convencional sobre o uso de medianas é válida.
Mas geralmente não é assim que as coisas acontecem.
Pode-se encontrar um outlier em poucas células de um experimento e decidir usar mediana em vez de média neste caso. Novamente, a mediana é mais robusta, mas seu impacto real é relativamente pequeno, porque existem muito poucos discrepantes. Definitivamente, este seria um caso mais comum do que o descrito acima, mas o efeito do uso de uma mediana provavelmente seria tão pequeno que não importaria muito.
Talvez os outliers mais comuns possam ser um componente aleatório dos dados. Por exemplo, a verdadeira média e o desvio padrão da população podem ser cerca de 0, mas há uma porcentagem do tempo que coletamos de uma população externa onde a média é 3. Considere a seguinte simulação, na qual apenas uma amostra dessa população varia de amostra Tamanho.
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
A mediana está em vermelho e média em preto. Esta é uma descoberta semelhante à de uma distribuição distorcida.
Em um exemplo relativamente prático do uso de medianas para evitar os efeitos de outliers, pode-se chegar a situações em que a estimativa é afetada por n muito mais quando a mediana é usada do que quando a média é usada.