O desvio padrão pode ser calculado para a média harmônica? Entendo que o desvio padrão pode ser calculado para a média aritmética, mas se você tiver uma média harmônica, como você calcula o desvio padrão ou o CV?
O desvio padrão pode ser calculado para a média harmônica? Entendo que o desvio padrão pode ser calculado para a média aritmética, mas se você tiver uma média harmônica, como você calcula o desvio padrão ou o CV?
Respostas:
A média harmônica das variáveis aleatórias é definida como
Tendo momentos de frações é um negócio sujo, então ao invés eu preferiria trabalhar com o . Agora
Usando o teorema do limite central, obtemos imediatamente esse
se, é claro, e são iid, já que trabalhamos com a média aritmética das variáveis .
Agora, usando o método delta para a função , obtemos esse
Esse resultado é assintótico, mas para aplicações simples pode ser suficiente.
Atualizar Como o @whuber aponta com razão, aplicativos simples são um nome impróprio. O teorema do limite central é válido apenas se existe, o que é uma suposição bastante restritiva.
Atualização 2 Se você tiver uma amostra, para calcular o desvio padrão, basta conectar os momentos da amostra à fórmula. Portanto, para a amostra , a estimativa da média harmônica é
os momentos de amostra e respectivamente são:
aqui significa recíproco.
Finalmente, a fórmula aproximada para o desvio padrão de é
Fiz algumas simulações de Monte-Carlo para variáveis aleatórias distribuídas uniformemente em intervalo . Aqui está o código:
hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))
n<-1000
nn <- c(10,30,50,100,500,1000,5000,10000)
N<-1000
mc<-foreach(n=nn,.combine=rbind) %do% {
rr <- matrix(runif(n*N,min=2,max=3),nrow=N)
c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))
}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")
> mc
n DeltaSD sdDeltaSD trueSD
result.1 10 0.089879211 1.528423e-02 0.091677622
result.2 30 0.052870477 4.629262e-03 0.051738941
result.3 50 0.040915607 2.705137e-03 0.040257673
result.4 100 0.029017031 1.407511e-03 0.028284458
result.5 500 0.012959582 2.750145e-04 0.013200580
result.6 1000 0.009139193 1.357630e-04 0.009115592
result.7 5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259
Simulei N
amostras da n
amostra dimensionada. Para cada n
amostra dimensionada, calculei a estimativa da estimativa padrão (função sdhm
). Em seguida, comparo a média e o desvio padrão dessas estimativas com o desvio padrão da amostra da média harmônica estimada para cada amostra, que supostamente deve ser o verdadeiro desvio padrão da média harmônica.
Como você pode ver, os resultados são muito bons, mesmo para tamanhos de amostra moderados. É claro que a distribuição uniforme é muito bem comportada, portanto, não surpreende que os resultados sejam bons. Vou deixar para outra pessoa investigar o comportamento de outras distribuições, o código é muito fácil de adaptar.
Nota: Na versão anterior desta resposta, ocorreu um erro no resultado do método delta, variação incorreta.
Minha resposta a uma pergunta relacionada aponta que a média harmônica de um conjunto de dados positivos é uma estimativa de mínimos quadrados ponderados (WLS) (com pesos ). Portanto, você pode calcular seu erro padrão usando os métodos WLS. Isso tem algumas vantagens, incluindo simplicidade, generalidade e interpretabilidade, além de ser produzido automaticamente por qualquer software estatístico que permita pesos em seu cálculo de regressão.
A principal desvantagem é que o cálculo não produz bons intervalos de confiança para distribuições subjacentes altamente distorcidas. Provavelmente, esse é um problema com qualquer método de uso geral: a média harmônica é sensível à presença de um único valor minúsculo no conjunto de dados.
Para ilustrar, aqui estão distribuições empíricas de amostras geradas independentemente, de tamanho partir de uma distribuição Gamma (5) (que é modestamente inclinada). As linhas azuis mostram a média harmônica verdadeira (igual a ), enquanto as linhas tracejadas vermelhas mostram as estimativas dos mínimos quadrados ponderados. As faixas cinzas verticais ao redor das linhas azuis são intervalos de confiança aproximados de 95% nos dois lados para a média harmônica. Nesse caso, em todas as amostras, o IC cobre a verdadeira média harmônica. Repetições desta simulação (com sementes aleatórias) sugerem que a cobertura é próxima da taxa de 95% pretendida, mesmo para esses pequenos conjuntos de dados.
Aqui está o R
código para a simulação e figuras.
k <- 5 # Gamma parameter
n <- 12 # Sample size
hm <- k-1 # True harmonic mean
set.seed(17)
t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
#
# Generate a random sample.
#
x <- rgamma(n, k)
#
# Estimate the harmonic mean.
#
fit <- lm(x ~ 1, weights=1/x)
beta <- coef(summary(fit))[1, ]
message("Harmonic mean estimate is ", signif(beta["Estimate"], 3),
" +/- ", signif(beta["Std. Error"], 3))
#
# Plot the results.
#
covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0,
beta["Estimate"] + t.crit*beta["Std. Error"], 1.25,
border=NA, col=gray(0.5, alpha=0.10))
abline(v = hm, col="Blue", lwd=2)
abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}
Aqui está um exemplo para r.v exponencial.
A média harmônica para pontos de dados é definida como
Suponha que você tenha amostras IID uma variável aleatória exponencial, . A soma de variáveis exponenciais segue uma distribuição gama
onde . Também sabemos que
A distribuição de é, portanto,
A variação (e desvio padrão) deste rv é bem conhecida, veja, por exemplo, aqui .
Há alguma preocupação de que a CLT das mpiktas requer uma variação limitada em . É verdade que tem rabos malucos quando tem densidade positiva em torno de zero. No entanto, em muitas aplicações usando a média harmônica, . Aqui, é limitado por , fornecendo todos os momentos que você deseja!
O que eu sugeriria é usar a fórmula a seguir como substituto do desvio padrão:
onde . O bom dessa fórmula é que ela é minimizada quando e possui as mesmas unidades que o desvio padrão teria (que são as mesmas unidades que possui). x=N x
Isso está em analogia com o desvio padrão, que é o valor que assume quando é minimizado em . É minimizado quando é a média: .xxx=μ=1