Certamente a média mais um dp pode exceder a maior observação.
Considere a amostra 1, 5, 5, 5 -
tem média 4 e desvio padrão 2, então a média + dp é 6, um a mais que o máximo da amostra. Aqui está o cálculo em R:
> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6
É uma ocorrência comum. Tende a acontecer quando há um monte de valores altos e uma cauda para a esquerda (ou seja, quando há uma forte inclinação da esquerda e um pico próximo ao máximo).
-
A mesma possibilidade se aplica às distribuições de probabilidade, não apenas às amostras - a média da população mais a população sd podem facilmente exceder o valor máximo possível.
Aqui está um exemplo de uma densidade, que tem um valor máximo possível de 1:beta ( 10 , 12)
Nesse caso, podemos olhar a página da Wikipedia para a distribuição beta, que afirma que a média é:
E[ X] = αα + β
e a variação é:
var[ X] = α β( α + β)2( α + β+ 1 )
(Embora não precisemos confiar na Wikipedia, pois é muito fácil derivar.)
Assim, para e β = 1α = 10 temos média≈0,9523e sd≈0,0628, então média + sd≈1,0152, mais que o máximo possível de 1.β= 12≈ 0,9523≈ 0,0628≈ 1.0152
Ou seja, é facilmente possível ter um valor médio + sd que não possa ser observado como um valor de dados .
-
Para qualquer situação em que o modo estava no máximo, a assimetria do modo Pearson precisa ser apenas para a média + sd exceder o máximo. Pode levar qualquer valor, positivo ou negativo, para que possamos ver que é facilmente possível.<−1
-
Uma questão intimamente relacionada é frequentemente vista com intervalos de confiança para uma proporção binomial , onde um intervalo comumente usado, o intervalo de aproximação normal pode produzir limites fora de .[ 0 , 1 ]
Por exemplo, considere um intervalo de aproximação normal de 95,4% para a proporção populacional de sucessos nos ensaios de Bernoulli (os resultados são 1 ou 0 representando eventos de sucesso e falha respectivamente), onde 3 de 4 observações são " " e uma observação é " 0 ".10 0
Em seguida, o limite superior para o intervalo é de p + 2 × √p^+ 2 × 14p^( 1 - p^)---------√= p^+ p^( 1 - p^)-------√= 0,75 + 0,433 = 1,183
Esta é apenas a média da amostra + a estimativa usual do sd para o binômio ... e produz um valor impossível.
A SD amostra habitual para 0,1,1,1 é 0,5 em vez de 0,433 (eles diferem porque a estimativa ML binomial do desvio padrão p ( 1 - P ) corresponde a dividir a variância por N , em vez de N - 1 ) . Mas isso não faz diferença - em ambos os casos, a média + sd excede a maior proporção possível.p^( 1 - p^)nn - 1
Esse fato - que um intervalo de aproximação normal para o binômio pode produzir "valores impossíveis" é freqüentemente observado em livros e jornais. No entanto, você não está lidando com dados binomiais. No entanto, o problema - que significa + algum número de desvios padrão não é um valor possível - é análogo.
-
No seu caso, o valor "0" incomum em sua amostra está tornando o sd maior mais do que diminui a média, e é por isso que a média + sd é alta.
-
(Em vez disso, a pergunta seria - por que raciocínio seria impossível? - porque, sem saber por que alguém pensaria que há algum problema, a que abordamos?)
Logicamente, é claro que se demonstra que é possível, dando um exemplo de onde isso acontece. Você já fez isso. Na ausência de uma razão declarada, por que deveria ser de outra forma, o que você deve fazer?
Se um exemplo não for suficiente, que prova seria aceitável?
Não há realmente sentido em simplesmente apontar para uma afirmação em um livro, pois qualquer livro pode fazer uma afirmação por engano - eu as vejo o tempo todo. É preciso confiar na demonstração direta de que é possível, seja uma prova em álgebra (pode ser construída a partir do exemplo beta acima, por exemplo *) ou por exemplo numérico (que você já forneceu), do qual qualquer um pode examinar a verdade por si próprio .
* whuber fornece as condições precisas para o caso beta nos comentários.