Posso usar um escore Z com dados distorcidos e fora do normal? [fechadas]


12

Eu tenho trabalhado com alguns dados de tempo de ciclo do processo e dimensionamento usando o z-score padrão para comparar entre partes do tempo total do ciclo.

Devo usar alguma outra transformação, já que os dados estão fortemente inclinados à direita / fora do normal? ('outliers' nunca podem levar tempo negativo e muitas vezes demoram muito mais que 'mediano')

Usar o z-score ainda parece "funcionar" ...

###############
# R code    
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))

5
zz

Respostas:


5

Se X for altamente inclinado, a estatística Z não será normalmente distribuída (ou t se o desvio padrão precisar ser estimado. Portanto, os percentis de Z não serão o padrão normal. Portanto, nesse sentido, não funcionará.


Pelo meu entendimento, X sendo altamente inclinado significa que o tamanho da amostra não era grande o suficiente (teorema do limite central). No entanto, não tenho certeza, se a própria população precisa ser normal, para que a estatística Z funcione. Faz isso?
Andrzej Gis

1
O OP está falando sobre a distribuição da população e não sobre a distribuição da média. Portanto, o tamanho da amostra e o teorema do limite central não se aplicam.
Michael R. Chernick 23/02

2

O código R funcionará, mas o escore z será tão significativo quanto a frase "As uvas estão ligando para a caneta-tinteiro levemente". É uma frase válida, mas não transmite nada de significativo.

A julgar pelo seu código R, parece que você acha que seus dados são Weibull distribuídos. Nesse caso, eu usaria a estatística Weibull e não escalaria nada, a menos que você precise. Embora z-scores sejam ensinados em todas as aulas de estatística de introdução, isso não significa que você deva usá-los o tempo todo, principalmente se você não tiver dados simétricos.


1

Se a população não for normalmente distribuída. Nesse caso, a distribuição da barra (X) {média da amostra} se aproxima de uma distribuição normal conforme o teorema do limite central; para tamanho de amostra grande. Embora teoricamente digamos que estamos usando Student-t, mas para valores mais altos de n (tamanho da amostra ou grau de liberdade), a distribuição t e a distribuição Z são quase iguais.


-4

SEUS DADOS NÃO SÃO NORMAIS PARA UM TESTE Z. (TOWNEND, 2002) No entanto, as variedades devem ser aproximadamente iguais. PARA VERIFICAR QUE REALIZAM UM F-TEST EM SEUS DATASETS, E SE SUAS VARIEDADES SÃO APROXIMADAMENTE IGUAIS, O RESULTADO DO TESTE Z É ÚTIL. Caso contrário, transfira os dados.


9
A questão é sobre a transformação de uma variável, não um teste, então não acho que sua resposta se aplique. Além disso, é provavelmente mais informativo se você fornecer a referência completa em vez de apenas uma referência do ano-nome e algumas pessoas se oporem a SHOUTING.
Maarten Buis

Eu concordo com @MaartenBuis, mas ao contrário dele, vou votar contra isso.
Erik
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.