Shapiro – Wilk “invertido”


11

O teste de Sharipo-Wilk, de acordo com a wikipedia , testa a hipótese nula ( ) "A população é normalmente distribuída".H0

Estou procurando um teste de normalidade semelhante com "A população não é normalmente distribuída".H0

Tendo esse teste, desejo calcular um valor- para rejeitar no nível de significância iff ; provando que minha população é normalmente distribuída.H 0 α p < αpH0αp<α

Observe que o uso do teste Sharipo-Wilk e a aceitação de iff é uma abordagem incorreta, pois significa literalmente "não temos evidências suficientes para provar que H0 não é válido". p > αH0p>α

Tópicos relacionados - significado do valor-p , o teste de normalidade é inútil? , mas não consigo encontrar uma solução para o meu problema.

As perguntas: Qual teste devo usar? É implementado em R?


6
Uma hipótese nula de "normalmente não distribuída" não é utilizável. Esse espaço incluiria todas as distribuições arbitrariamente próximas, mas não exatamente, das distribuições normais. Você me fornece um conjunto finito de dados. Eu seleciono a distribuição empírica, que não é normal e, portanto, pertence ao espaço nulo. Não é possível rejeitar.
A. Webb

5
Esta pergunta, que é a mesma que a anterior, pede o impossível. Uma resposta adequada explicaria como funcionam os testes estatísticos de hipóteses, e foi por isso que indiquei stats.stackexchange.com/questions/31 em um comentário à sua outra pergunta.
whuber

5
Enquanto uma hipótese nula "normalmente não distribuída" é impossível, uma hipótese nula "é distribuída com valores absolutos da estatística normal de qualidade de ajuste que é pelo menos tão diferente quanto " ao longo das linhas de um teste de equivalência parece razoável. Em outras palavras, é preciso ser capaz de testar contra um nulo de "não-normal em pelo menos esse valor ". @gung sugeriu precisamente isso em sua resposta. ε
Alexis

Respostas:


10

Não existe um teste para que seus dados sejam normalmente distribuídos. Existem apenas testes para que seus dados não sejam normalmente distribuídos. Portanto, existem testes como o Shapiro-Wilk, onde (existem muitos outros), mas não há testes onde o nulo é que a população não é normal e a hipótese alternativa é que a população é normal. H0:normal

Tudo o que você pode fazer é descobrir que tipo de desvio da normalidade você se preocupa (por exemplo, assimetria) e qual o tamanho que esse desvio teria que ser antes que o incomodasse. Em seguida, você pode testar para ver se o desvio da normalidade perfeita em seus dados foi menor que o valor crítico. Para obter mais informações sobre a idéia geral, pode ser útil ler minha resposta aqui: Por que os estatísticos dizem que um resultado não significativo significa "você não pode rejeitar o nulo" em vez de aceitar a hipótese nula?


5

Eu quero calcular um valor p para rejeitar H0 no nível de significância α iff p <α; provando que minha população é normalmente distribuída.

A distribuição normal surge quando os dados são gerados por uma série de eventos aditivos do iid (veja a imagem do quincunx abaixo). Isso significa que não há feedbacks nem correlações, isso soa como o processo que conduz seus dados? Caso contrário, provavelmente não é normal.

Existe a chance de esse tipo de processo estar ocorrendo no seu caso. O mais próximo que você pode "provar" é coletar dados suficientes para descartar outras distribuições que as pessoas possam criar (o que provavelmente não é prático). Outra maneira é deduzir a distribuição normal de alguma teoria junto com outras previsões. Se os dados forem consistentes com todos eles e ninguém puder pensar em outra explicação, isso seria uma boa evidência a favor da distribuição normal.

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png https://en.wikipedia.org/wiki/Bean_machine

Agora, se você não espera uma distribuição específica a priori, ainda pode ser razoável usar a distribuição normal para resumir os dados, mas reconheça que essa é essencialmente uma opção por ignorância ( https://en.wikipedia.org/wiki/ Princípio_de_maxima_entropia ). Nesse caso, você não deseja saber se a população está normalmente distribuída, mas quer saber se a distribuição normal é uma aproximação razoável para qualquer que seja seu próximo passo.

Nesse caso, você deve fornecer seus dados (ou dados gerados semelhantes), juntamente com uma descrição do que planeja fazer com eles, e perguntar "De que maneira a suposição de normalidade nesse caso pode me enganar?"


Na verdade, eu sei que os dados são normais (medição independente em computadores independentes), no entanto eu preciso fazer alguma suposição para a minha tese .. obrigado por esclarecimentos e exemplo :)
petrbel

1
Aliás, Krieger forneceu uma crítica adorável dos usos do Quincunx de Galton em Krieger, N. (2012). Quem e o que é uma "população"? debates históricos, controvérsias atuais e implicações para a compreensão da “saúde da população” e para a correção das iniquidades em saúde. The Milbank Quarterly , 90 (4): 634–681.
Alexis

@petrbel Essa situação é sutilmente diferente da descrita acima. Você pode criar um quincunce em que cada observação é iid, mas o processo que gera os dados não é. Veja aqui um exemplo log-normal: LIMPERT et al. Distribuições normais de log nas ciências: chaves e pistas. Maio de 2001 / vol. 51 No. 5. BioScience.
Livid

1
@ Alexis Vejo que Krieger (2012) reproduz a figura de Limpert et al. (2001) e defende o argumento ignorado por petrbel: "alterar a estrutura pode alterar as probabilidades de resultado, mesmo para objetos idênticos, criando assim diferentes distribuições populacionais".
Livid

2

Você nunca poderá "provar" uma suposição de Normalidade em seus dados. Apenas ofereça evidências contra isso como uma suposição. O teste Shapiro-Wilk é uma maneira de fazer isso e é usado o tempo todo para justificar a suposição de Normalidade. O raciocínio é que você começa assumindo Normalidade. Você então pergunta: meus dados sugerem que estou fazendo uma suposição boba? Então vá em frente e teste com Shapiro-Wilk. Se você não rejeitar a hipótese nula, os dados não sugerem que você esteja fazendo uma suposição boba.

Y,X


Essa prática que você descreve é ​​exatamente a abordagem incorreta mencionada pela petrbel. Os testes geralmente são consistentes; portanto, quanto maior o tamanho da amostra, maior a probabilidade de declarar a normalidade como uma idéia tola. Isso por si só é tolo, porque com tamanhos de amostra maiores, a suposição de normalidade é menos crítica devido à robustez assintótica da maioria dos procedimentos.
Horst Grünbusch

@ HorstGrünbusch Você não concorda que o teste Shapiro-Wilk é uma maneira válida de testar a suposição de que os dados são normais?
TrynnaDoStat

Se você concorda que é uma abordagem válida, não tenho certeza do que você discorda na minha resposta.
TrynnaDoStat

2α

@ HorstGrünbusch Parece que seu problema com a minha resposta tem a ver com a ideia de testar hipóteses em geral. Especificamente, o fato de que em muitas situações os testes de hipóteses rejeitarão o nulo com probabilidade 1 à medida que o tamanho da amostra se aproxima do infinito.
TrynnaDoStat
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.