Verificando suposições da ANOVA


16

Há alguns meses, publiquei uma pergunta sobre testes de homoscedasticidade no R on SO, e Ian Fellows respondeu isso (vou parafrasear sua resposta muito livremente):

Os testes de homocedasticidade não são uma boa ferramenta ao testar a qualidade do ajuste do seu modelo. Com amostras pequenas, você não tem poder suficiente para detectar desvios da homoscedasticidade, enquanto que com amostras grandes você tem "bastante poder", é mais provável que você descubra até desvios triviais da igualdade.

Sua grande resposta veio como um tapa na minha cara. Eu costumava verificar suposições de normalidade e homoscedasticidade cada vez que executava a ANOVA.

Na sua opinião, qual é a melhor prática ao verificar as suposições da ANOVA?

Respostas:


11

Nas configurações aplicadas, normalmente é mais importante saber se alguma violação das suposições é problemática por inferência.

Testes de suposição baseados em testes de significância raramente interessam a amostras grandes, porque a maioria dos testes inferenciais é robusta a violações leves de suposições.

Uma das características interessantes das avaliações gráficas de suposições é que elas concentram a atenção no grau de violação e não na significância estatística de qualquer violação.

No entanto, também é possível focar em resumos numéricos de seus dados que quantificam o grau de violação de suposições e não a significância estatística (por exemplo, valores de assimetria, valores de curtose, razão da maior para a menor variação de grupo etc.). Você também pode obter erros padrão ou intervalos de confiança nesses valores, que ficarão menores com amostras maiores. Essa perspectiva é consistente com a idéia geral de que a significância estatística não é equivalente à importância prática.


1
+1 para a ótima resposta que envolve tudo. Como aplicar os procedimentos numéricos mencionados é descrito de maneira adequada e aplicável em Usando estatísticas multivariadas de Tabachnik e Fidell (para SPSS e SAS): amazon.com/Using-Multivariate-Statistics-Barbara-Tabachnick/dp/… (mas veja as Erratas no página da web acompanhada)
Henrik

Bem, acho que na maioria das vezes resumos como assimetria e curtose têm pouco valor, sua variação amostral é muito grande. Pode-se considerar substituí-los por L_skewness e L-kurtosis, no entanto.
Kjetil b halvorsen 11/03/16

@kjetilbhalvorsen Acho que depende de que tipo de tamanho de amostra você costuma trabalhar. Na minha experiência, gráficos de gráficos e assimetria são muito úteis para entender a distribuição dos dados.
Jeromy Anglim

Jeremy Anglim: OK. Então eu acho que você geralmente tem tamanhos de amostra muito grandes! Você tentou inicializar seus coeficientes de assimetria / curtose?
Kjetil b halvorsen 11/03/16

9

Alguns gráficos serão geralmente muito mais esclarecedores do que o valor de p de um teste de normalidade ou homocedasticidade. Traçar as variáveis ​​dependentes observadas em relação às variáveis ​​independentes. Plote observações contra ajustes. Traçar resíduos contra variáveis ​​independentes. Investigue qualquer coisa que pareça estranha nessas parcelas. Se algo não parece estranho, eu não me preocuparia com um teste significativo de uma suposição.


Um bom conselho na maioria das vezes, mas e o caso de grandes conjuntos de dados, nos quais você não pode analisar todos os dados de maneira manual?
precisa

1
n1n2<ασ2

2
@dsimcha re grandes conjuntos de dados: depende do que você quer dizer com "grande". Muitas observações? Use bons gráficos (boxplot, parcelas tremidas e pontilhadas). Muitas variáveis ​​independentes? Sim, você tem razão aí ... Mas se você tem tantos IVs que não consegue plotar o DV em cada IV, eu questionaria usando uma ANOVA - parece que pode ser difícil de interpretar em qualquer caso. Algumas abordagens inteligentes de aprendizado de máquina podem ser melhores (Brian D. Ripley: "Parafraseando provocativamente, 'aprendizado de máquina é estatística menos qualquer verificação de modelos e suposições'.")
S. Kolassa - Restabelece Monica

Bom comentário, +1. Embora essa pergunta específica seja sobre ANOVA, eu estava pensando em um nível mais geral sobre a questão de gráficos versus testes quando escrevi minha resposta.
precisa saber é o seguinte

4

Existem alguns guias da web muito bons para verificar as suposições da ANOVA e o que fazer se falhar. Aqui está um. Este é outro.

Essencialmente, seu olho é o melhor juiz, assim como algumas análises exploratórias de dados . Isso significa plotar os dados - histogramas e gráficos de caixa são uma boa maneira de avaliar a normalidade e a homossexualidade. E lembre-se de que a ANOVA é robusta a pequenas violações dessas.


4

Os gráficos QQ são boas maneiras de detectar a não normalidade.

Para homocedasticidade, tente o teste de Levene ou um teste de Brown-Forsythe. Ambos são semelhantes, embora o BF seja um pouco mais robusto. Eles são menos sensíveis à não normalidade do que o teste de Bartlett, mas, mesmo assim, achei que eles não eram os mais confiáveis ​​com amostras pequenas.

Gráfico QQ

Teste de Brown-Forsythe

Teste de Levene


Gráficos de distribuição relativa (ou exemplo, comparando com a distribuição normal) podem ser um bom substituto, uma vez que sua interpretação pode ser mais clara para iniciantes.
b Kjetil Halvorsen

3

Concordo com os outros que o teste de significância para suposições é problemático.

Gosto de lidar com esse problema criando um único gráfico que expõe todas as premissas do modelo necessárias para ter um erro preciso do tipo I e um baixo erro do tipo II (alta potência). Para o caso da ANOVA com 2 grupos (teste t de duas amostras), esse gráfico é o inverso normal da função de distribuição cumulativa empírica (ECDF) estratificada por grupo (consulte o comentário do gráfico de QQ em um post anterior). Para que o teste t tenha bom desempenho, as duas curvas precisam ser retas paralelas. Para okexemplo de ANOVA em geral, você teria k linhas retas paralelas.

Métodos semi-paramétricos (classificação), como os testes de Wilcoxon e Kruskal-Wallis, fazem muito menos suposições. O logit do ECDF deve ser paralelo para que os testes de Wilcoxon-Kruskal-Wallis tenham potência máxima (o erro tipo I nunca é um problema para eles). Linearidade não é necessária. Os testes de classificação fazem suposições sobre como as distribuições de diferentes grupos estão relacionadas a outras, mas não fazem suposições sobre o formato de qualquer distribuição.


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.