Teste do qui-quadrado para igualdade de distribuições: quantos zeros ela tolera?

Estou comparando dois grupos de mutantes, cada um dos quais pode ter apenas um dentre 21 fenótipos diferentes. Eu gostaria de ver se a distribuição desses resultados é semelhante entre dois grupos. Encontrei um teste on - line que calcula o " teste do qui-quadrado para igualdade de distribuições" e me fornece alguns resultados plausíveis. No entanto, tenho alguns zeros nesta tabela, então posso usar o qui-quadrado nesse caso?

Aqui está a tabela com dois grupos e contagens de fenótipos específicos:

distributions chi-squared contingency-tables

— Membrana
fonte

A tabela não saiu bem. Todo número ímpar é uma contagem do grupo 1 e todo número par é a respectiva contagem do grupo 2

— Membran

Reformatei sua pergunta. A tabela está correta agora?

— csgillespie

Respostas:

Hoje em dia é perfeitamente possível fazer o teste "exato" de Fisher em uma mesa dessas. Acabei de obter p = 0,087 usando Stata ( tabi 2 1 \ 2 3 \ .... , exact. A execução levou 0,19 segundos).

EDITAR após o comentário de chl abaixo (tentou adicionar como comentário, mas não pode formatar):

Ele funciona no R 2.12.0 para mim, embora eu tenha que aumentar a opção 'espaço de trabalho' sobre seu valor padrão de 200000:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(O tempo de execução é um pouco mais rápido do que no Stata, mas isso é de relevância duvidosa, dado o tempo necessário para entender o significado da mensagem de erro, que usa 'espaço de trabalho' para significar algo diferente do significado usual de R, apesar do fato de que fisher.test faz parte do pacote principal de 'estatísticas' de R.)

— uma parada
fonte

Interessante, o teste de Fisher caiu em R.

— chl

Não é possível votar mais, desculpe. Parece que eu não tinha aumentar o suficiente Wksp :)

— chl

Não é que o teste "exato" de Fisher realmente atenda a uma questão um pouco diferente: "... é usado para examinar o significado da associação (contingência) entre os dois tipos de classificação" (página da wiki). No meu caso, procurei confirmar (ou refutar) a hipótese de que as distribuições de fenótipos entre dois grupos são semelhantes (iguais). Quando descobri que teste online (veja o primeiro post) chamado "teste do qui-quadrado de igualdade de distribuições" Eu pensei que era precisamente para o meu problema ...

— Membran

Além disso, se você acha que a versão mencionada do teste de Fisher é boa para comparar duas distribuições, ela também pode ser usada para verificar a uniformidade da distribuição (ou seja, dizer que fenótipos dentro de um grupo foram distribuídos de maneira não uniforme entre um número finito de fenótipos possíveis) ? Pode-se fazer isso mesmo no Excel usando a função CHITEST, mas e se eu tiver uma distribuição semelhante à acima, com muitos fenótipos observados menos de 5 vezes?

— quer

@Membrana 1: É uma questão um pouco diferente das condições exatas de teste de Fisher em ambos os conjuntos de totais marginais. Isso me parece uma espécie de estatística estatística acadêmica, e eu sou estatístico na academia. (BTW, você poderia esclarecer a qual wiki você se refere?) @Membrana nº 2: eu não chamaria o teste exato condicional de "teste exato de Fisher" no caso de uma tabela unidirecional, mas esse teste deve ser possível. teria pensado mais diretamente em tabelas unidirecionais, mas atualmente não consigo encontrar software para ajudar e não tenho tempo para realizar o cálculo sem.

— onestop 28/10/10

As diretrizes usuais são que as contagens esperadas devem ser maiores que 5, mas podem ser um pouco mais relaxadas, conforme discutido no seguinte artigo:

Testes de Campbell, I, Qui-quadrado e Fisher – Irwin de tabelas dois a dois com recomendações de pequenas amostras , Statistics in Medicine (2007) 26 (19): 3661–3675.

Veja também a página inicial de Ian Campbell .

Observe que em R, sempre existe a possibilidade de calcular o valor por uma abordagem de Monte Carlo ( ), em vez de confiar na distribuição assintótica. $p$ chisq.test(..., sim=TRUE)

No seu caso, parece que cerca de 80% das contagens esperadas estão abaixo de 5 e 40% estão abaixo de 1. faria sentido agregar alguns dos fenótipos observados?

— chl
fonte

Obrigado por sugestões. Logicamente, não é possível mesclar fenótipos, pois cada um deles é uma combinação única de três parâmetros registrados. Como cada um desses parâmetros pode "subir", "descer" ou permanecer "inalterado" como resultado de uma mutação, pode haver 3 ^ 3 = 27 fenótipos distintos. No exemplo acima, removi os fenótipos para os quais os dois grupos marcaram "0", então havia apenas 21 deles. Eu vejo a prevalência de certos fenótipos, mas eu gostaria de ter alguma prova estatística de que a distribuição de tais fenótipos em vários grupos de mutantes é semelhante (ou não). Obrigado!

— Membran

A @Membran Aggregation não precisa ser significativa: você é livre para combinar caixas da maneira que quiser. Um problema sutil, porém, é que a agregação pós-fato põe em dúvida os valores-p; a agregação deve ser independente dos dados.

— whuber