Tabelas de contingência: quais testes fazer e quando?

Eu gostaria de ver uma extensão dessa discussão do qui-quadrado antigo versus o debate exato dos testes de Fisher, ampliando um pouco o escopo. Existem muitos testes para interações em uma tabela de contingência, o suficiente para fazer minha cabeça girar. Espero obter uma explicação sobre qual teste devo usar e quando e, é claro, uma explicação sobre por que um teste deve ser preferido em detrimento de outro.

Meu problema atual é o caso clássico , mas respostas sobre dimensionalidade mais alta são bem-vindas, assim como dicas para implementar as várias soluções em R, pelo menos nos casos em que não é óbvio como proceder. $n \times m$

Abaixo, listei todos os testes que eu conheço; Espero que, expondo meus erros, eles possam ser corrigidos.

$\chi^2$ . A velha espera. Existem três opções principais aqui:
- A correção incorporada no R para tabelas 2x2: "metade é subtraída de todas as diferenças ". Eu deveria sempre estar fazendo isso? $|O-E|$
- Teste " " , não sei como fazer isso em R. $N-1$ $\chi^2$
- Simulação de Monte Carlo. Isso é sempre melhor? Por que R não me dá df quando faço isso?
Teste exato de Fisher .
- Tradicionalmente recomendado quando se espera que qualquer célula seja <4, mas aparentemente alguns contestam esse conselho.
- A suposição (geralmente falsa) de que os marginais são corrigidos é realmente o maior problema com este teste?
Teste exato de Barnard
- Outro teste exato, exceto que eu nunca ouvi falar disso.
Regressão de Poisson
- Uma coisa que sempre me confunde sobre glms é exatamente como fazer esses testes de significância, para que a ajuda seja apreciada. É melhor fazer uma comparação de modelos aninhados? Que tal um teste de Wald para um determinado preditor?
- Eu realmente deveria estar sempre fazendo regressão de Poisson? Qual é a diferença prática entre este e um ? $\chi^2$

r chi-squared contingency-tables

— JVMcDonnell
fonte

Respostas:

Esta é uma boa pergunta, mas grande. Acho que não posso dar uma resposta completa, mas vou jogar um pouco de comida para pensar.

Primeiro, no ponto principal, a correção a que você está se referindo é conhecida como correção de continuidade de Yates . O problema é que calculamos uma estatística inferencial discreta : (É discreta porque, com apenas um número finito de instâncias representadas em uma tabela de contingência, existe são um número finito de valores possíveis realizados que esta estatística pode assumir.) Não obstante este facto, ele é comparado com um contínuo de distribuição de referência ( viz. , o distribuição com graus de liberdade

χ^{2} = \sum \frac{(O - E)^{2}}{E}

$\chi^2=\sum\frac{(O-E)^2}{E}$

χ^{2}

$\chi^2$

(r - 1) (c - 1)

$(r-1)(c-1)$ ) Isso necessariamente leva a uma incompatibilidade em algum nível. Com um conjunto de dados particularmente pequeno e se algumas células tiverem valores esperados menores que 5, é possível que o valor p seja muito pequeno. A correção de Yates se ajusta para isso.

Ironicamente, o mesmo problema subjacente (incompatibilidade discreta-contínua) pode levar a valores-p muito altos . Especificamente, o valor p é convencionalmente definido como a probabilidade de obter dados tão extremos ou maisque os dados observados. Com dados contínuos, entende-se que a probabilidade de obter qualquer valor exato é muito pequena e, portanto, temos realmente a probabilidade de dados mais extremos. No entanto, com dados discretos, há uma probabilidade finita de obter dados como o seu. Calcular apenas a probabilidade de obter dados mais extremos que o seu gera valores p nominais muito baixos (levando a um aumento de erros do tipo I), mas incluir a probabilidade de obter dados iguais aos seus gera valores p nominais muito altos (o que levaria ao aumento de erros do tipo II). Esses fatos levam à ideia do valor p médio . Sob essa abordagem, o valor-p é a probabilidade de dados mais extremos que os seus, mais a metade a probabilidade dos dados é igual à sua.

Como você aponta, há muitas possibilidades para testar dados da tabela de contingência. O tratamento mais abrangente dos prós e contras das várias abordagens está aqui . Esse documento é específico para tabelas 2x2, mas você ainda pode aprender muito sobre as opções para dados da tabela de contingência lendo-os.

Também acho que vale a pena considerar os modelos com seriedade. Testes mais antigos, como o qui-quadrado, são rápidos, fáceis e compreendidos por muitas pessoas, mas não o deixam com uma compreensão mais abrangente de seus dados da construção de um modelo apropriado. Se for razoável pensar nas linhas [colunas] da sua tabela de contingência como uma variável de resposta e nas colunas [linhas] como uma variável explicativa / preditora, uma abordagem de modelagem segue com bastante facilidade. Por exemplo, se você tivesse apenas duas linhas, poderá criar um modelo de regressão logística ; se houver várias colunas, você poderá usar a codificação de célula de referência (codificação fictícia) para criar um modelo do tipo ANOVA. Por outro lado, se você tiver mais de duas linhas, a regressão logística multinomialpode ser usado da mesma maneira. Se suas linhas tiverem uma ordem intrínseca, a regressão logística ordinal produziria desempenho superior ao multinomial. O modelo log-linear (regressão de Poisson) é provavelmente menos relevante, a menos que você possua tabelas de contingência com mais de duas dimensões, na minha opinião.

Para um tratamento abrangente de tópicos como esses, as melhores fontes são os livros de Agresti: seu tratamento em larga escala (mais rigoroso), seu livro de introdução (mais fácil, mas ainda abrangente e muito bom), ou possivelmente também seu livro ordinal .

Atualização: Apenas para completar a lista de testes possíveis, ocorre-me que podemos adicionar o teste da razão de verossimilhança (geralmente chamado de ' '). É: Isso também é distribuído como um qui-quadrado e quase sempre produz a mesma decisão. Os valores realizados das duas estatísticas normalmente serão semelhantes, mas um pouco diferentes. A questão sobre qual será mais poderosa em uma dada situação é bastante sutil. Acho que é a escolha padrão por tradição em alguns campos. Eu não defendo necessariamente seu uso sobre o teste tradicional; Só estou listando isso por completo, como eu digo. $G^2\text{-test}$

G^{2} = \sum O \cdot ln (\frac{O}{E})

$G^2=\sum O\cdot\text{ln}\left(\frac{O}{E}\right)$

— - Reinstate Monica
fonte

Essa foi uma ótima explicação para o problema subjacente, obrigado! Também me disseram no passado que o texto de Agresti é um ótimo recurso, então eu vou dar uma olhada.

— JVMcDonnell

Tentarei abordar algumas de suas perguntas da melhor maneira possível, da minha perspectiva. Primeiro, o teste de Fisher-Irwin é apenas outro nome para o teste exato de Fisher. Exceto pelo fato de que às vezes é computacionalmente intenso, geralmente prefiro usar o teste de Fisher. Se houver algum problema com este teste, ele estará condicionando os totais marginais. A beleza do teste é que, sob a hipótese nula, o conjunto de tabelas de contingência com os mesmos totais marginais da tabela observada tem uma distribuição hipergeométrica. Algumas pessoas argumentam que não vêem a justificativa para restringir a consideração a tabelas com os mesmos totais marginais.

O teste do qui-quadrado de Pearson é muito comumente usado para testar a associação em tabelas de contingência. Como muitos outros testes, é aproximado e, portanto, o nível de significância nem sempre é preciso. Cochran mostrou que em amostras pequenas quando algumas células são muito esparsas (por exemplo, contendo menos de 5 casos em algumas células), a aproximação será ruim.

Existem muitos outros testes aproximados. Normalmente, ao aplicar o teste de Fisher usando SAS, obtenho os resultados de todos esses testes e eles geralmente fornecem quase os mesmos resultados. Mas o teste de Fisher é sempre exato, dependendo dos totais marginais.

Em relação à regressão de Poisson, esse é um modelo que relaciona as variáveis categóricas aos totais das células. Como qualquer modelo, isso depende de um conjunto de suposições. O mais importante é que as contagens de células sigam uma distribuição de Poisson, o que significa que o número médio de contagens é igual à sua variância. Isso geralmente não é verdade para distribuições de contagem de células. No caso de sobredispersão (variação maior que a média), um modelo binomial negativo pode ser mais apropriado.

— Michael R. Chernick
fonte

"O teste de Fisher-Irwin é apenas outro nome para o teste exato de Fisher" ... ah, isso torna esse comentário menos confuso para mim, obrigado!

— JVMcDonnell

Sua resposta realmente não reduziu minha confusão sobre quando fazer essas coisas. Acho que uma das coisas que eu esperava ouvir era até que ponto os problemas com o chi ^ 2 são solucionáveis por simulação ou correções de monte carlo, etc; ou até que ponto ele pode ser substituído por glms. Então, vou deixar isso em aberto um pouco para ver se consigo mais mordidas. Mas se ninguém pesar depois de um tempo, aceito sua resposta.

— JVMcDonnell

Para Fisher e Qui-quadrado, acho que disse quando você pode usar o qui-quadrado. Se você aceita a ideia de Fisher de que deve sempre condicionar os totais marginais, o teste de Fisher é sempre aplicável. Mas se você não aceitar, acho que teria que fazer um teste incondicional. Quanto à outra bateria de testes disponíveis, não sei nada sobre suas propriedades e, portanto, não posso aconselhá-lo quando usá-las. Experiência de formulário Já vi casos em que isso importava porque o resultado geralmente está em acordo.

— Michael R. Chernick

É realmente verdade que Fisher pensou que "você deve sempre condicionar os totais marginais"? Essa suposição é válida apenas quando os totais marginais são fixos. No exemplo do chá de degustação de damas, a senhora sabe que 5 são os primeiros a leite e 5 são os últimos a leite. Mas é mais comum em experimentos que não haja força para impor os marginais. Considere o caso de jogar duas moedas 10 vezes cada. Quando 5 cabeças rolam, a moeda não começa a dar coroa para preservar os marginais. Nesses casos, foi documentado que o Fisher é altamente conservador. É por isso que estou interessado nas alternativas.

— JVMcDonnell

Sim. Entendo que Fisher acreditasse na escolha de distribuições de referência que usem informações dos dados fornecidos. Portanto, ele pensaria que, não importa como os totais mariginais aparecessem nos seus dados observados, ele deveria ser comparado apenas aos dados que teriam acontecido sob a hipótese nula que seguiu as restrições nos dados, ou seja, os totais marginais dados. Como em outras idéias que Fisher tinha, isso era controverso.

— Michael R. Chernick