Escolhendo alternativas à regressão de Poisson para dados de contagem super-dispersos

Atualmente, estou analisando dados de uma série de experimentos comportamentais que usam a seguinte medida. Os participantes deste experimento são convidados a selecionar pistas que outras pessoas (fictícias) poderiam usar para ajudar a resolver uma série de 10 anagramas. Os participantes são levados a acreditar que essas outras pessoas ganharão ou perderão dinheiro, dependendo de seu desempenho na resolução dos anagramas. As pistas variam em como elas são úteis. Por exemplo, para o anagrama NUNGRIN, um anagrama de RUNNING, três pistas podem ser:

Movendo-se rapidamente (inútil)
O que você faz em uma corrida de maratona (útil)
Nem sempre é um hobby saudável (inútil)

Para formar a medida, conto o número de vezes (em 10) em que um participante escolhe uma pista inútil para a outra pessoa. Nas experiências, estou usando uma variedade de manipulações diferentes para afetar a utilidade das pistas que as pessoas selecionam.

Como a medida de utilidade / falta de ajuda é bastante fortemente inclinada positivamente (uma grande proporção de pessoas sempre escolhe as 10 pistas mais úteis) e porque a medida é uma variável de contagem, eu tenho usado um Modelo Linear Generalizado de Poisson para analisar esses dados. No entanto, quando li um pouco mais sobre a regressão de Poisson, descobri que, como a regressão de Poisson não estima independentemente a média e a variação de uma distribuição, geralmente subestima a variação em um conjunto de dados. Comecei a investigar alternativas à regressão de Poisson, como a regressão quase-pontual ou regressão binomial negativa. No entanto, admito que sou bastante novo nesse tipo de modelo, por isso estou aqui para pedir conselhos.

Alguém tem alguma recomendação sobre qual modelo usar para esse tipo de dados? Existem outras considerações das quais devo estar ciente (por exemplo, um modelo em particular é mais poderoso que outro?)? Que tipo de diagnóstico devo analisar para determinar se o modelo selecionado está manipulando meus dados de maneira adequada?

poisson-distribution count-data

— Patrick S. Forscher
fonte

Que tal um estimador robusto de variância / covariância para relaxar a suposição de que a variação é igual à média?

— boscovich 4/12/12

Como são dados de contagem e não negativos, o que dizer de quassi-poisson ou um modelo de regressão binomial negativo, que explica a dispersão?

— Arun

Pensei em usar um modelo binomial de quase-poisson ou negativo, mas o que não entendo é que tipo de diagonística olhar para garantir a mim mesmo que estou modelando meus dados adequadamente. Como existem várias alternativas (modelos de quase-poisson, binomial negativo e "zero-aumentado")), também estou me perguntando se existe uma boa maneira de escolher entre essas alternativas. Por exemplo, um método geralmente é mais poderoso que os outros?

— Patrick S. Forscher

Isso depende dos dados. Por que não encaixar todos eles nos seus dados (Poisson, binomial negativo, Poisson inflado a zero e binomial negativo, modelos de obstáculos para os envolvidos) e compará-los por exemplo, AIC ou BIC? Consulte cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf. Em seguida, escolha o mais adequado para seus dados. Você também pode usar modelos de quase-probabilidade, mas isso é uma questão de gosto, eu não gosto muito deles.

— Momo

Para verificar qual distribuição pode ser um bom modelo para sua resposta, você pode usar a função vcd :: distplot.

— Momo

Respostas:

Seu resultado é o número de pistas úteis em 10, que é uma variável aleatória binomial. Portanto, você deve analisá-lo com algum tipo de regressão binomial, provavelmente quase binomial, para permitir superdispersão. Observe que o Poisson e as distribuições binomiais negativas enganosamente nomeadas são adequadas para dados de contagem ilimitada.

— Aniko
fonte

Mencionei o binômio negativo porque é uma alternativa superdispersa ao Poisson que o posudo sugeriu inicialmente. Como cada respondente tem x / 10 pistas, pode ser binomial, mas para cada uma das 10 pistas existe uma probabilidade fixa pi para o i-ésimo respondente e as ocorrências são independentes. Esse pode ser o caso.

— Michael R. Chernick

o binômio beta é outra possibilidade (o binômio beta é binomial e o binômio negativo é para Poisson). betabinno aodpacote fará isso.

— Ben Bolker 5/05

Eu também recomendaria olhar para o binômio negativo se os possíveis resultados fossem infinitos, como no Poisson. Você pode consultar um dos livros de Joe Hilbe. Ele tem um no GEE e outro na regressão binomial negativa, que contrasta com a regressão de Poisson. Mas, como foi apontado por Aniko, existem apenas 10 pistas, de modo que cada respondente pode ter apenas 0, 1, 2, 3, ..., 10 e, portanto, nem Poisson nem exponencial negativo são apropriados.

— Michael R. Chernick
fonte

Bom ponto por @Aniko. Outra opção é a regressão beta. Havia um artigo com o título "A Better Lemon Squeezer" que dava muitas informações sobre esse método.

— Peter Flom - Restabelece Monica
fonte

Mas o beta seria usado para modelar uma proporção e não uma variável de contagem em um conjunto finito de números inteiros.

— Michael R. Chernick

Ele tem usos mais amplos, @ MichaelChernick, veja o artigo, o que é bastante bom.

— Peter Flom - Restabelece Monica

@PeterFlom Ele também não pode manipular dados no intervalo [0,1], apenas (0,1).

— colin