Quais são os pressupostos da regressão binomial negativa?

30

Estou trabalhando com um grande conjunto de dados (confidencial, portanto não posso compartilhar muito) e concluí que seria necessária uma regressão binomial negativa. Eu nunca fiz uma regressão glm antes e não consigo encontrar nenhuma informação clara sobre quais são as suposições. Eles são iguais para a MLR?

Posso transformar as variáveis da mesma maneira (eu já descobri que transformar a variável dependente é uma chamada ruim, pois precisa ser um número natural)? Eu já determinei que a distribuição binomial negativa ajudaria com a super dispersão nos meus dados (a variação é por volta de 2000, a média é 48).

Obrigado pela ajuda!!

— Carly
fonte

42

Estou trabalhando com um grande conjunto de dados (confidencial, então não posso compartilhar muito),

Pode ser possível criar um pequeno conjunto de dados que possua algumas das características gerais dos dados reais sem os nomes das variáveis nem nenhum dos valores reais.

e chegou à conclusão de que seria necessária uma regressão binomial negativa. Eu nunca fiz uma regressão glm antes e não consigo encontrar nenhuma informação clara sobre quais são as suposições. Eles são iguais para a MLR?

Claramente não! Você já sabe que está assumindo que a resposta é binomial condicionalmente negativa, não condicionalmente normal. ( Algumas suposições são compartilhadas. Independência, por exemplo.)

Deixe-me falar sobre GLMs mais geralmente primeiro.

Os GLMs incluem regressão múltipla, mas generalizam de várias maneiras:

1) a distribuição condicional da resposta (variável dependente) é da família exponencial , que inclui Poisson, binomial, gama, normal e várias outras distribuições.

2) a resposta média está relacionada aos preditores (variáveis independentes) através de uma função de link . Cada família de distribuições possui uma função de link canônico associada - por exemplo, no caso do Poisson, o link canônico é o log . Os links canônicos são quase sempre o padrão, mas na maioria dos softwares você geralmente tem várias opções em cada opção de distribuição. Para o binomial, o link canônico é o logit (o preditor linear está modelando , as chances de log de um sucesso ou um "1") e, para o Gamma, o canônico link é o inverso - mas em ambos os casos outras funções de link são frequentemente usadas. $\log(\frac{p}{1-p})$

Portanto, se sua resposta foi e seus preditores foram e , com uma regressão de Poisson com o link do log, você pode ter para obter uma descrição de como a média de está relacionada aos : $Y$ $X_1$ $X_2$ $Y$ $X$

$\text{E}(Y_i) = \mu_i$

$\log\mu_i= \eta_i$ ( é chamado de 'preditor linear' e aqui a função de link é , o símbolo é frequentemente usado para representar a função de link) $\eta$ $\log$ $g$

$\eta_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i}$

3) a variação da resposta não é constante, mas opera através de uma função de variação (uma função da média, possivelmente vezes um parâmetro de escala). Por exemplo, a variação de um Poisson é igual à média, enquanto que para uma gama é proporcional ao quadrado da média. (As quase-distribuições permitem algum grau de dissociação da função Variance da distribuição assumida)

-

Então, quais suposições estão em comum com o que você lembra da MLR?

A independência ainda está lá.
A homocedasticidade não é mais assumida; a variação é explicitamente uma função da média e, portanto, geralmente varia de acordo com os preditores (portanto, embora o modelo seja geralmente heterocedástico, a heterocedasticidade assume uma forma específica).
Linearidade: O modelo ainda é linear nos parâmetros (ou seja, o preditor linear é ), mas a resposta esperada não é linearmente relacionada a eles (a menos que você use a função de link de identidade!). $X\beta$
A distribuição da resposta é substancialmente mais geral

A interpretação da saída é de muitas maneiras bastante semelhante; você ainda pode analisar os coeficientes estimados divididos por seus erros padrão, por exemplo, e interpretá-los da mesma forma (eles são assintoticamente normais - um teste z de Wald -, mas as pessoas ainda parecem chamá-los de relações t, mesmo quando não existe uma teoria que faça isso. -los -distributed em geral). $t$

As comparações entre modelos aninhados (via configurações do tipo 'anova-table') são um pouco diferentes, mas semelhantes (envolvendo testes de qui-quadrado assintóticos). Se você estiver familiarizado com o AIC e o BIC, eles podem ser calculados.

Tipos semelhantes de telas de diagnóstico são geralmente usados, mas podem ser mais difíceis de interpretar.

Grande parte da sua intuição de regressão linear múltipla será mantida se você manter as diferenças em mente.

Aqui está um exemplo de algo que você pode fazer com um glm que você realmente não pode fazer com regressão linear (na verdade, a maioria das pessoas usaria regressão não-linear para isso, mas o GLM é mais fácil e agradável) no caso normal - é normal , modelado em função de : $Y$ $x$

$\text{E}(Y) = \exp(\eta) = \exp(X\beta) = \exp(\beta_0+\beta_1 x)$ (ou seja, um link de log)

$\text{Var}(Y) = \sigma^2$

Ou seja, um ajuste de mínimos quadrados de uma relação exponencial entre e . $Y$ $x$

Posso transformar as variáveis da mesma maneira (eu já descobri que transformar a variável dependente é uma chamada ruim, pois precisa ser um número natural)?

Você (geralmente) não deseja transformar a resposta (DV). Às vezes, você pode querer transformar preditores (IVs) para obter linearidade do preditor linear.

Eu já determinei que a distribuição binomial negativa ajudaria com a super dispersão nos meus dados (a variação é por volta de 2000, a média é 48).

Sim, pode lidar com superdispersão. Mas tome cuidado para não confundir a dispersão condicional com a dispersão incondicional .

Outra abordagem comum - se um pouco mais grosseira e menos satisfatória para minha mente - é a regressão quase-Poisson (regressão de Poisson superdispersa).

Com o binômio negativo, está na família exponencial se você especificar um de seus parâmetros em particular (a maneira como ele é geralmente reparameterizado pelo menos pelo GLMS). Alguns pacotes serão adequados se você especificar o parâmetro, outros envolverão a estimativa de ML desse parâmetro (por exemplo, probabilidade de perfil) em torno de uma rotina GLM, automatizando o processo. Alguns o restringirão a um conjunto menor de distribuições; você não diz qual software pode usar, por isso é difícil dizer muito mais por lá.

Eu acho que geralmente o link de log tende a ser usado com regressão binomial negativa.

Existem vários documentos de nível introdutório (facilmente encontrados via google) que levam a algumas análises básicas de dados de Poisson GLM e, em seguida, GLM binomial negativa de dados, mas você pode preferir olhar um livro sobre GLMs e talvez fazer uma pequena regressão de Poisson primeiro apenas para se acostumar com isso.

— Glen_b -Reinstate Monica
fonte

11

+1 Eu concordo com o COOLSerdash. Muita informação boa aqui! Além da pesquisa recomendada no Google, eu recomendaria especificamente um livro chamado Econometrics by Example by Gujarati. O capítulo 12 aborda o modelo de regressão de Poisson e o modelo de regressão binomial negativo. Como o título do livro sugere, há exemplos. Os dados usados no livro estão disponíveis no site complementar do livro e, portanto, são um resumo do próprio capítulo 12 . Eu recomendo que o OP verifique isso.

— Graeme Walsh

Estou atrasado para a festa ... mas essa resposta me ajudou a entender modelos lineares generalizados melhor do que uma pilha inteira de livros na biblioteca.

— Haff

0

Algumas referências que achei úteis na análise de dados com a distribuição binomial negativa especificamente (incluindo suposições de listagem) e GLM / GLMMs geralmente são:

Bates, DM, B. Machler, B. Bolker e S. Walker. 2015. Ajustando modelos lineares de efeitos mistos usando o lme4. J. Stat. Software 67: 1-48.

Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens e J. White. Modelos mistos lineares generalizados: um guia prático para ecologia e evolução. Tendências em ecologia e evolução 127-135.

Zeileis A., C. Keleiber C e S. Jackman 2008. Modelos de regressão para dados de contagem no RJ Stat. Programas. 27: 1-25

Zuur AF, EN Iene, N. Walker, AA Saveliev e GM Smith. 2009. Modelos de efeitos mistos e extensões em ecologia com R. Springer, NY, EUA.

— Todd Johnson
fonte