Estou trabalhando com um grande conjunto de dados (confidencial, então não posso compartilhar muito),
Pode ser possível criar um pequeno conjunto de dados que possua algumas das características gerais dos dados reais sem os nomes das variáveis nem nenhum dos valores reais.
e chegou à conclusão de que seria necessária uma regressão binomial negativa. Eu nunca fiz uma regressão glm antes e não consigo encontrar nenhuma informação clara sobre quais são as suposições. Eles são iguais para a MLR?
Claramente não! Você já sabe que está assumindo que a resposta é binomial condicionalmente negativa, não condicionalmente normal. ( Algumas suposições são compartilhadas. Independência, por exemplo.)
Deixe-me falar sobre GLMs mais geralmente primeiro.
Os GLMs incluem regressão múltipla, mas generalizam de várias maneiras:
1) a distribuição condicional da resposta (variável dependente) é da família exponencial , que inclui Poisson, binomial, gama, normal e várias outras distribuições.
2) a resposta média está relacionada aos preditores (variáveis independentes) através de uma função de link . Cada família de distribuições possui uma função de link canônico associada - por exemplo, no caso do Poisson, o link canônico é o log . Os links canônicos são quase sempre o padrão, mas na maioria dos softwares você geralmente tem várias opções em cada opção de distribuição. Para o binomial, o link canônico é o logit (o preditor linear está modelando , as chances de log de um sucesso ou um "1") e, para o Gamma, o canônico link é o inverso - mas em ambos os casos outras funções de link são frequentemente usadas.log(p1−p)
Portanto, se sua resposta foi e seus preditores foram e , com uma regressão de Poisson com o link do log, você pode ter para obter uma descrição de como a média de está relacionada aos :YX1X2YX
E(Yi)=μi
logμi=ηi ( é chamado de 'preditor linear' e aqui a função de link é , o símbolo é frequentemente usado para representar a função de link)ηlogg
ηi=β0+β1x1i+β2x2i
3) a variação da resposta não é constante, mas opera através de uma função de variação (uma função da média, possivelmente vezes um parâmetro de escala). Por exemplo, a variação de um Poisson é igual à média, enquanto que para uma gama é proporcional ao quadrado da média. (As quase-distribuições permitem algum grau de dissociação da função Variance da distribuição assumida)
-
Então, quais suposições estão em comum com o que você lembra da MLR?
A independência ainda está lá.
A homocedasticidade não é mais assumida; a variação é explicitamente uma função da média e, portanto, geralmente varia de acordo com os preditores (portanto, embora o modelo seja geralmente heterocedástico, a heterocedasticidade assume uma forma específica).
Linearidade: O modelo ainda é linear nos parâmetros (ou seja, o preditor linear é ), mas a resposta esperada não é linearmente relacionada a eles (a menos que você use a função de link de identidade!).Xβ
A distribuição da resposta é substancialmente mais geral
A interpretação da saída é de muitas maneiras bastante semelhante; você ainda pode analisar os coeficientes estimados divididos por seus erros padrão, por exemplo, e interpretá-los da mesma forma (eles são assintoticamente normais - um teste z de Wald -, mas as pessoas ainda parecem chamá-los de relações t, mesmo quando não existe uma teoria que faça isso. -los -distributed em geral).t
As comparações entre modelos aninhados (via configurações do tipo 'anova-table') são um pouco diferentes, mas semelhantes (envolvendo testes de qui-quadrado assintóticos). Se você estiver familiarizado com o AIC e o BIC, eles podem ser calculados.
Tipos semelhantes de telas de diagnóstico são geralmente usados, mas podem ser mais difíceis de interpretar.
Grande parte da sua intuição de regressão linear múltipla será mantida se você manter as diferenças em mente.
Aqui está um exemplo de algo que você pode fazer com um glm que você realmente não pode fazer com regressão linear (na verdade, a maioria das pessoas usaria regressão não-linear para isso, mas o GLM é mais fácil e agradável) no caso normal - é normal , modelado em função de :Yx
E(Y)=exp(η)=exp(Xβ)=exp(β0+β1x) (ou seja, um link de log)
Var(Y)=σ2
Ou seja, um ajuste de mínimos quadrados de uma relação exponencial entre e .Yx
Posso transformar as variáveis da mesma maneira (eu já descobri que transformar a variável dependente é uma chamada ruim, pois precisa ser um número natural)?
Você (geralmente) não deseja transformar a resposta (DV). Às vezes, você pode querer transformar preditores (IVs) para obter linearidade do preditor linear.
Eu já determinei que a distribuição binomial negativa ajudaria com a super dispersão nos meus dados (a variação é por volta de 2000, a média é 48).
Sim, pode lidar com superdispersão. Mas tome cuidado para não confundir a dispersão condicional com a dispersão incondicional .
Outra abordagem comum - se um pouco mais grosseira e menos satisfatória para minha mente - é a regressão quase-Poisson (regressão de Poisson superdispersa).
Com o binômio negativo, está na família exponencial se você especificar um de seus parâmetros em particular (a maneira como ele é geralmente reparameterizado pelo menos pelo GLMS). Alguns pacotes serão adequados se você especificar o parâmetro, outros envolverão a estimativa de ML desse parâmetro (por exemplo, probabilidade de perfil) em torno de uma rotina GLM, automatizando o processo. Alguns o restringirão a um conjunto menor de distribuições; você não diz qual software pode usar, por isso é difícil dizer muito mais por lá.
Eu acho que geralmente o link de log tende a ser usado com regressão binomial negativa.
Existem vários documentos de nível introdutório (facilmente encontrados via google) que levam a algumas análises básicas de dados de Poisson GLM e, em seguida, GLM binomial negativa de dados, mas você pode preferir olhar um livro sobre GLMs e talvez fazer uma pequena regressão de Poisson primeiro apenas para se acostumar com isso.