Pergunta de regressão binomial negativa - é um modelo ruim?


31

Estou lendo um artigo muito interessante de Sellers e Shmueli sobre modelos de regressão para dados de contagem. Perto do início (p. 944), citam McCullaugh e Nelder (1989) dizendo que a regressão binomial negativa é impopular e tem um vínculo canônico problemático. Encontrei a passagem referida e ela diz (p. 374 de M e N)

"Parece ter sido pouco utilizado a distribuição binomial negativa nas aplicações; em particular, o uso do link canônico é problemático, pois torna o preditor linear uma função de um parâmetro da função de variância".

Na página anterior, eles fornecem esse link como

η=log(α1+α)=log(μμ+k)

função de variação

V=μ+μ2k.

A distribuição é dada como

Pr(Y=y;α,k)=(y+k1)!y!(k1)!αy(1+α)y=k

Eu descobri que a regressão NB é bastante usada (e recomendada em vários livros). Todos esses usos e recomendações estão errados?

Quais são as consequências desse vínculo problemático?


3
Provavelmente tem a ver, pelo menos em parte, com a citação atribuída ao ano de 1989. Estou disposto a apostar que a maioria dos usos atuais do NB são mais recentes. O modelo NB é muito útil geralmente quando você está lidando com problemas de sobre-dispersão no caso usual de probabilidade binomial (ou seja, regressão logística).

5
Estou nublado nos detalhes (e longe de ser um novato no NegBin), mas lembre-se de Joseph Hilbe discutindo isso em seu livro Negative Binomial Regression (2nd Edition). Ele comenta na p.9 que é uma expressão natural da visão de mistura Poisson-gama do NegBin. Após o livro de 1989, Nelder desenvolveu a macro kk para GenStat, na qual ele favorece uma relação direta entre e com a variação e que essa parametrização direta se mostrou muito popular recentemente. Vαμ2V=μ+αμ2
Reinstate Monica - G. Simpson -

3
Eu aceitaria esses comentários com um grão de sal. Re MN: Eles tinham uma definição muito rigorosa do que é um GLM (por boas razões, eu acho). Os modelos Negbin com parâmetro de forma desconhecido não seguem a definição muito rigorosa de GLM de McCullagh, Nelder, Pregibon e assim por diante. Portanto, tecnicamente, não é um GLM em quase todos os casos de uso. Interpretada como uma classe de modelo um pouco diferente e estimada via probabilidade máxima, não há mais problemas. A Re S&S precisava de um caso para motivar o COM Poisson, então a cotação da M&N foi útil.
Momo

4
Não vejo por que as supostas propriedades ruins do link canônico tornam o modelo negbin globalmente indesejável. Você escolhe sua função de link com base nos dados e no problema que está tentando resolver, não por referência à teoria matemática. Na verdade, duvido que alguém esteja usando o link canônico. É uma história semelhante aos GLMs gama; o link canônico é o inverso, mas aposto que muito mais pessoas usam um link de log por causa da facilidade de interpretação e da aplicação natural a muitas situações.
Hong Ooi

4
Até onde eu sei, quase nunca há uma razão para usar o modelo binomial negativo. Mesmo se seus dados foram realmente gerados por um modelo binomial negativo, a regressão de Poisson produz estimadores consistentes dos efeitos das variáveis ​​independentes na resposta média - e isso é quase sempre o que o pesquisador deseja estimar. Os erros padrão usuais estão errados se a suposição de Poisson estiver errada, mas a inicialização corrige isso. A qualquer momento , é possível estimar consistentemente usando Poisson. E{Y|X}=exp(Xβ)β
Bill

Respostas:


10

Eu discuto as afirmações sob vários pontos de vista:

i) Embora o link canônico possa muito bem ser "problemático", não é imediatamente óbvio que alguém se interessará por esse link - enquanto, por exemplo, o link de log no Poisson geralmente é conveniente e natural, e por isso as pessoas geralmente interessado nisso. Mesmo assim, no caso de Poisson, as pessoas olham para outras funções de link.

Portanto, não precisamos restringir nossa consideração ao link canônico.

Um "elo problemático" não é, por si só, um argumento especialmente revelador contra a regressão binomial negativa.

O link de log, por exemplo, parece ser uma escolha bastante razoável em algumas aplicações binomiais negativas, por exemplo, nos casos em que os dados podem ser Poisson condicionalmente, mas há heterogeneidade na taxa de Poisson - o link de log pode ser quase tão interpretável como no caso de Poisson.

Em comparação, eu uso os Gamma GLMs com bastante frequência, mas não me lembro (exemplos de livros didáticos de lado) de ter usado seu link canônico - eu uso o link de log quase sempre, já que é um link mais natural para os tipos de problemas Eu costumo trabalhar.

ii) "Parece que pouco foi feito ... nas aplicações" pode ter sido verdade em 1989, mas não acho que isso ocorra agora. [Mesmo que permanecesse agora, esse não é um argumento de que é um modelo ruim, apenas que não foi amplamente utilizado - o que pode acontecer por todos os tipos de razões.]

A regressão binomial negativa tornou-se mais amplamente usada à medida que está mais disponível, e vejo isso sendo usado em aplicativos muito mais amplamente agora. Em R, por exemplo, utilizo as funções MASSque o suportam (e o livro correspondente, Venables e Ripley, Modern Applied Statistics with S , usa regressão binomial negativa em algumas aplicações interessantes) - e usei algumas funcionalidades em alguns outros pacotes antes mesmo de usá-lo no R.

Eu teria usado a regressão binomial negativa mais, ainda mais cedo, se estivesse prontamente disponível para mim; Espero que o mesmo seja verdade para muitas pessoas - então o argumento de que foi pouco usado parece ser mais uma oportunidade.

Embora seja possível evitar a regressão binomial negativa (por exemplo, usando modelos Poisson superdispersos) ou várias situações em que realmente não importa muito o que você faz , existem várias razões pelas quais isso não é totalmente satisfatório.

Por exemplo, quando meu interesse é mais por intervalos de previsão do que estimativas de coeficientes, o fato de os coeficientes não mudarem pode não ser uma razão adequada para evitar o binômio negativo.

É claro que ainda existem outras opções que modelam a dispersão (como o Conway-Maxwell-Poisson, que é o assunto do artigo que você mencionou); Embora essas sejam certamente opções, às vezes há situações em que fico muito feliz que o binômio negativo seja um 'encaixe' razoavelmente bom como modelo para o meu problema.

Todos esses usos e recomendações estão errados?

Eu realmente acho que não! Se fossem, já deveria ter ficado razoavelmente claro agora. De fato, se McCullagh e Nelder continuaram a se sentir da mesma maneira, eles não tiveram falta de oportunidade, nem falta de fóruns para esclarecer as questões restantes. Nelder faleceu (2010), mas McCullagh aparentemente ainda está por aí .

Se essa curta passagem em McCullagh e Nelder é tudo o que eles têm, eu diria que é um argumento bastante fraco.

Quais são as consequências desse vínculo problemático?

Eu acho que a questão é principalmente uma das funções de variância e a função de link que está relacionada, e não relacionada (como é o caso de praticamente todas as outras famílias principais de GLM em uso popular), o que faz a interpretação na escala do preditor linear menos direto (isso não quer dizer que seja o único problema; acho que é o principal problema para um profissional). Não é muita coisa.


A título de comparação, vejo os modelos Tweedie sendo usados ​​muito mais amplamente nos últimos tempos, e não vejo pessoas se preocupando com o fato de que aparece tanto na função de variância quanto no link canônico (nem na maioria dos casos nem se preocupa muito). sobre o link canônico).p

Nada disso é tirar nada dos modelos de Conway-Maxwell-Poisson (o assunto dos jornais Sellers e Shmueli), que também estão se tornando mais amplamente utilizados - certamente não desejo participar de um binômio negativo versus COM Partida de tiro -Poisson.

Simplesmente não o vejo como um ou outro, assim como (agora falando mais amplamente), adoto uma postura puramente bayesiana ou puramente freqüentista sobre problemas estatísticos. Usarei o que me parecer a melhor escolha nas circunstâncias particulares em que estou, e cada escolha tende a ter vantagens e desvantagens.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.