Quando usar GLMs gama?

88

A distribuição gama pode assumir uma ampla variedade de formas e, dado o vínculo entre a média e a variação através de seus dois parâmetros, parece adequado para lidar com a heterocedasticidade em dados não negativos, de uma maneira que o OLS transformado em log pode sem o WLS ou algum tipo de estimador de VCV consistente com heterocedasticidade.

Eu o usaria mais para modelagem de dados não negativos de rotina, mas não conheço mais ninguém que o use, não o aprendi em uma sala de aula formal e a literatura que li nunca o usa. Sempre que procuro no Google algo como "usos práticos da gama GLM", venho com conselhos para usá-lo nos tempos de espera entre os eventos de Poisson. ESTÁ BEM. Mas isso parece restritivo e não pode ser seu único uso.

Ingenuamente, parece que o GLM gama é um meio relativamente leve de suposição de modelagem de dados não negativos, dada a flexibilidade da gama. É claro que você precisa verificar gráficos de QQ e gráficos residuais como qualquer modelo. Mas existem alguns inconvenientes sérios que estou perdendo? Além da comunicação com pessoas que "apenas executam o OLS"?

generalized-linear-model gamma-distribution

— generic_user
fonte

57

A gama tem uma propriedade compartilhada pelo lognormal; ou seja, quando o parâmetro de forma é mantido constante enquanto o parâmetro de escala é variado (como geralmente é usado quando se usa qualquer um dos modelos), a variação é proporcional ao quadrado médio (coeficiente de variação constante).

Algo aproximado disso ocorre com bastante frequência com dados financeiros, ou mesmo com muitos outros tipos de dados.

Como resultado, geralmente é adequado para dados que são contínuos, positivos, inclinados para a direita e onde a variação é quase constante na escala de log, embora existam várias outras opções bem conhecidas (e geralmente disponíveis com facilidade) com aquelas propriedades.

Além disso, é comum ajustar um link de log com o gama GLM (é relativamente mais raro usar o link natural). O que o torna um pouco diferente da adaptação de um modelo linear normal aos registros dos dados é que, na escala de registros, a gama é deixada inclinada em graus variados, enquanto o normal (o registro de um lognormal) é simétrico. Isso o torna (a gama) útil em várias situações.

Eu já vi usos práticos para GLMs gama discutidos (com exemplos de dados reais) em (de cabeça para baixo ) de Jong & Heller e Frees , além de vários artigos; Eu também vi aplicações em outras áreas. Ah, e se bem me lembro, o MASS de Venables e Ripley o usa no absenteísmo escolar (os dados quine; Edit: acontece que está realmente em Complementos de Estatística do MASS , veja a p11, a 14ª página do pdf, tem um link de log, mas há uma pequena mudança do DV). McCullagh e Nelder fizeram um exemplo de coagulação do sangue, embora talvez tenha sido um elo natural.

Depois, há o livro de Faraway, onde ele fez um exemplo de seguro de carro e um exemplo de dados de fabricação de semicondutores.

Existem algumas vantagens e desvantagens em escolher uma das duas opções. Desde os dias de hoje, ambos são fáceis de encaixar; geralmente é uma questão de escolher o que é mais adequado.

Está longe de ser a única opção; por exemplo, também existem GLMs gaussianos inversos, que são mais inclinados / mais pesados (e ainda mais heterocedásticos) do que gama ou normal de log.

Quanto às desvantagens, é mais difícil fazer intervalos de previsão. Algumas telas de diagnóstico são mais difíceis de interpretar. As expectativas computacionais na escala do preditor linear (geralmente na escala logarítmica) são mais difíceis do que no modelo lognormal equivalente. Testes de hipóteses e intervalos geralmente são assintóticos. Estes são frequentemente problemas relativamente menores.

Possui algumas vantagens sobre a regressão lognormal log-link (pegando logs e ajustando um modelo de regressão linear comum); uma é que a previsão média é fácil.

— Glen_b
fonte

3

Deve ser "Gamma" ou "gama"? Sabemos que não é nomeado para uma pessoa. Eu vi letras minúsculas "g" com muito mais frequência. Claramente, a distribuição é nomeada para a função, que remonta ao século XVIII.

— Nick Cox

2

Γ

$\Gamma$

@ NickCox Eu mudei como você sugere, e eu consertei o "Inverso Gaussiano" enquanto estava nele.

— Glen_b

1

@Gleb_b: Você ainda usa o link de log com a família Gaussiana inversa?

— Dimitriy V. Masterov

@ DimitriyV.Masterov É menos usado, por isso é mais difícil de generalizar. Pelo que vi, é bastante comum usar um link de log com gaussiano inverso, mas outros links podem ser adequados em algumas situações, como um link inverso.

— precisa saber é

28

Esta é uma boa pergunta. De fato, por que as pessoas não usam mais modelos lineares generalizados (GLM) também é uma boa pergunta.

Nota de aviso: Algumas pessoas usam o GLM para o modelo linear geral, não o que está em mente aqui.

Depende de onde você olha. Por exemplo, as distribuições gama são populares em várias ciências ambientais há algumas décadas e, portanto, modelar com variáveis preditoras também é uma extensão natural. Existem muitos exemplos em hidrologia e geomorfologia, para citar alguns campos nos quais me desviei.
É difícil definir quando usá-lo além de uma resposta vazia sempre que funciona melhor. Dados dados positivos distorcidos, muitas vezes me vejo tentando modelos gama e normais de log (no link de contexto do GLM, família normal ou gaussiana) e escolhendo qual funciona melhor.
A modelagem gama permaneceu bastante difícil de ser realizada até recentemente, certamente em comparação com digamos obter logs e aplicar regressões lineares, sem você mesmo escrever muito código. Mesmo agora, acho que não é igualmente fácil em todos os principais ambientes de software estatístico.
Ao explicar o que é usado e o que não é usado, apesar dos méritos e deméritos, acho que você sempre se refere exatamente aos tipos de fatores que identifica: o que é ensinado, o que está na literatura que as pessoas leem, o que as pessoas ouvem falar sobre. trabalho e em conferências. Então, você precisa de um tipo de sociologia amador da ciência para explicar. A maioria das pessoas parece seguir caminhos retos e estreitos dentro de seus próprios campos. Vagamente, quanto maior a literatura interna em qualquer campo sobre técnicas de modelagem, menos as pessoas inclinadas nesse campo parecem tentar algo diferente.

— Nick Cox
fonte

1

Como você determina o que funciona melhor?

— Dimitriy V. Masterov

7

Observo probabilidades, quadrados R (apesar do que as pessoas dizem), intervalos de confiança em torno de estimativas de parâmetros, gráficos de observado versus ajustado, residual versus ajustado, etc. Se houvesse ciência favorecendo um modelo em detrimento de outro, isso também pesaria, mas em minha experiência a ciência não é tão bem formada. De que outra forma isso poderia ser feito?

— Nick Cox

@NickCox O que devemos observar quando a análise observada vs ajustada, os resíduos versus ajustada e o gráfico qq normal? Eu entendo que isso pode diferir entre os modelos. Você poderia dar um exemplo para gama, poisson e binômio negativo? Obrigado

— tatami

@ tatami Essa é uma pergunta totalmente nova, ou mais, eu acho. Se você perguntar, verá quem morde. Eu nunca pensei que um modelo gama e um modelo binomial negativo fossem rivais em qualquer projeto, mas isso poderia ser falha de imaginação ou experiência.

— Nick Cox

13

A regressão gama está no GLM e, portanto, você pode obter muitas quantidades úteis para fins de diagnóstico, como resíduos de desvio, alavancas, distância de Cook e assim por diante. Talvez eles não sejam tão bons quanto as quantidades correspondentes para dados transformados em log.

Uma coisa que a regressão gama evita em comparação com o lognormal é o viés de transformação. A desigualdade de Jensen implica que as previsões da regressão lognormal serão sistematicamente enviesadas porque está modelando dados transformados em vez do valor esperado transformado.

Além disso, a regressão gama (ou outros modelos para dados não negativos) pode lidar com uma matriz mais ampla de dados que o normal do log, devido ao fato de que ele pode ter um modo em 0, como o da distribuição exponencial, que está na gama. família, o que é impossível para o lognormal.

Eu li sugestões de que o uso da probabilidade de Poisson como quase-probabilidade é mais estável. Eles são conjugados um do outro. O quase-Poisson também tem o benefício substancial de ser capaz de lidar com valores exatos de 0, o que incomoda tanto a gama quanto, principalmente, o lognormal.

— Jay Verkuilen
fonte

11

Na minha opinião, assume que os erros estão em uma família de distribuições gama, com as mesmas formas e com as escalas mudando de acordo com a fórmula relacionada.

Mas é difícil fazer o diagnóstico do modelo. Observe que o gráfico QQ simples não é adequado aqui, porque é sobre a mesma distribuição, enquanto a nossa é uma família de distribuições com diferentes variações.

Ingenuamente, o gráfico de resíduos pode ser usado para ver que eles têm escalas diferentes, mas com a mesma forma, geralmente com caudas longas.

Na minha experiência, o gamma GLM pode ser experimentado por alguns problemas distribuídos de cauda longa, e é amplamente usado nos setores de seguros e meio ambiente etc. argumentam para usar outras distribuições familiares com o mesmo problema, como gaussiano inverso, etc. Na prática, parece que essas escolhas dependem do julgamento de especialistas com a experiência industrial. Isso limita o uso do gama GLM.

— Vincent
fonte