GLM: verificando uma opção de distribuição e função de link


14

Eu tenho um modelo linear generalizado que adota uma função Gaussiana de distribuição e link de log. Depois de ajustar o modelo, verifico os resíduos: gráfico QQ, resíduos versus valores previstos, histograma de resíduos (reconhecendo que é necessária a devida cautela). Tudo parece bem. Isso parece sugerir (para mim) que a escolha de uma distribuição gaussiana foi bastante razoável. Ou, pelo menos, que os resíduos sejam consistentes com a distribuição que usei no meu modelo.

T1 : seria muito longe afirmar que valida minha escolha de distribuição?

Eu escolhi uma função de link de log porque minha variável de resposta é sempre positiva, mas eu gostaria de algum tipo de confirmação de que era uma boa escolha.

P2 : Existem testes, como verificar os resíduos para a escolha da distribuição, que podem suportar a minha escolha da função de link? (A escolha de uma função de link parece um pouco arbitrária para mim, pois as únicas diretrizes que encontro são bastante vagas e ondulantes, provavelmente por um bom motivo.)


2
Q1 Você pode tentar outras distribuições e ver se elas têm melhor desempenho. Q2 Escolher um link de log para garantir previsões positivas não me parece arbitrário. É uma justificativa. Mas se você obteria previsões negativas com o link de identidade e os dados que você possui, por sua vez, poderiam ser verificados. Conclusão: você não pode ter certeza de que outros modelos não seriam melhores até que você os experimente.
Nick Cox

1
Obrigado pela resposta, @Nick. Eu estava preocupado que fosse simplesmente um caso de chupar e ver, como você diz. Não estou tão preocupado que seja o melhor modelo necessariamente, apenas que as suposições podem ser justificadas. Uma idéia com a qual estou brincando é plotar minhas observações, , contra a transformação exponencial do preditor linear, . Presumivelmente, quanto mais próximos os pontos da linha 1: 1, melhor a suposição de uma função de link de log? Além disso, eu poderia quantificar isso com um para a linha 1: 1. (Eu não sou um estatístico, então eu não sei como risível estes cludges são.)Yexp(η)R2
Lyngbakr

2
R2

Respostas:


13
  1. Essa é uma variante da pergunta freqüente sobre se você pode afirmar a hipótese nula. No seu caso, o nulo seria que os resíduos são gaussianos, e a inspeção visual de suas plotagens (plotagens qq, histogramas etc.) constitui o 'teste'. (Para uma visão geral da questão de afirmar o nulo, pode ser útil ler minha resposta aqui: Por que os estatísticos dizem que um resultado não significativo significa "você não pode rejeitar o nulo" em vez de aceitar a hipótese nula? ) No seu caso específico, você pode dizer que os gráficos mostram que seus resíduos são consistentes com sua suposição de normalidade, mas eles não "validam" a suposição.

  2. Você pode ajustar seu modelo usando diferentes funções de link e compará-las, mas não há um teste de uma única função de link isoladamente (isso é evidentemente incorreto, consulte a resposta de @ Glen_b ). Na minha resposta à diferença entre os modelos logit e probit (que pode valer a pena ler, embora não seja a mesma coisa), defendo que as funções de link devem ser escolhidas com base em:

    1. Conhecimento da distribuição de respostas,
    2. Considerações teóricas e
    3. Ajuste empírico aos dados.

    YYde se tornar negativo, também induz uma forma específica à relação curvilínea. Um gráfico padrão de resíduos versus valores ajustados (talvez com um ajuste de menor sobreposição) ajudará a identificar se a curvatura intrínseca em seus dados é uma correspondência razoável para a curvatura específica imposta pelo link de log. Como mencionei, você também pode tentar qualquer outra transformação que atenda aos seus critérios teóricos que você deseja e comparar os dois ajustes diretamente.


16

Seria muito longe afirmar que valida minha escolha de distribuição?

Depende do que você quer dizer com 'validar' exatamente, mas eu diria 'sim, isso vai longe demais' da mesma maneira que você não pode realmente dizer "o nulo é mostrado como verdadeiro", (especialmente com nulos de ponto, mas em pelo menos algum sentido de maneira mais geral). Você pode realmente dizer "bem, não temos fortes evidências de que isso esteja errado". Mas, de qualquer forma, não esperamos que nossos modelos sejam perfeitos, são modelos . O que importa, como disse Box & Draper, é " quão errados eles devem estar para não serem úteis? "

Qualquer uma destas duas frases anteriores:

Isso parece sugerir (para mim) que a escolha de uma distribuição gaussiana foi bastante razoável. Ou, pelo menos, que os resíduos sejam consistentes com a distribuição que usei no meu modelo.

descreva com muito mais precisão o que seus diagnósticos indicam - não que um modelo gaussiano com link de log esteja correto - mas que seja razoável ou consistente com os dados.

Eu escolhi uma função de link de log porque minha variável de resposta é sempre positiva, mas eu gostaria de algum tipo de confirmação de que era uma boa escolha.

Se você sabe que deve ser positivo, sua média deve ser positiva. É sensato escolher um modelo que seja pelo menos consistente com isso. Não sei se é uma boa escolha (pode muito bem haver escolhas muito melhores), mas é uma coisa razoável a se fazer; poderia muito bem ser o meu ponto de partida. [No entanto, se a variável em si for necessariamente positiva, meu primeiro pensamento tenderia a ser Gamma com link de log, em vez de Gaussiano. "Necessariamente positivo" sugere distorção e variação que mudam com a média.]

P2: Existem testes, como verificar os resíduos para a escolha da distribuição, que podem suportar a minha escolha da função de link?

Parece que você não quer dizer 'teste' como em "teste formal de hipóteses", mas sim como 'verificação de diagnóstico'.

Em ambos os casos, a resposta é sim, existem.

Um teste de hipótese formal é o teste de bondade de link de Pregibon [1].

Isso se baseia na incorporação da função de link em uma família Box-Cox, a fim de fazer um teste de hipótese do parâmetro Box-Cox.

Veja também a breve discussão do teste de Pregibon em Breslow (1996) [2] ( consulte a página 14 ).

η=g(μ)x

rEuW=(yEu-μ^Eu)(ημ)

(para o qual eu me inclinaria para esta avaliação), ou talvez observando desvios da linearidade em resíduos parciais, com um gráfico para cada preditor (veja, por exemplo, Hardin e Hilbe, modelos e extensões lineares generalizadas, 2ª ed. seção 4.5 .4 p54, para a definição),

rkEuT=(yEu-μ^Eu)(ημ)+xEukβ^k

=rEuW+xEukβ^k

Nos casos em que os dados admitem transformação pela função de link, você pode procurar linearidade da mesma maneira que na regressão linear (embora você tenha deixado a assimetria e possivelmente a heterocedasticidade).

No caso de preditores categóricos, a escolha da função de link é mais uma questão de conveniência ou interpretabilidade, o ajuste deve ser o mesmo (portanto, não há necessidade de avaliar por eles).

Você também pode basear um diagnóstico na abordagem de Pregibon.

Estes não formam uma lista exaustiva; você pode encontrar outros diagnósticos discutidos.

[Dito isto, concordo com a avaliação de Gung de que a escolha da função de link deve inicialmente ser baseada em coisas como considerações teóricas, sempre que possível.]

Veja também algumas das discussões neste post , que são pelo menos parcialmente relevantes.

[1]: Pregibon, D. (1980),
"Goodness of Link Tests para modelos lineares generalizados",
Journal of the Royal Statistical Society. Série C (Estatística Aplicada) ,
vol. 29, n. 1, pp. 15-23.

[2]: Breslow NE (1996),
"Modelos lineares generalizados: checando suposições e fortalecendo conclusões",
Statistica Applicata 8 , 23-41.
pdf

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.