Seria muito longe afirmar que valida minha escolha de distribuição?
Depende do que você quer dizer com 'validar' exatamente, mas eu diria 'sim, isso vai longe demais' da mesma maneira que você não pode realmente dizer "o nulo é mostrado como verdadeiro", (especialmente com nulos de ponto, mas em pelo menos algum sentido de maneira mais geral). Você pode realmente dizer "bem, não temos fortes evidências de que isso esteja errado". Mas, de qualquer forma, não esperamos que nossos modelos sejam perfeitos, são modelos . O que importa, como disse Box & Draper, é " quão errados eles devem estar para não serem úteis? "
Qualquer uma destas duas frases anteriores:
Isso parece sugerir (para mim) que a escolha de uma distribuição gaussiana foi bastante razoável. Ou, pelo menos, que os resíduos sejam consistentes com a distribuição que usei no meu modelo.
descreva com muito mais precisão o que seus diagnósticos indicam - não que um modelo gaussiano com link de log esteja correto - mas que seja razoável ou consistente com os dados.
Eu escolhi uma função de link de log porque minha variável de resposta é sempre positiva, mas eu gostaria de algum tipo de confirmação de que era uma boa escolha.
Se você sabe que deve ser positivo, sua média deve ser positiva. É sensato escolher um modelo que seja pelo menos consistente com isso. Não sei se é uma boa escolha (pode muito bem haver escolhas muito melhores), mas é uma coisa razoável a se fazer; poderia muito bem ser o meu ponto de partida. [No entanto, se a variável em si for necessariamente positiva, meu primeiro pensamento tenderia a ser Gamma com link de log, em vez de Gaussiano. "Necessariamente positivo" sugere distorção e variação que mudam com a média.]
P2: Existem testes, como verificar os resíduos para a escolha da distribuição, que podem suportar a minha escolha da função de link?
Parece que você não quer dizer 'teste' como em "teste formal de hipóteses", mas sim como 'verificação de diagnóstico'.
Em ambos os casos, a resposta é sim, existem.
Um teste de hipótese formal é o teste de bondade de link de Pregibon [1].
Isso se baseia na incorporação da função de link em uma família Box-Cox, a fim de fazer um teste de hipótese do parâmetro Box-Cox.
Veja também a breve discussão do teste de Pregibon em Breslow (1996) [2] ( consulte a página 14 ).
η= g( μ )x
rWEu= ( yEu- μ^Eu) ( ∂η∂μ)
(para o qual eu me inclinaria para esta avaliação), ou talvez observando desvios da linearidade em resíduos parciais, com um gráfico para cada preditor (veja, por exemplo, Hardin e Hilbe, modelos e extensões lineares generalizadas, 2ª ed. seção 4.5 .4 p54, para a definição),
rTk i= ( yEu- μ^Eu) ( ∂η∂μ) + xeu kβ^k
= rWEu+ xeu kβ^k
Nos casos em que os dados admitem transformação pela função de link, você pode procurar linearidade da mesma maneira que na regressão linear (embora você tenha deixado a assimetria e possivelmente a heterocedasticidade).
No caso de preditores categóricos, a escolha da função de link é mais uma questão de conveniência ou interpretabilidade, o ajuste deve ser o mesmo (portanto, não há necessidade de avaliar por eles).
Você também pode basear um diagnóstico na abordagem de Pregibon.
Estes não formam uma lista exaustiva; você pode encontrar outros diagnósticos discutidos.
[Dito isto, concordo com a avaliação de Gung de que a escolha da função de link deve inicialmente ser baseada em coisas como considerações teóricas, sempre que possível.]
Veja também algumas das discussões neste post , que são pelo menos parcialmente relevantes.
[1]: Pregibon, D. (1980),
"Goodness of Link Tests para modelos lineares generalizados",
Journal of the Royal Statistical Society. Série C (Estatística Aplicada) ,
vol. 29, n. 1, pp. 15-23.
[2]: Breslow NE (1996),
"Modelos lineares generalizados: checando suposições e fortalecendo conclusões",
Statistica Applicata 8 , 23-41.
pdf