Gamma GLM vinculado a log vs GLM Gaussiano vinculado a log vs LM transformado por log

Pelos meus resultados, parece que o GLM Gamma atende à maioria das suposições, mas vale a pena melhorar o LM transformado em log? A maioria das publicações que encontrei trata de Poisson ou GLMs binomiais. Achei o artigo AVALIAÇÃO DE SUPOSIÇÕES GERAIS DE MODELOS LINEARES USANDO A RANDOMIZAÇÃO muito útil, mas faltam os gráficos reais usados para tomar uma decisão. Espero que alguém com experiência possa me apontar na direção certa.

Quero modelar a distribuição da minha variável de resposta T, cuja distribuição é plotada abaixo. Como você pode ver, é assimetria positiva:
XHTML válido .

Eu tenho dois fatores categóricos a considerar: METH e CASEPART.
Observe que este estudo é principalmente exploratório, essencialmente servindo como um estudo piloto antes de teorizar um modelo e executar DoE em torno dele.

Eu tenho os seguintes modelos em R, com seus gráficos de diagnóstico:

LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)

XHTML válido

GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))

XHTML válido

GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))

XHTML válido

Também atingi os seguintes valores de P pelo teste de Shapiro-Wilks em resíduos:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288

Calculei os valores de AIC e BIC, mas, se estiver correto, eles não me dizem muito devido a diferentes famílias nos GLMs / LM.

Também observei os valores extremos, mas não posso classificá-los como outliers, pois não há uma "causa especial" clara.

r generalized-linear-model model-selection gamma-distribution

— TLJ
fonte

possível duplicata de Escolha entre LM e GLM para uma variável de resposta transformada em log

— Marc na caixa

Vale a pena notar que todos os três modelos são multiplicativos no sentido de que um aumento em um regressor está associado a uma mudança relativa na resposta típica. Para os dois GLMs log-lineares, "típico" significa média aritmética, enquanto que para o LM transformado por log estamos falando de médias geométricas. Assim, a maneira como você deseja interpretar efeitos e previsões também é um fator determinante para a escolha do modelo, além de ter gráficos residuais perfeitos (esses dados são direcionados de qualquer maneira).

— Michael M

@ MichaelMayer - Obrigado pela resposta, muito útil. Você poderia expandir um pouco exatamente como a escolha afeta a interpretação? Ou me aponte na direção de uma referência?

— TLJ

@ Marcinthebox- Eu olhei essa pergunta antes de postar. Não responde exatamente à minha pergunta de forma muito concisa.

— TLJ 25/11

Bem, claramente o ajuste log-linear ao gaussiano é inadequado; há forte heterocedasticidade nos resíduos. Então, vamos levar isso em consideração.

O que resta é lognormal vs gama.

$T$

Qualquer um dos modelos parece igualmente adequado nesse caso. Ambos têm variação proporcional ao quadrado da média, portanto, o padrão de propagação em resíduos contra o ajuste é semelhante.

Um outlier baixo se encaixa um pouco melhor com uma gama do que com um lognormal (vice-versa para um outlier alto). Em uma determinada média e variância, o lognormal é mais inclinado e possui um coeficiente de variação mais alto.

$\exp(\mu)$ $\sigma^2$

Veja também aqui e aqui algumas discussões relacionadas.

— Glen_b -Reinstate Monica
fonte

@Gleb_b esta resposta é muito útil para minha análise. Eu tenho algumas perguntas. (1) Primeiro, é este 'Ambos têm variação proporcional ao quadrado da média ...' com base no gráfico residual vs ajustado? (2) E é este 'Um outlier baixo se encaixará um pouco melhor com uma gama ... Em uma determinada média e variância, ...' com base no gráfico qq? (3) Pelo que entendi, glm (por exemplo, gama, poisson e binômio negativo) não tem a suposição de normalidade dos resíduos e homogeneidade de variância. Em caso afirmativo, por que a plotagem de resíduos versus a plotagem qq normal e adequada seria relevante para o diagnóstico?

— tatami

Isso é extenso o suficiente para ser uma pergunta totalmente nova, ou mesmo várias (1 das quais já foram respondidas no nosso site!) - 1. parte do modelo. 2. Não, esses são fatos gerais sobre as distribuições. 3. Correto, eles não são normais, no entanto, os resíduos usados no gráfico de QQ são resíduos de desvio (estudados internamente) que - particularmente no caso gama - geralmente tendem a estar muito próximos do normalmente distribuído (escrevi uma resposta explicando o porquê em algum ponto) e deve ter uma variação essencialmente constante. Algum desvio da normalidade não é inesperado, mas um desvio substancial ...

— ctd

ctd ... da normalidade (supondo que as outras parcelas estejam corretas) pode indicar um problema com a suposição distributiva.

— Glen_b -Reinstala Monica 10/10