Posso usar a distribuição normal GLM com a função de link LOG em um DV que já foi transformado em log?
Sim; se as premissas forem atendidas nessa escala
O teste de homogeneidade de variância é suficiente para justificar o uso da distribuição normal?
Por que igualdade de variância implicaria normalidade?
O procedimento de verificação de resíduos está correto para justificar a escolha do modelo da função de link?
Você deve tomar cuidado com o uso de histogramas e testes de qualidade de ajuste para verificar a adequação de suas suposições:
1) Cuidado ao usar o histograma para avaliar a normalidade. (Veja também aqui )
Em resumo, dependendo de algo tão simples quanto uma pequena alteração na sua escolha de largura de caixa ou até mesmo a localização do limite da caixa, é possível obter impressões bastante diferentes da forma dos dados:
São dois histogramas do mesmo conjunto de dados. O uso de várias larguras de caixa diferentes pode ser útil para verificar se a impressão é sensível a isso.
2) Cuidado ao usar testes de bondade de ajuste para concluir que a suposição de normalidade é razoável. Testes formais de hipóteses realmente não respondem à pergunta certa.
por exemplo, veja os links no item 2. aqui
Sobre a variância, mencionada em alguns trabalhos usando conjuntos de dados semelhantes "porque as distribuições tinham variações homogêneas, foi utilizado um GLM com uma distribuição gaussiana". Se isso não estiver correto, como posso justificar ou decidir a distribuição?
Em circunstâncias normais, a pergunta não é 'meus erros (ou distribuições condicionais) são normais?' - eles não serão, nem precisamos verificar. Uma pergunta mais relevante é 'quão mal o grau de não normalidade presente afeta minhas inferências? "
Sugiro uma estimativa da densidade do kernel ou QQplot normal (gráfico de resíduos versus escores normais). Se a distribuição parecer razoavelmente normal, você terá pouco com que se preocupar. De fato, mesmo quando claramente não é normal, ainda pode não ser muito importante, dependendo do que você deseja fazer (intervalos de previsão normais realmente dependerão da normalidade, por exemplo, mas muitas outras coisas tendem a funcionar em amostras de tamanhos grandes )
Curiosamente, em amostras grandes, a normalidade se torna geralmente cada vez menos crucial (além dos IPs, como mencionado acima), mas sua capacidade de rejeitar a normalidade se torna cada vez maior.
Editar: o ponto sobre igualdade de variância é que realmente pode impactar suas inferências, mesmo em grandes amostras. Mas você provavelmente também não deve avaliar isso por testes de hipótese. Entender a suposição de variação incorretamente é um problema, independentemente da sua distribuição assumida.
Eu li que o desvio em escala deve estar em torno de Np para o modelo para um bom ajuste, certo?
Quando você ajusta um modelo normal, ele possui um parâmetro de escala; nesse caso, seu desvio escalonado será sobre Np, mesmo que sua distribuição não seja normal.
na sua opinião, a distribuição normal com o link de log é uma boa escolha
Na contínua ausência de saber o que você está medindo ou para o que está usando a inferência, ainda não posso julgar se deve sugerir outra distribuição para o GLM, nem a importância da normalidade para suas inferências.
No entanto, se suas outras suposições também forem razoáveis (a linearidade e a igualdade de variância devem ser pelo menos verificadas e possíveis fontes de dependência consideradas), na maioria das circunstâncias eu ficaria muito confortável fazendo coisas como usar ICs e realizando testes de coeficientes ou contrastes - há apenas uma leve impressão de assimetria nesses resíduos, que, mesmo que seja um efeito real, não devem ter impacto substancial sobre esses tipos de inferência.
Em suma, você deve ficar bem.
(Embora outra função de distribuição e link possa melhorar um pouco em termos de ajuste, apenas em circunstâncias restritas é provável que também façam mais sentido.)