Registro transformado minha variável dependente. Posso usar a distribuição normal GLM com a função de link LOG?

Eu tenho uma pergunta sobre modelos lineares generalizados (GLM). Minha variável dependente (DV) é contínua e não é normal. Então eu log transformá-lo (ainda não é normal, mas melhorou).

Quero relacionar o DV com duas variáveis categóricas e uma covariável contínua. Para isso, quero conduzir um GLM (estou usando o SPSS), mas não sei como decidir sobre a distribuição e a função a escolher.

Realizei o teste não paramétrico de Levene e tenho homogeneidade de variações, por isso estou inclinado a usar a distribuição normal. Eu li que, para regressão linear, os dados não precisam ser normais, os resíduos sim. Portanto, imprimi os resíduos de Pearson padronizados e os valores previstos para o preditor linear de cada GLM individualmente (função de identidade normal do GLM e função de log normal). Realizei testes de normalidade (histograma e Shapiro-Wilk) e plotei resíduos contra os valores previstos (para verificar a aleatoriedade e a variação) de ambos individualmente. Os resíduos da função de identidade não são normais, mas os resíduos da função de log são normais. Estou inclinado a escolher normal com a função de link de log porque os resíduos de Pearson são normalmente distribuídos.

Então, minhas perguntas são:

Posso usar a distribuição normal GLM com a função de link LOG em um DV que já foi transformado em log?
O teste de homogeneidade de variância é suficiente para justificar o uso da distribuição normal?
O procedimento de verificação de resíduos está correto para justificar a escolha do modelo da função de link?

Imagem da distribuição DV à esquerda e resíduos do GLM normal com a função de link de log à direita.

Distribuição DV à esquerda e resíduos do GLM normal à direita

— Cientista
fonte

Não é muito claro o que você quer dizer com isso: " Então, eu compararam os resíduos de Pearson de GLM com função identidade normal e função de registo normal. "

— Glen_b -Reinstate Monica

Obrigado pelo seu comentário. Eu quis dizer que imprimi os resíduos e os valores previstos de cada GLM (identidade e log) individualmente e verifiquei a normalidade e plotei os resíduos padronizados da Pearson contra os valores previstos para cada modelo individualmente. Para a função de identidade, os resíduos não são normais, enquanto que para a função de log, os resíduos são normais.

— cientista

Como um gráfico de resíduos padronizados de Pearson em relação aos valores previstos indica se os dados são realmente normais ou não?

— Glen_b -Reinstar Monica

Eu verifiquei a normalidade plotando o histograma dos resíduos e conduzindo Shapiro-Wilk (P> 0,05 para a função log). Em seguida, plotei os resíduos contra os valores previstos para ver se eles foram distribuídos aleatoriamente e para verificar a variação. (desculpe por não dizer a informação importante, é a primeira vez estou postando)

— Scientist

Eu acho que "função de identidade" é um deslize de homofone aqui para "função de densidade".

— Nick Cox

Posso usar a distribuição normal GLM com a função de link LOG em um DV que já foi transformado em log?

Sim; se as premissas forem atendidas nessa escala

O teste de homogeneidade de variância é suficiente para justificar o uso da distribuição normal?

Por que igualdade de variância implicaria normalidade?

O procedimento de verificação de resíduos está correto para justificar a escolha do modelo da função de link?

Você deve tomar cuidado com o uso de histogramas e testes de qualidade de ajuste para verificar a adequação de suas suposições:

1) Cuidado ao usar o histograma para avaliar a normalidade. (Veja também aqui )

Em resumo, dependendo de algo tão simples quanto uma pequena alteração na sua escolha de largura de caixa ou até mesmo a localização do limite da caixa, é possível obter impressões bastante diferentes da forma dos dados:

Dois histogramas de resíduos

São dois histogramas do mesmo conjunto de dados. O uso de várias larguras de caixa diferentes pode ser útil para verificar se a impressão é sensível a isso.

2) Cuidado ao usar testes de bondade de ajuste para concluir que a suposição de normalidade é razoável. Testes formais de hipóteses realmente não respondem à pergunta certa.

por exemplo, veja os links no item 2. aqui

Sobre a variância, mencionada em alguns trabalhos usando conjuntos de dados semelhantes "porque as distribuições tinham variações homogêneas, foi utilizado um GLM com uma distribuição gaussiana". Se isso não estiver correto, como posso justificar ou decidir a distribuição?

Em circunstâncias normais, a pergunta não é 'meus erros (ou distribuições condicionais) são normais?' - eles não serão, nem precisamos verificar. Uma pergunta mais relevante é 'quão mal o grau de não normalidade presente afeta minhas inferências? "

Sugiro uma estimativa da densidade do kernel ou QQplot normal (gráfico de resíduos versus escores normais). Se a distribuição parecer razoavelmente normal, você terá pouco com que se preocupar. De fato, mesmo quando claramente não é normal, ainda pode não ser muito importante, dependendo do que você deseja fazer (intervalos de previsão normais realmente dependerão da normalidade, por exemplo, mas muitas outras coisas tendem a funcionar em amostras de tamanhos grandes )

Curiosamente, em amostras grandes, a normalidade se torna geralmente cada vez menos crucial (além dos IPs, como mencionado acima), mas sua capacidade de rejeitar a normalidade se torna cada vez maior.

Editar: o ponto sobre igualdade de variância é que realmente pode impactar suas inferências, mesmo em grandes amostras. Mas você provavelmente também não deve avaliar isso por testes de hipótese. Entender a suposição de variação incorretamente é um problema, independentemente da sua distribuição assumida.

Eu li que o desvio em escala deve estar em torno de Np para o modelo para um bom ajuste, certo?

Quando você ajusta um modelo normal, ele possui um parâmetro de escala; nesse caso, seu desvio escalonado será sobre Np, mesmo que sua distribuição não seja normal.

na sua opinião, a distribuição normal com o link de log é uma boa escolha

Na contínua ausência de saber o que você está medindo ou para o que está usando a inferência, ainda não posso julgar se deve sugerir outra distribuição para o GLM, nem a importância da normalidade para suas inferências.

No entanto, se suas outras suposições também forem razoáveis (a linearidade e a igualdade de variância devem ser pelo menos verificadas e possíveis fontes de dependência consideradas), na maioria das circunstâncias eu ficaria muito confortável fazendo coisas como usar ICs e realizando testes de coeficientes ou contrastes - há apenas uma leve impressão de assimetria nesses resíduos, que, mesmo que seja um efeito real, não devem ter impacto substancial sobre esses tipos de inferência.

Em suma, você deve ficar bem.

(Embora outra função de distribuição e link possa melhorar um pouco em termos de ajuste, apenas em circunstâncias restritas é provável que também façam mais sentido.)

— Glen_b -Reinstate Monica
fonte

Obrigado novamente! Sobre a variância, mencionada em alguns trabalhos usando conjuntos de dados semelhantes "porque as distribuições tinham variações homogêneas, foi utilizado um GLM com uma distribuição gaussiana". Se isso não estiver correto, como posso justificar ou decidir a distribuição? Em relação à distribuição normal residual, isso significa que é mais apropriado, certo? Eu li que o desvio em escala deve estar em torno de Np para o modelo para um bom ajuste, certo? O valor é o mesmo para os GLMs e em torno de Np. Também identifiquei o modelo mais adequado no modelo usando os critérios da AIC. Não tenho certeza se é isso que você quis dizer.

— cientista

veja a discussão nas minhas edições acima

— Glen_b -Reinstate Monica

Obrigado @Glen_b pela boa explicação. O histograma que também testei usando Shapiro-Wilk, isso não considera tudo? Plotei o QQ plotado os valores residuais normais e Observed Pearson esperados e os pontos + - se ajustam à linha, exceto nas dicas para onde eles vão um pouco para cima. É isso que você queria dizer? A distribuição dos resíduos parece normal, para que eu possa prosseguir? (mesmo que o registrado DV não é normal) (eu ainda estou lendo os links, mas queria perguntar isso)

— Scientist

" porque o gráfico QQ normal era normalmente distribuído para este modelo? " ... eu poderia dizer "o gráfico QQ de resíduos sugere que a suposição de normalidade é razoável" ou "os resíduos parecem razoavelmente próximos do normal". Se seu público espera testes de hipóteses, você ainda pode citar um (mas isso não altera o fato de que eles não são particularmente úteis). " O problema com o conjunto de dados é que, no histograma do DV " ... não há suposição sobre a distribuição do DV incondicional ou de qualquer um dos IVs.

— Glen_b -Reinstar Monica

Veja a discussão adicional na parte inferior da minha resposta. Desculpe por não ter respondido mais cedo, mas estava dormindo. Na outra questão, a razão pela qual perguntei foi que os dois modelos compartilham a maioria de suas suposições, e praticamente toda essa discussão é relevante para essa pergunta - mesmo que o DV seja diferente. Não é exatamente a mesma situação (e, portanto, deve ser uma nova pergunta), mas essa pergunta deve estar vinculada a ela, para que você possa fazer perguntas no contexto desta discussão, como se existem problemas diferentes ou adicionais.

— Glen_b -Reinstar Monica