Além da resposta de @ DavidSmith, segue uma terminologia mais formal:
Modelos lineares generalizados invocam uma relação de variação média como conseqüência da função de link. Não há resíduos em um GLM porque a variação é apenas uma função da média. Então, quando escrevemos um GLM, ele tem a forma:
g( E[ Y| X] ) = βX
Onde g é uma função de link, os termos βX são os preditores lineares ν e os valores transformados g- 1( βX)são os valores ajustados. Em geral, o caso é queE[ Y] =g- 1( βX) implica v a r ( Y) =∂∂βg- 1( βX). Por exemplo, com regressão logística, o link de logit inversog- 1( x ) = log(X1 - X) tem g′ - 1( X) = log(1 11 - X) =g- 1( X) ( 1 -g- 1( X) ) com a segunda expressão facilmente reconhecida como a variação binomial.
Ao escrever as equações de estimativa para modelos de probabilidade comuns, como binomial, poisson ou exponencial, você realmente observa que a informação (ou variação) depende da média e nada mais. Esses modelos de um parâmetro, como o nome sugere, usam apenas um parâmetro (como probabilidades de log ou taxa relativa de log) para relacionar o resultado esperado a uma combinação linear de preditores e a uma função de link correspondente. A função de influência (gradiente ou derivada) do link relaciona a média à variância.
Os modelos de probabilidade gaussiana diferem dos modelos binomiais (logísticos), pois são dois modelos de parâmetros, incluindo um termo de dispersão (sigma ou variação residual). Um modelo gaussiano também é diferente de outros 2 modelos de parâmetros (como binomial negativo ou Gama) porque você pode escrever a variação residual como um termo separado em um modelo.
Basicamente, os mínimos quadrados comuns com erro normal e independente é o único caso que sei onde podemos realmente escrever: y= βX+ ϵ significativamente.
A questão maior de como você relaciona os resultados esperados aos resultados observados é complicada. Em um modelo normal, essa é uma diferença simples do esperado e observado para obter um resíduo. Nos GLMs, a variação é heterocedástica, porque a média muda em função daX, para que você possa padronizar cada resíduo dividindo pelo erro padrão esperado para obter resíduos de Pearson.