Da sua pergunta anterior você aprendeu que GLM é descrito em termos de distribuição de probabilidade, linear preditor função de ligação e g e é descrito comoηg
ηE(Y|X)=Xβ=μ=g−1(η)
onde é uma função de link de logit e supõe-se que Y segue uma distribuição de BernoulligY
Yi∼B(μi)
cada seguinte distribuição de Bernoulli com ele próprio significativo μ i que está condicionada em X . Estamos não assumindo que cada Y i vem da mesma distribuição, com a mesma média (isto seria a única intercepto-modelar Y i = g - 1 ( μ ) ), mas que todos eles têm diferentes meios. Assumimos que Y i 's são independentes , ou seja, não temos que se preocupar com coisas como auto-correlação entre posterior Y i valores etc.Yi μiXYiYi=g−1(μ)YiYi
A suposição iid está relacionada a erros na regressão linear (isto é, GLM Gaussiano), onde o modelo é
yi=β0+β1xi+εi=μi+εi
onde , então temos ruído de iid em torno de μ i . É por isso que está interessado no diagnóstico de resíduos e preste atenção nos resíduos versus plotagem ajustadaεi∼N(0,σ2)μi . Agora, no caso de regressão logística do GLM, não é tão simples, pois não há termo de ruído aditivo como no modelo gaussiano (veja aqui , aqui e aqui) Ainda queremos que os resíduos sejam "aleatórios" em torno de zero e não queremos ver nenhuma tendência neles, porque eles sugerem que existem alguns efeitos que não são contabilizados no modelo, mas não assumimos que sejam normal e / ou iid . Veja também o tópico Sobre a importância da suposição iid no aprendizado estatístico .
Como nota, aviso que pode soltar mesmo no pressuposto de que cada vem a partir do mesmo tipo de distribuição. Há (não-GLM) modelos que assumem que diferente Y i 's podem ter diferentes distribuições com diferentes parâmetros, isto é, que os seus dados vem de uma mistura de diferentes distribuições . Nesse caso também se supor que os Y i valores são independentes , uma vez que os valores dependentes, vindo de diferentes distribuições com parâmetros diferentes (isto é típico de dados do mundo real) é algo que na maioria dos casos seria muito complicado para o modelo de (muitas vezes impossível) .YiYiYi