As respostas acima são mais intuitivas, por isso tento mais rigor.
O que é um GLM?
Vamos denotar um conjunto de uma resposta e -dimensional covariável vetor com o valor esperado . Para observações independentes, a distribuição de cada é uma família exponencial com densidade
Aqui, o parâmetro de interesse (parâmetro natural ou canônico) é , é um parâmetro de escala (conhecido ou visto como incômodo) e e são funções conhecidas. Oy p x = ( x 1 , … , x p ) E ( y ) = μ i = 1 , … , n y i f ( y i ; θ i , ϕ ) = exp { [ y i θ i - γ ( θ i ) ] /Y= ( y, X )ypx=(x1,…,xp)E(y)=μi=1,…,nyi
f(yi;θi,ϕ)=exp{[yiθi−γ(θi)]/ϕ+τ(yi,ϕ)}
θiϕγτnvetores tridimensionais de valores de entrada fixos para as variáveis explicativas são indicados por . Assumimos que os vetores de entrada influenciam (1) somente através de uma função linear, o preditor linear,
dos quais depende. Como pode ser mostrado que , essa dependência é estabelecida conectando o preditor linear e através da média. Mais especificamente, a média é vista como uma função invertível e suave do preditor linear, ou seja,
px1,…,xpηi=β0+β1xi1+⋯+βpxip
θiθ=(γ′)−1(μ)ηθμg(μ)=η or μ=g−1(η)
Agora respondendo à sua questão:
A função é chamada de função de link. Se a função conectar , e tal forma que , esse link será chamado canônico e terá a forma .μ η θ η ≡ θ g = ( γ ′ ) - 1g(⋅)μηθη≡θg=(γ′)−1
É isso aí. Depois, existem várias propriedades estatísticas desejáveis do uso do link canônico, por exemplo, a estatística suficiente é com componentes para , pontuação do Método Newton e Fisher para achando que o estimador de ML coincide, esses links simplificam a derivação do MLE, asseguram que algumas propriedades da regressão linear (por exemplo, a soma dos resíduos é 0) se sustentem ou garantem que permanece dentro do intervalo da variável de resultado .Σ i x i j y i j = 1 , ... , p μX′y∑ixijyij=1,…,pμ
Portanto, eles tendem a ser usados por padrão. Observe, no entanto, que não há uma razão a priori para que os efeitos no modelo sejam aditivos na escala fornecida por este ou qualquer outro link.