Para uma regressão logística binária, o caso de uso usual para o GLM binomial com um link de logit, você está modelando a probabilidade de que sua variável dependente seja um "sucesso" (ou "sim"), convencionalmente codificado como . A maneira como você está fazendo isso é modelando as probabilidades de log. Portanto, em vez de modelar a média da resposta como no OLS, você está modelando a alteração nas probabilidades do log:Pr ( Y = 1 ) = θ = logit - 1 ( β 0 + β 1 x 1 + β 2 x 2 + . . . + Β 7 x 7 )1
Pr ( y= 1 ) = θ = logit- 1( β0 0+ β1x1+ β2x2+ . . . + β7x7)
Onde e .logit-1(x)=exp(x)logit ( x ) = log( x1 - x)logit- 1( x ) = exp( X )1 + exp( X )
Uma explicação mais completa e muito acessível sobre isso pode ser encontrada em Agresti, Uma introdução à análise de dados categóricos.
Mas para sua pergunta específica, você afirma que está modelando a proporção de sucessos. Na verdade, não é isso que um GLM binomial está acostumado a fazer. No entanto, o que você realmente procura é o que um GLM binomial faz, e ainda é possível em R. Isso requer apenas um pequeno ajuste no que você está fazendo. No caso de você ter um número finito de tentativas que podem ter , você ainda pode usar o mesmo modelo, que possui densidade
Como seus valores são fixados pelo design experimental e são seus sucessos observados, você está realizando uma inferência no parâmetroy ∈ { 0 ... n } Pr ( y ) ∼ ( nny∈ { 0 ... n }
Pr ( y) ∼ ( ny) θy( 1 - θ )n - y
y θ n y θ θ logit ( θ ) = β 0 + β 1 x 1 + . . . + β i x i θnyθ da mesma maneira que no caso de resposta binária mais típico (acima), no qual é fixado em 1, assume o valor 1 com probabilidade e é uma função dos seus parâmetros. Para o caso do link logit, , principalmente porque esse transformado existe em toda a linha real, em vez do intervalo de unidade . (Outras propriedades desejáveis do link de logit são descritas em Agresti, incluindo a validade dos coeficientes, mesmo em ambientes onde amostras não aleatórias, como projetos de controle de caso, são usadas; não é o caso, por exemplo, de funções de link de probit.)
nyθθlogit ( θ ) = β0 0+ β1x1+ . . . + βEuxEu
θ
Em termos de R, basta criar um objeto (denominado glmDV
) que é uma matriz de duas colunas, a primeira coluna o número de sucessos e a segunda o número total de falhas . O restante da declaração permanece o mesmo!n - yyn - y
0
s &1
s (o que eu deduzo é o que você baseou em sua descrição), você deve usar umweights
argumento w / ? Glm , onde os pesos são o número total de tentativas para cada observação.