Sua pergunta pode vir do fato de você estar lidando com probabilidades e probabilidades, o que é confuso no início. Como o modelo logístico é uma transformação não linear da computação os intervalos de confiança não são tão diretos.βTx
fundo
Lembre-se de que, para o modelo de regressão logística
Probabilidade de :p = e α + β 1 x 1 + β 2 x 2( Y= 1 )p = eα + β1x1+ β2x21 + eα + β1x1+ β2x2
Probabilidades de :( p( Y= 1 )( p1 - p) = eα + β1x1+ β2x2
Probabilidades de log de :log ( p( Y= 1 )registro( p1 - p) =α+ β1x1+ β2x2
Considere o caso em que você tem um aumento de uma unidade na variável , ou seja, , as novas chances sãox 1 + 1x1x1+ 1
Probabilidades ( Y= 1 ) = eα + β1( x1+ 1 ) + β2x2= eα + β1x1+ β1+ β2x2
- Odds Ratio (OR) são, portanto,
Probabilidades ( x1+ 1 )Probabilidades ( x1)= eα + β1( x1+ 1 ) + β2x2eα + β1x1+ β2x2= eβ1
Proporção de probabilidades de log = β1
Risco relativo ou (razão de probabilidade) =eα + β1x1+ β1+ β2x21 + eα + β1x1+ β1+ β2x2eα + β1x1+ β2x21 + eα + β1x1+ β2x2
Interpretação de coeficientes
Como você interpretaria o valor do coeficiente ? Supondo que tudo o resto permaneça fixo:βj
- Para cada aumento de unidade em a razão de chances de log aumenta em .β jxjβj
- Para cada aumento de unidade em o odds ratio aumenta em .e β jxjeβj
- Para cada aumento de de para a razão de chances aumenta em k k + Δ e β j Δxjkk+ΔeβjΔ
- Se o coeficiente for negativo, um aumento em leva a uma diminuição na razão de chances.xj
Intervalos de confiança para um único parâmetroβj
Eu só preciso usar ? Ou preciso converter o SE usando uma abordagem descrita aqui?1.96∗SE
Como o parâmetro é estimado usando a Estimativa Máxima de Verossimilhança, a teoria do MLE nos diz que é assintoticamente normal e, portanto, podemos usar o grande intervalo de confiança da amostra de Wald para obter o valor usual.βj
βj±z∗SE(βj)
O que fornece um intervalo de confiança na razão de chances de log. O uso da propriedade invariância do MLE nos permite exponenciar para obter
eβj±z∗SE(βj)
que é um intervalo de confiança no odds ratio. Observe que esses intervalos são apenas para um único parâmetro.
Se eu quiser entender o erro padrão das duas variáveis, como eu consideraria isso?
Se você incluir vários parâmetros, poderá usar o procedimento de Bonferroni; caso contrário, para todos os parâmetros, poderá usar o intervalo de confiança para estimativas de probabilidade
Procedimento de Bonferroni para vários parâmetros
Se os parâmetros devem ser estimados com coeficiente de confiança da família de aproximadamente , os limites de confiança de Bonferroni sãog1−α
βg±z(1−α2g)SE(βg)
Intervalos de confiança para estimativas de probabilidade
O modelo logístico gera uma estimativa da probabilidade de observação de um e pretendemos construir um intervalo freqüencial em torno da probabilidade verdadeira modo quepPr(pL≤p≤pU)=.95
Uma abordagem chamada transformação de terminal faz o seguinte:
- Calcule os limites superior e inferior do intervalo de confiança para a combinação linear (usando o Wald CI)xTβ
- Aplique uma transformação monotônica nos pontos de extremidade para obter as probabilidades.F(xTβ)
Como é uma transformação monotônica dePr(xTβ)=F(xTβ)xTβ
[Pr(xTβ)L≤Pr(xTβ)≤Pr(xTβ)U]=[F(xTβ)L≤F(xTβ)≤F(xTβ)U]
Concretamente, isso significa calcular e aplicar a conversão logit ao resultado para obter os limites inferior e superior:βTx±z∗SE(βTx)
[exTβ−z∗SE(xTβ)1+exTβ−z∗SE(xTβ),exTβ+z∗SE(xTβ)1+exTβ+z∗SE(xTβ),]
A variação aproximada estimada de pode ser calculada usando a matriz de covariância dos coeficientes de regressão usandoxTβ
Var(xTβ)=xTΣx
A vantagem deste método é que os limites não podem estar fora da faixa(0,1)
Também existem várias outras abordagens, usando o método delta, bootstrapping etc., cada um com suas próprias suposições, vantagens e limites.
Fontes e informações
Meu livro favorito sobre esse tópico é "Modelos estatísticos lineares aplicados", de Kutner, Neter, Li, capítulo 14
Caso contrário, aqui estão algumas fontes online: