As probabilidades são uma maneira de expressar chances. As probabilidades são justas: uma chance dividida por outra. Isso significa que um odds ratio é o que você multiplica uma chance para produzir outra. Vamos ver como eles funcionam nessa situação comum.
Convertendo entre probabilidades e probabilidade
As probabilidades de uma resposta binária são a razão da chance que ocorre (codificada com 1 ), escrita Pr ( Y = 1 ) , e a chance que não ocorre (codificada com 0 ), escrita Pr ( Y = 0 ) :Y1Pr ( Y= 1 )0 0Pr ( Y= 0 )
Probabilidades ( Y) = Pr ( Y= 1 )Pr ( Y= 0 )= Pr ( Y= 1 )1 - Pr ( Y= 1 ).
A expressão equivalente à direita mostra que basta modelar para encontrar as probabilidades. Por outro lado, observe que podemos resolverPr ( Y= 1 )
Pr ( Y= 1 ) = Probabilidades ( Y)1 + Probabilidades ( Y)= 1 - 11 + Probabilidades ( Y).
Regressão logística
A regressão logística modela o logaritmo das chances de como uma função linear das variáveis explicativas. Geralmente, escrevendo essas variáveis como x 1 , … , x pYx1, … , Xp e incluindo um possível termo constante na função linear, podemos nomear os coeficientes (que devem ser estimados a partir dos dados) como e β 0 . Formalmente, isso produz o modeloβ1, ... , βpβ0 0
registro( Probabilidades ( Y) ) = β0 0+β1x1+⋯+βpxp.
As probabilidades podem ser recuperadas desfazendo o logaritmo:
Odds(Y)=exp(β0+β1x1+⋯+βpxp).
Usando variáveis categóricas
Variáveis categóricas, como faixa etária, sexo, presença de glaucoma, etc. , são incorporadas por meio de "codificação fictícia". Para mostrar que como a variável é codificada não importa, fornecerei um exemplo simples de um pequeno grupo; sua generalização para vários grupos deve ser óbvia. Neste estudo, uma variável é "tamanho da pupila", com três categorias: "Grande", "Média" e "Pequena". (O estudo as trata como puramente categóricas, aparentemente não prestando atenção à sua ordem inerente.) Intuitivamente, cada categoria tem suas próprias probabilidades, digamos para "Grande", α M para "Médio" e α S para "Pequeno" . Isso significa que, todas as outras coisas iguais,αLαMαS
Odds(Y)=exp(αL+β0+β1x1+⋯+βpxp)
para qualquer pessoa na categoria "Grande",
Odds(Y)=exp(αM+β0+β1x1+⋯+βpxp)
para qualquer pessoa na categoria "Média" e
Odds(Y)=exp(αS+β0+β1x1+⋯+βpxp)
para aqueles na categoria "Pequeno".
Criando coeficientes identificáveis
Eu pintei os dois primeiros coeficientes para destacá-los, porque quero que você observe que eles permitem uma mudança simples: podemos escolher qualquer número e, adicionando-o a β 0 e subtraindo-o de cada um de α L ,γβ0αL e α S ,não alteraríamos nenhuma chance prevista. Isso ocorre pelas equivalências óbvias da formaαMαS
αL+β0=(αL−γ)+(γ+β0),
etc. Embora isso não apresente problemas para o modelo - ainda prediz exatamente as mesmas coisas -, mostra que os parâmetros não são, por si só, interpretáveis. O que permanece o mesmo quando fazemos essa manobra de adição e subtração são as diferenças entre os coeficientes. Convencionalmente, para resolver essa falta de identificabilidade, as pessoas (e, por padrão, software) escolhem uma das categorias em cada variável como "base" ou "referência" e simplesmente estipulam que seu coeficiente será zero. Isso remove a ambiguidade.
αLαL,αM,αSβ0
β0
Odds(Base category)=exp(β0+β1X1+⋯+βpXp).
βiαj
Comparando probabilidades
Vamos comparar as probabilidades. Suponha que um indivíduo hipotético seja um
paciente do sexo masculino, com idades entre 80 e 89 anos, com catarata branca, sem visão do fundo e um pequeno aluno sendo operado por um registrador especialista, ...
α80-89αmale
α80-89+αmale+αno Glaucoma+⋯+αspecialist registrar.
Essa é precisamente a quantidade pela qual as chances de log desse paciente variam em relação à base. Para converter de probabilidades de log, desfaça o logaritmo e lembre-se de que isso transforma adição em multiplicação. Portanto, as probabilidades básicas devem ser multiplicadas por
exp(α80-89)exp(αmale)exp(αno Glaucoma)⋯exp(αspecialist registrar).
x1,…,xpexp(α80-89)=1.58exp(αmale)=1.28exp(αno Glaucoma)=1.0034.5
Odds(Charlie)=34.5×Odds(Base).
(Observe que todas as categorias de base têm odds ratio de 1,00 = exp( 0 ), porque incluindo 1no produto o deixa inalterado. É assim que você pode identificar as categorias de base na tabela.)
Reapresentando os resultados como probabilidades
Finalmente, vamos converter esse resultado em probabilidades. Nos disseram que a probabilidade prevista da linha de base é0,736 % = 0,00736. Portanto, usando as fórmulas relacionadas a probabilidades e probabilidades derivadas desde o início, podemos calcular
Probabilidades (Base) = 0.007361 - 0,00736= 0,00741.
Consequentemente, as probabilidades de Charlie são
Probabilidades (Charlie) = 34,5 × 0,00741 = 0,256.
Por fim, converter isso de volta em probabilidades fornece
Pr ( Y( Charlie ) = 1 ) = 1 - 11 + 0,256= 0,204.