Interpretação de previsões simples para odds ratio na regressão logística


29

Sou um pouco novo em usar regressão logística e um pouco confuso com uma discrepância entre minhas interpretações dos seguintes valores, que pensei que seriam os mesmos:

  • valores beta exponenciados
  • probabilidade prevista do resultado usando valores beta.

Aqui está uma versão simplificada do modelo que estou usando, onde a desnutrição e o seguro são binários e a riqueza é contínua:

Under.Nutrition ~ insurance + wealth

Meu modelo (real) retorna um valor beta exponenciado de 0,8 para o seguro, que eu interpretaria como:

"A probabilidade de estar desnutrido para um indivíduo segurado é 0,8 vezes a probabilidade de estar desnutrido para um indivíduo não segurado".

No entanto, quando calculo a diferença de probabilidades para indivíduos, inserindo os valores de 0 e 1 na variável seguro e no valor médio da riqueza, a diferença na desnutrição é de apenas 0,04. Isso é calculado da seguinte maneira:

Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
                             (1+exp(β0 + β1*Insurance + β2*wealth))

Eu realmente apreciaria se alguém pudesse explicar por que esses valores são diferentes e qual a melhor interpretação (principalmente para o segundo valor).


Esclarecimentos adicionais Editar
Pelo que entendi, a probabilidade de ser subnutrido para uma pessoa sem seguro (onde B1 corresponde ao seguro) é:

Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
              (1+exp(β0 + β1*0+ β2*wealth))

Embora a probabilidade de ser subnutrido para um segurado seja:

Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
           (1+exp(β0 + β1*1+ β2*wealth))

As chances de ser desnutrido para uma pessoa não segurada em comparação com uma pessoa segurada são:

exp(B1)

Existe uma maneira de traduzir entre esses valores (matematicamente)? Ainda estou um pouco confuso com esta equação (onde eu provavelmente deveria ter um valor diferente no RHS):

Prob(Ins) - Prob(Unins) != exp(B)

Nos termos dos leigos, a questão é por que garantir que um indivíduo não mude sua probabilidade de ser subnutrido tanto quanto a razão de chances indica? Nos meus dados, Prob (Ins) - Prob (Unins) = .04, onde o valor beta exponenciado é 0,8 (então, por que a diferença não é 0,2?)


2
Essas explicações maravilhosas e claras são aplicáveis ​​aos modelos / regressões logísticos?

Respostas:


50

Parece-me evidente que menos que . Então, sou menos claro sobre o que pode ser a confusão. O que posso dizer é que o lado esquerdo (LHS) do (não) sinal de igual é a probabilidade de estar desnutrido, enquanto o RHS é a probabilidade de estar desnutrido. Quando examinado por si só, , é a razão de chances , que é o fator multiplicativo que permite mover das probabilidades ( ) para as probabilidades ( ).

exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
exp(β0+β1x)=0exp(β1)xx+1

Entre em contato se precisar de informações adicionais / diferentes.

Atualização:
Eu acho que isso é principalmente uma questão de não estar familiarizado com probabilidades e probabilidades, e como elas se relacionam. Nada disso é muito intuitivo; você precisa sentar e trabalhar com ele por um tempo e aprender a pensar nesses termos; não vem naturalmente para ninguém.

A questão é que números absolutos são muito difíceis de interpretar por si próprios. Digamos que eu estava falando sobre uma época em que eu tinha uma moeda e me perguntei se era justo. Então eu virei um pouco e tenho 6 cabeças. O que isso significa? 6 é muito, um pouco, certo? É muito difícil dizer. Para lidar com esse problema, queremos dar algum contexto aos números. Em um caso como esse, há duas opções óbvias de como fornecer o contexto necessário: eu poderia fornecer o número total de lançamentos ou o número de caudas. Em qualquer um dos casos, você tem informações adequadas para entender 6 cabeças e pode calcular o outro valor se o que eu lhe disse não for o preferido. Probabilidade é o número de cabeças dividido pelo número total de eventos. A probabilidade é a razão entre o número de cabeças e o número denão cabeças (intuitivamente, queremos dizer o número de caudas, que funciona neste caso, mas não se houver mais de duas possibilidades). Com as probabilidades, é possível fornecer os dois números, por exemplo, 4 a 5. Isso significa que, a longo prazo, algo acontecerá 4 vezes para cada 5 vezes que isso não acontecer. Quando as probabilidades são apresentadas dessa maneira, elas são chamadas de " probabilidades de Las Vegas ". No entanto, nas estatísticas, geralmente dividimos e dizemos que as probabilidades são de 0,8 (ou seja, 4/5 = 0,8) para fins de padronização. Também podemos converter entre probabilidades e probabilidades:

probability=odds1+odds                odds=probability1probability
(Com essas fórmulas, pode ser difícil reconhecer que a probabilidade é o LHS no topo e a probabilidade é o RHS, mas lembre-se de que não é o sinal de igual no meio.) Uma razão de chances é apenas a probabilidade de algo dividido por as chances de outra coisa; no contexto da regressão logística, cada é a razão das probabilidades de valores sucessivos da covariável associada quando todo o resto é mantido igual. exp(β)

O que é importante reconhecer a partir de todas essas equações é que probabilidades, probabilidades e razões de chances não são iguais de maneira direta; só porque a probabilidade aumenta em 0,04 muito não implica que a probabilidade ou razão de chances seja algo como 0,04! Além disso, as probabilidades variam de , enquanto as probabilidades ln (a saída da equação de regressão logística bruta) podem variar de , e as probabilidades e odds ratio podem variar de . Esta última parte é vital: devido ao intervalo limitado de probabilidades, as probabilidades são não lineares , mas as probabilidades podem ser lineares. Ou seja, como (por exemplo)[0,1](,+)(0,+)wealthsob incrementos constantes, a probabilidade de desnutrição aumentará em quantidades variáveis, mas as chances de ln aumentarão em uma quantidade constante e as chances aumentarão por um fator multiplicativo constante. Para qualquer conjunto de valores em seu modelo de regressão logística, pode haver algum ponto em que para alguns e , mas será desigual em qualquer outro lugar. xx

exp(β0+β1x)exp(β0+β1x)=exp(β0+β1x)1+exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
xx

(Embora tenha sido escrito no contexto de uma pergunta diferente, minha resposta aqui contém muitas informações sobre regressão logística que podem ser úteis para você entender melhor a RL e questões relacionadas.)


Obrigado pela resposta. Expliquei ainda mais minha confusão na edição acima.
1955 Mike

Realmente aprecio dedicar um tempo para escrever uma explicação completa - muito útil.
19312 Mike

De nada, Mike, é para isso que serve o CV.
gung - Restabelece Monica

No link de probabilidades de Las Vegas : eu nunca estive em Vegas, mas procurando alguns preços oferecidos por sites baseados em Las Vegas, onde eles citam probabilidades fracionárias (em oposição à moneyline), seguem o sistema britânico de "probabilidades contra", não estatísticas "probabilidades a favor". Assim, as "probabilidades de Las Vegas" no seu link não correspondem às probabilidades reais de jogo, onde "9 para 1" é um evento improvável , e não (como "9 para 1" significa para um estatístico) um provável! Uma fonte de confusão I tentar resolver aqui
Silverfish

@ Silverfish, eu não estive em Las Vegas há muito tempo. Não me lembro se eles normalmente listam probabilidades a favor ou contra. No entanto, '4 a 5' é chamado de odds de Las Vegas .
gung - Restabelece Monica


-1

A razão de chances OR = Exp (b) se traduz em Probabilidade A = SQRT (OR) / (SQRT (OR) +1), onde Probabilidade A é probabilidade do Evento A e OR é razão do evento A / não evento A (ou exposto / não exposto pelo seguro, como na pergunta acima). Demorei um pouco para resolver; Não sei por que essa fórmula não é conhecida.

Há um exemplo. Suponha que haja 10 pessoas admitidas na universidade; 7 deles são homens. Portanto, para todo homem, é 70% de probabilidade de ser admitido. As probabilidades de admissão para homens são 7/3 = 2,33 e não de admissão 3/7 = 0,43. A razão de chances (OR) é de 2,33 / 0,43 = 5,44, o que significa que, para os homens, 5,44 vezes mais chances de serem admitidos do que para mulheres. Vamos encontrar probabilidade de ser admitido pelo homem em OR: P = SQRT (5.44) / (SQRT (5.44) +1) = 0.7

Atualização Isso é verdade apenas se o número de homens ou mulheres admitidos for igual ao número de candidatos. Em outras palavras, não é OR. Não podemos encontrar o ganho (ou perda) de probabilidade depende do fator sem conhecer informações adicionais.


Incorreto Eu tenho medo: neste exemplo podemos estimar as probabilidades (e a probabilidade) que alguém ingressar na universidade é um homem (ou uma mulher), mas há probabilidades proporções sem também saber quantos homens e mulheres estavam entre os candidatos . incorreto Eu tenho medo: neste exemplo podemos estimar as probabilidades (e a probabilidade) que alguém ingressar na universidade é um homem (ou uma mulher), mas há probabilidades proporções sem também saber quantos homens e mulheres estavam entre os candidatos . O que você está chamando de OR aqui é, na verdade, apenas as probabilidades ao quadrado . 7232
Scortchi - Restabelecer Monica

Sim, você está absolutamente certo, obrigado. Descobri que não podemos converter OR conhecido (que obtemos, por exemplo, como saída de regressão logística) em ganho ou perda de probabilidades sem conhecer informações sobre probabilidades anteriores. Eu coloquei atualização na minha resposta.
Niksr
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.