Regressão logística: interpretação de variáveis contínuas

Eu tinha algumas perguntas sobre a interpretação de odds ratio para variáveis contínuas na regressão logística. Sinto que essas são perguntas básicas sobre regressão logística (e provavelmente sobre regressão em geral) e, embora tenha um pouco de vergonha de não saber as respostas, vou engolir meu orgulho e perguntar a elas para que eu as conheça. o futuro!

Aqui está minha situação ... Estou vendo uma amostra de jovens adjudicados que, como parte de sua liberdade condicional, estavam matriculados em um programa de treinamento de habilidades para a vida profissional. Eu queria ver até que ponto a idade em que eles foram liberados do programa previa emprego seis meses após o lançamento do programa.

(Além disso, lembre-se de que existem outros preditores no modelo, mas eu os excluí porque eles não são estatisticamente significativos e eu quero manter isso o mais claro possível.)

Preditor: idade de liberação do programa de treinamento (idade média = 17,4, DP = 1,2, intervalo 14,3-20,5)

Resultado: Empregado ou não (Empregado = 1, Não Empregado = 0)

Resultado: Odds ratio 3.01 (p <.005) (excluí as estatísticas de qualidade do ajuste, etc. porque estou procurando respostas sobre a interpretação apenas do odds ratio; me sinto confortável com a avaliação do ajuste do modelo, ICs etc.)

Colocando em palavras: À medida que a idade aumenta em um ano, as chances de ser empregado seis meses após a alta aumentam em três unidades.

Questões:

1) Quando digo: "À medida que a idade aumenta em um ano ...", qual é o ponto de partida para a idade?

A idade começa em zero? Por exemplo, "À medida que a idade aumenta de 0 [ou seja, a idade mais baixa se você colocar esse modelo em um gráfico] ..."

A idade começa na idade mais baixa entre as faixas etárias da amostra? Por exemplo, "À medida que a idade aumenta de 14,3 ..."

A idade começa na idade média da amostra? Por exemplo, "À medida que a idade aumenta de 17,4 ...",

2) A centralização me ajudaria a interpretar esse resultado OU isso só é eficaz na interpretação do y-int? Se isso ajudasse, eu estava pensando em centralizar ou subtrair a idade mais baixa do intervalo de todas as outras idades da amostra. Alguma sugestão?

3) Finalmente, é apropriado dizer que, comparado a um jovem de 14 anos, um jovem de 17 anos tem nove vezes mais chances de ser empregado? Pergunto porque sei que a regressão logística assume uma relação sigmoidal, e estou curioso para saber se esse aumento de três unidades nas probabilidades permanece consistente a qualquer momento ao longo da linha de regressão.

Muito obrigado!

Aaron

regression logistic

— user44992
fonte

Você pode estar interessado nisso .

— Tchakravarty 5/05

A remoção de variáveis "insignificantes" é muito problemática.

— Frank Harrell

@FrankHarrell, você poderia explicar por que a remoção de variáveis insignificantes é muito problemática nesse caso?

— Mark White

Isso foi discutido detalhadamente neste site. Resumidamente ruínas erros padrão, p-valores, cobertura de intervalo de confiança, etc.

— Frank Harrell

1) Como é uma razão de chances , não importa por onde começar. As probabilidades para um jovem de 18 anos são 3 vezes as chances para um jovem de 17 anos. Ou as chances de um jovem de 17 anos são 1/3 do de um jovem de 18 anos. Mesma coisa. Se você deseja obter a probabilidade de que uma pessoa de uma determinada idade seja empregada, use a fórmula com as estimativas de parâmetro (não as ORs). Ou você pode obter o programa que está usando para fazer isso por você.

2) Se a ajuda centrada é uma questão de opinião. Não acho os modelos centralizados mais claros, mas algumas pessoas o fazem.

3) As probabilidades não são exatamente as mesmas que "prováveis" (embora muitas pessoas falem como se fossem) e as probabilidades para um jovem de 17 anos seriam 27 vezes maiores do que o de um jovem de 14 anos.

Finalmente, eu seria cauteloso com esse modelo. O modelo assume que o OR é o mesmo entre 14 e 15, 15 e 16 e assim por diante. Isso me parece improvável, com base no que sei sobre o assunto.

— Peter Flom - Restabelece Monica
fonte

A probabilidade média de se inscrever no problema de treinamento de um indivíduo é # vezes a chance de outro indivíduo um ano mais novo / mais velho, depois de manter todas as outras variáveis constantes.

Essa é a minha opinião.

— Yiwan Ye
fonte

Você pode expandir como isso adiciona à resposta anterior?

— mdewey

Regressão logística: interpretação de variáveis ​​contínuas

Regressão logística: interpretação de variáveis contínuas