Portanto, estou trabalhando com modelos de regressão logística em R. Embora ainda seja novo em estatística, sinto que já compreendi um pouco os modelos de regressão, mas ainda há algo que me incomoda:
Observando a imagem vinculada, você vê o resumo R impresso para um modelo de exemplo que eu criei. O modelo está tentando prever, se um email no conjunto de dados será recuperado ou não (variável binária isRefound
) e o conjunto de dados contiver duas variáveis intimamente relacionadas isRefound
, a saber, next24
e next7days
- estas também são binárias e informam se um email será clicado na próxima 24 horas / próximos 7 dias a partir do ponto atual nos logs.
O alto valor p deve indicar que o impacto que essa variável tem na previsão do modelo é bastante aleatório, não é? Com base nisso, não entendo por que a precisão das previsões dos modelos cai abaixo de 10% quando essas duas variáveis são deixadas de fora da fórmula de cálculo. Se essas variáveis mostram uma significância tão baixa, por que removê-las do modelo tem um impacto tão grande?
Atenciosamente, obrigado Rickyfox
EDITAR:
Primeiro eu removi apenas o next24, o que deve produzir um baixo impacto, porque o coef é muito pequeno. Como esperado, pouco mudou - não vou fazer upload de uma foto para isso.
A remoção dos próximos dias teve um grande impacto no modelo: aumento de AIC 200k, precisão de até 16% e recuperação de 73%
isRefound ~ day + next24
e omitir todas as outras variáveis?