Esta é uma pergunta sobre uma prática ou método seguido por alguns dos meus colegas. Ao fazer um modelo de regressão logística, vi pessoas substituindo variáveis categóricas (ou variáveis contínuas que são colocadas em bin) por seus respectivos pesos de evidência (WoE). Isso é supostamente feito para estabelecer uma relação monotônica entre o regressor e a variável dependente. Agora, tanto quanto eu entendo, uma vez que o modelo é feito, as variáveis na equação NÃO são as variáveis no conjunto de dados. Em vez disso, as variáveis na equação agora são do tipo de importância ou peso das variáveis na segregação da variável dependente !
Minha pergunta é: como interpretamos agora o modelo ou os coeficientes do modelo? Por exemplo, para a seguinte equação:
podemos dizer que é o aumento relativo na razão de ímpares para 1 unidade de aumento na variável x 1 .
Mas se a variável for substituída por sua WoE, a interpretação será alterada para: aumento relativo na razão de ímpares para aumento de 1 unidade na IMPORTÂNCIA / PESO da variável
Eu já vi essa prática na internet, mas em nenhum lugar encontrei resposta para essa pergunta. Este link desta comunidade está relacionado a uma consulta semelhante, onde alguém escreveu:
O WoE exibe uma relação linear com o logaritmo natural do odds ratio, que é a variável dependente na regressão logística. Portanto, a questão da especificação incorreta do modelo não surge na regressão logística quando usamos WoE em vez dos valores reais da variável.
Mas ainda não entendi a explicação. Por favor, ajude-me a entender o que estou perdendo.