Tenho dados de pesquisas grandes, uma variável de resultado binário e muitas variáveis explicativas, incluindo binárias e contínuas. Estou construindo conjuntos de modelos (experimentando com GLM e GLM misto) e usando abordagens teóricas da informação para selecionar o modelo superior. Examinei cuidadosamente as explicações (contínuas e categóricas) para correlações e só estou usando aquelas no mesmo modelo que possuem um coeficiente de Pearson ou Phicorr menor que 0,3. Eu gostaria de dar a todas as minhas variáveis contínuas uma chance justa de competir pelo modelo principal. Na minha experiência, transformar aqueles que precisam dele com base na inclinação aprimora o modelo em que eles participam (AIC inferior).
Minha primeira pergunta é: essa melhoria é porque a transformação melhora a linearidade com o logit? Ou a correção da inclinação melhora o equilíbrio das variáveis explicativas de alguma forma, tornando os dados mais simétricos? Eu gostaria de entender as razões matemáticas por trás disso, mas por enquanto, se alguém pudesse explicar isso em termos fáceis, isso seria ótimo. Se você tiver alguma referência que eu possa usar, eu realmente aprecio isso.
Muitos sites dizem que, como a normalidade não é uma suposição na regressão logística binária, não transforme as variáveis. Mas sinto que, ao não transformar minhas variáveis, deixo algumas em desvantagem em comparação com outras, e isso pode afetar o modelo principal e alterar a inferência (bem, normalmente não, mas em alguns conjuntos de dados). Algumas de minhas variáveis têm melhor desempenho quando transformadas em log, outras quando ao quadrado (direção diferente da inclinação) e outras não transformadas.
Alguém poderia me dar uma orientação sobre o que ter cuidado ao transformar variáveis explicativas para regressão logística e, se não o fizer, por que não?