Eu tenho uma pergunta que acho que será bastante básica para muitos usuários.
Estou usando modelos de regressão linear para (i) investigar a relação de várias variáveis explicativas e minha variável de resposta e (ii) prever minha variável de resposta usando as variáveis explicativas.
Uma variável explicativa X específica parece impactar significativamente minha variável de resposta. Para testar o valor agregado dessa variável explicativa X para o propósito das previsões fora da amostra da minha variável de resposta, usei dois modelos: modelo (a) que usou todas as variáveis explicativas e modelo (b) que usou todas as variáveis exceto a variável X. Para ambos os modelos, apenas relato o desempenho fora da amostra. Parece que os dois modelos têm desempenho quase idêntico como bom. Em outras palavras, adicionar a variável explicativa X não melhora as previsões fora da amostra. Observe que eu também usei o modelo (a), ou seja, o modelo com todas as variáveis explicativas, para descobrir que a variável explicativa X afeta significativamente minha variável de resposta.
Minha pergunta agora é: como interpretar essa descoberta? A conclusão direta é que, embora a variável X pareça influenciar significativamente minha variável de resposta usando modelos inferenciais, ela não melhora as previsões fora da amostra. No entanto, tenho problemas para explicar melhor esse achado. Como isso é possível e quais são algumas explicações para essa descoberta?
Desde já, obrigado!
Informações adicionais: com 'influência significativa', quero dizer que 0 não está incluído no intervalo de densidade posterior mais alto de 95% da estimativa do parâmetro (estou usando uma abordagem bayesiana). Em termos freqüentes, isso corresponde aproximadamente a ter um valor de p menor que 0,05. Estou usando apenas antecedentes difusos (não informativos) para todos os parâmetros de meus modelos. Meus dados têm uma estrutura longitudinal e contém cerca de 7000 observações no total. Para as previsões fora da amostra, usei 90% dos dados para ajustar meus modelos e 10% dos dados para avaliar os modelos usando várias repetições. Ou seja, realizei a divisão de teste de trem várias vezes e, eventualmente, relatei as métricas de desempenho médio.