Uma '' variável significativa '' que não melhora as previsões fora da amostra - como interpretar?

Eu tenho uma pergunta que acho que será bastante básica para muitos usuários.

Estou usando modelos de regressão linear para (i) investigar a relação de várias variáveis explicativas e minha variável de resposta e (ii) prever minha variável de resposta usando as variáveis explicativas.

Uma variável explicativa X específica parece impactar significativamente minha variável de resposta. Para testar o valor agregado dessa variável explicativa X para o propósito das previsões fora da amostra da minha variável de resposta, usei dois modelos: modelo (a) que usou todas as variáveis explicativas e modelo (b) que usou todas as variáveis exceto a variável X. Para ambos os modelos, apenas relato o desempenho fora da amostra. Parece que os dois modelos têm desempenho quase idêntico como bom. Em outras palavras, adicionar a variável explicativa X não melhora as previsões fora da amostra. Observe que eu também usei o modelo (a), ou seja, o modelo com todas as variáveis explicativas, para descobrir que a variável explicativa X afeta significativamente minha variável de resposta.

Minha pergunta agora é: como interpretar essa descoberta? A conclusão direta é que, embora a variável X pareça influenciar significativamente minha variável de resposta usando modelos inferenciais, ela não melhora as previsões fora da amostra. No entanto, tenho problemas para explicar melhor esse achado. Como isso é possível e quais são algumas explicações para essa descoberta?

Desde já, obrigado!

Informações adicionais: com 'influência significativa', quero dizer que 0 não está incluído no intervalo de densidade posterior mais alto de 95% da estimativa do parâmetro (estou usando uma abordagem bayesiana). Em termos freqüentes, isso corresponde aproximadamente a ter um valor de p menor que 0,05. Estou usando apenas antecedentes difusos (não informativos) para todos os parâmetros de meus modelos. Meus dados têm uma estrutura longitudinal e contém cerca de 7000 observações no total. Para as previsões fora da amostra, usei 90% dos dados para ajustar meus modelos e 10% dos dados para avaliar os modelos usando várias repetições. Ou seja, realizei a divisão de teste de trem várias vezes e, eventualmente, relatei as métricas de desempenho médio.

— dubvice
fonte

Como você está usando uma abordagem bayesiana, seus resultados dependem tanto do seu anterior quanto dos dados. Como a dependência do anterior diminui com o aumento da quantidade de dados e aumenta na medida em que os dados e o desacordo anterior, seria útil fornecer informações sobre a distribuição anterior, a quantidade de dados e a proximidade com que os dados estão em conformidade. para a distribuição anterior.

— whuber

@whuber Esqueci de mencionar que só estou usando anteriores difusos (não informativos). Portanto, não acho que minha especificação anterior tenha algo a ver com minhas descobertas. Tenho certeza de que o ajuste de modelos de regressão linear freqüentista resultará exatamente nas mesmas descobertas.

— dubvice

Obrigado - isso ajuda a descartar várias explicações possíveis.

— whuber

Você está recolocando os modelos nos dados retidos ou usando os modelos adequados aos seus dados originais? Em ambos os casos, um possível problema é que você está cometendo um erro do Tipo II nos dados retidos; talvez a variável seja relevante, mas você estava com pouca potência originalmente (nesse caso, provavelmente está superestimando o efeito que poderia piorar as previsões). Ou a variável era irrelevante e você cometeu um erro do tipo I. Há muitas razões para esse tipo de coisa acontecer.

— cara

Eu usei várias métricas: RSME, MAE e AUC (também estou tentando prever se minha variável depedente, que é contínua, está abaixo de um certo limite).

— Dubvice

Respostas:

x1x2x1x2x1x2x1x2 $R^2$

A função é:

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

Como exemplo, para os valores padrão que obtemos,

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

x2 $R^2$

Mas se definirmos o tamanho do efeito como 0,3, obtemos:

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

$R^2$

— Dimitris Rizopoulos
fonte

A dicotomia vaga entre significância estatística e desempenho preditivo é o banimento da minha vida analítica de várias maneiras. (+1 - e uma bem-vinda geral ao CV Prof.!)

— usεr11852

-1

Isso é algo bastante normal para ocorrer em regressão múltipla. O motivo mais comum é que seus preditores estão relacionados entre si. Em outras palavras, você pode inferir X a partir dos valores dos outros preditores. Portanto, embora seja útil para previsões, se é o único preditor que você possui, depois de ter todos os outros preditores, ele não fornece muita informação extra. Você pode verificar se esse é o caso regredindo X nos outros preditores. Também me referiria ao capítulo sobre regressão linear no livro online gratuito, Elements of Statistical Learning.

— Denziloe
fonte

Você parece estar descrevendo uma variável explicativa não significativa em vez de abordar as circunstâncias específicas descritas na pergunta.

— whuber

Estou descrevendo uma variável explicativa que está significativamente relacionada à resposta por si só (ou seja, em uma regressão simples), que é o que presumo que a pergunta signifique "X parece impactar significativamente minha variável de resposta".

— Denziloe

Mas, nesse caso, eu não teria achado que minha variável explicativa X afeta significativamente minha variável de resposta, certo? Talvez eu não tenha deixado claro em minha pergunta inicialmente, mas usei um modelo com todas as variáveis explicativas para descobrir que a variável explicativa X tem uma influência significativa na minha variável de resposta.

— dubvice

X

$X$

Sim whuber, você entendeu corretamente. É isso que eu quero dizer. Espero esclarecer isso bem o suficiente na minha pergunta.

— Dubvice