As técnicas de regressão gradual aumentam o poder preditivo de um modelo?

Eu entendo alguns dos muitos problemas da regressão gradual. No entanto, como empreendimento acadêmico, suponha que eu queira usar a regressão gradual para um modelo preditivo, e quero entender melhor os impactos que isso pode ter no desempenho.

Dado um modelo linear, por exemplo, a execução de regressão gradual no modelo tende a aumentar ou diminuir o poder preditivo do modelo quando apresentado com novos dados?

Existem impactos teóricos que a regressão gradual terá na capacidade preditiva?

A experiência prática também seria útil; talvez situações em que a regressão gradual aprimore a previsão e quando não.

regression predictive-models stepwise-regression

— Minador
fonte

Não entendi: você começa pedindo que ignoremos os problemas - que incluem problemas com poder preditivo - e depois pergunta se existem esses problemas! Por que não procurar respostas no nosso site? Um popular está em stats.stackexchange.com/questions/20836 .

— whuber

Quero me concentrar nas questões que envolvem o poder preditivo (não valores de p, preconceitos de coeficiente etc.). Com base nos seus comentários, tornarei a redação da minha pergunta menos ambígua. Minha pesquisa no site não forneceu respostas específicas para o desempenho preditivo de modelos completos, versus modelos reduzidos gradualmente.

— Minador 22/09

"Ignorar questões de ..." incluiria ignorar alternativas melhores, mesmo dentro do foco no poder preditivo?

— Matthew Drury

@MatthewDrury Estou interessado principalmente nos efeitos da regressão gradual. Dito isto, eu certamente estaria interessado em resultados de métodos automatizados semelhantes.

— Underminer

Nos últimos três parágrafos, existem três coisas diferentes? Qual é o problema ou objetivo exato que você deseja resolver?

— Subhash C. Davar 23/09

Respostas:

Existem vários problemas com a seleção gradual. Eu discuti passo a passo na minha resposta aqui: Algoritmos para seleção automática de modelo . Nessa resposta, não me concentrei principalmente nos problemas com inferência, mas no fato de que os coeficientes são tendenciosos (os atletas que testam são análogos às variáveis). Como os coeficientes são desviados de seus valores reais, o erro preditivo fora da amostra deve ser aumentado, ceteris paribus.

Considere a noção de compensação de desvio e desvio . Se você pensa na precisão do seu modelo como a variação dos erros de previsão (ou seja, MSE: ), o erro de previsão esperado é a soma de três fontes diferentes de variação : $1/n\sum (y_i -\hat y_i)^2$

E [(y_{i} - {\hat{y}}_{i})^{2}] = V a r (\hat{f}) + [B i a s (\hat{f})]^{2} + V a r (ε)

$\newcommand{\Var}{{\rm Var}} E\big[(y_i -\hat y_i)^2\big] = \Var(\hat f) + \big[{\rm Bias}(\hat f)\big]^2 + \Var(\varepsilon)$ Esses três termos são a variação de sua estimativa da função, o quadrado do viés da estimativa e o erro irredutível no processo de geração de dados, respectivamente. (O último existe porque os dados não são determinísticos - você nunca obterá previsões mais próximas do que a média.) Os dois primeiros vêm do procedimento usado para estimar seu modelo. Por padrão, podemos pensar que o OLS é o procedimento usado para estimar o modelo, mas é mais correto dizer que a seleção gradual sobre as estimativas do OLS é o procedimento. A idéia do trade-off de desvio de variação é que, enquanto um modelo explicativo enfatiza corretamente a imparcialidade, um modelo preditivo pode se beneficiar do uso de um procedimento de desvio se a variação for suficientemente reduzida (para uma explicação mais completa, consulte:Que problema os métodos de encolhimento resolvem? )

Com essas idéias em mente, o ponto da minha resposta ligada no topo é que uma grande quantidade de preconceito é induzida. Todas as coisas são iguais, o que tornará as previsões da amostra piores. Infelizmente, a seleção gradual não reduz a variação da estimativa. Na melhor das hipóteses, sua variância é a mesma, mas é provável que a variância seja muito pior (por exemplo, o @Glen_b relata que apenas 15,5% das vezes foram as variáveis certas, mesmo escolhidas em um estudo de simulação discutido aqui: por que Valores-p enganosos após executar uma seleção gradual? ).

— - Reinstate Monica
fonte

Eu odeio ser o cara que defende a regressão passo a passo ... mas não acho que seja universalmente o caso em que o AIC passo a passo levará a previsões piores do que conectar todas as covariáveis sem penalidades, especialmente se . Veja aqui uma simulação na qual o stepAIC faz muito, muito melhor do que conectar todas as covariáveis.

n \approx p

$n \approx p$

— Cliff AB

Obrigado, @CliffAB. Eu votei isso há muito tempo, mas tinha esquecido. Sua resposta substantiva sugere que vale a pena levar a sério o modelo da EDA após a replicação em uma nova amostra, e vale a pena levar o modelo de previsão a sério depois de validá-lo com dados de validação. Eu concordo com ambos. Reconhecerei que o stepwise funcionou melhor em sua simulação, mas tenho certeza que você concorda que a situação foi estritamente criada para favorecê-la.

— gung - Restabelece Monica

Os efeitos exatos dependerão do modelo e da "verdade" que, é claro, não podemos saber. Você pode observar os efeitos do stepwise em qualquer caso específico, com a validação cruzada ou usando uma abordagem simples de treinamento e teste.

— Peter Flom
fonte