A regularização pode ser útil se estivermos interessados apenas em estimar (e interpretar) os parâmetros do modelo, e não em previsão ou previsão?
Vejo como a regularização / validação cruzada é extremamente útil se seu objetivo é fazer boas previsões sobre novos dados. Mas e se você estiver fazendo economia tradicional e tudo o que importa é estimar ? A validação cruzada também pode ser útil nesse contexto? A dificuldade que luta com conceptual é que pode, na verdade, de computação em dados de testes, mas que nunca pode computar porque o verdadeiro é por definição, nunca observado. (Tome como suposição a existência de um β verdadeiro, ou seja, que conhecemos a família de modelos a partir da qual os dados foram gerados.)
Ficaria feliz em ver um exemplo numérico simples de um modelo de regressão linear, com coeficientes , onde a função de perda do pesquisador é, por exemplo, ou apenas (\ beta_1 - \ hat {\ beta} _1) ^ 2 . Como, na prática, alguém poderia usar a validação cruzada para melhorar a perda esperada nesses exemplos?
Edit : DJohnson me indicou https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , que é relevante para esta pergunta. Os autores escrevem que
As técnicas de aprendizado de máquina ... fornecem uma maneira disciplinada de prever que (i) usa os dados em si para decidir como fazer o trade-off de variação de viés e (ii) permite pesquisar um conjunto muito rico de variáveis e formas funcionais. Mas tudo tem um custo: é preciso sempre ter em mente que, porque eles são ajustados para eles não dão (sem muitas outras suposições) garantias muito úteis para \ hat {\ beta} .
Outro artigo relevante, novamente graças a DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Este artigo aborda a questão com a qual eu estava lutando acima:
Um ... desafio fundamental para a aplicação de métodos de aprendizado de máquina, como árvores de regressão prontas para uso, para o problema de inferência causal é que as abordagens de regularização baseadas na validação cruzada geralmente dependem da observação da "verdade fundamental", ou seja, resultados reais em uma amostra de validação cruzada. No entanto, se nosso objetivo é minimizar o erro quadrático médio dos efeitos do tratamento, encontramos o que [11] chama de “problema fundamental da inferência causal”: o efeito causal não é observado em nenhuma unidade individual e, portanto, não diretamente tenha uma verdade básica. Abordamos isso propondo abordagens para a construção de estimativas imparciais do erro quadrático médio do efeito causal do tratamento.