Há uma grande diferença entre realizar estimativas usando penalidades do tipo cume e do tipo laço. Os estimadores do tipo Ridge tendem a encolher todos os coeficientes de regressão para zero e são enviesados, mas têm uma distribuição assintótica fácil de derivar porque não encolhem nenhuma variável para exatamente zero. O viés nas estimativas do cume pode ser problemático na realização subsequente de testes de hipóteses, mas eu não sou especialista nisso. Por outro lado, as penalidades do tipo laço / rede elástica reduzem muitos coeficientes de regressão a zero e, portanto, podem ser vistas como técnicas de seleção de modelo. O problema de executar inferência em modelos que foram selecionados com base em dados é geralmente chamado de problema de inferência seletiva ou inferência pós-seleção. Este campo tem visto muitos desenvolvimentos nos últimos anos.
y∼N(μ,1)μμ|y|>c>0cycy
Da mesma forma, o Lasso (ou rede elástica) restringe o espaço da amostra de forma a garantir que o modelo selecionado tenha sido selecionado. Esse truncamento é mais complicado, mas pode ser descrito analiticamente.
Com base nesse insight, é possível executar inferência com base na distribuição truncada dos dados para obter estatísticas de teste válidas. Para intervalos de confiança e estatísticas de testes, consulte o trabalho de Lee et al .:
http://projecteuclid.org/euclid.aos/1460381681
Seus métodos são implementados no pacote R selectInference .
Estimativa ideal (e teste) após a seleção do modelo ser discutida em (para o laço):
https://arxiv.org/abs/1705.09417
e seu pacote de software (muito menos abrangente) está disponível em:
https://github.com/ammeir2/selectiveMLE