Estou usando o pacote R penalizado para obter estimativas reduzidas de coeficientes para um conjunto de dados em que tenho muitos preditores e pouco conhecimento de quais são importantes. Depois de escolher os parâmetros de ajuste L1 e L2 e ficar satisfeito com meus coeficientes, existe uma maneira estatisticamente sólida de resumir o ajuste do modelo com algo como R ao quadrado?
Além disso, estou interessado em testar a significância geral do modelo (ou seja, R² = 0 ou todo = 0).
Eu li as respostas sobre uma pergunta semelhante feita aqui , mas ela não respondeu muito bem à minha pergunta. Há um excelente tutorial sobre o pacote R que estou usando aqui , e a autora Jelle Goeman teve a seguinte nota no final do tutorial sobre intervalos de confiança de modelos de regressão penalizados:
É uma pergunta muito natural solicitar erros padrão dos coeficientes de regressão ou outras quantidades estimadas. Em princípio, esses erros padrão podem ser facilmente calculados, por exemplo, usando o bootstrap.
Ainda assim, este pacote deliberadamente não os fornece. A razão para isso é que os erros padrão não são muito significativos para estimativas fortemente tendenciosas, como as que surgem de métodos de estimativa penalizada. A estimativa penalizada é um procedimento que reduz a variação dos estimadores ao introduzir um viés substancial. O viés de cada estimador é, portanto, um componente importante de seu erro quadrado médio, enquanto sua variação pode contribuir apenas com uma pequena parte.
Infelizmente, na maioria das aplicações de regressão penalizada, é impossível obter uma estimativa suficientemente precisa do viés. Quaisquer cálculos baseados em bootstrap podem apenas dar uma avaliação da variação das estimativas. As estimativas confiáveis do viés estão disponíveis apenas se houver estimativas imparciais imparciais, o que normalmente não é o caso nas situações em que estimativas penalizadas são usadas.
Relatar um erro padrão de uma estimativa penalizada conta apenas parte da história. Pode dar uma impressão equivocada de grande precisão, ignorando completamente a imprecisão causada pelo viés. Certamente, é um erro fazer declarações de confiança baseadas apenas em uma avaliação da variação das estimativas, como fazem os intervalos de confiança baseados em autoinicialização.