Por que R Squared não é uma boa medida para as regressões ajustadas usando o LASSO?

Li em vários lugares que R Squared não é uma medida ideal quando um modelo é adequado usando o LASSO. No entanto, não estou claro exatamente por que isso acontece.

Além disso, você poderia recomendar a melhor alternativa?

— Dave
fonte

O objetivo de usar o LASSO é obter uma representação esparsa (de uma quantidade prevista) no sentido de não ter muitas covariáveis. Comparando modelos com tende a favorecer modelos com lotes de co-variáveis: de fato, acrescentando co-variáveis não relacionadas com o resultado nunca vai diminuir e quase sempre aumenta-lo pelo menos um pouco. O modelo LASSO irá identificar o modelo com o óptimo penalizado de probabilidade logarítmica (um log-probabilidade unpenalized é monotonicamente relacionada com o ). Estatística de validação que são mais amplamente usados para comparar modelos laço para outros tipos de modelos são, por exemplo, o BIC ou cross-validado . $R^2$ $R^2$ $R^2$ $R^2$

— AdamO
fonte

+1 para apresentar claramente o motivo e fornecer alternativas #

— Haitao Du

Muito obrigado pela ótima resposta! Você se importaria de elaborar "O modelo LASSO identificará o modelo com a probabilidade logarítmica ótima penalizada (uma probabilidade logarítmica não-penalizada está monotonicamente relacionada ao R2)". Considero que a primeira parte significa que ele escolherá o modelo com a menor quantidade de erros (na previsão e via penalização)? Mas não sei ao certo o que significa a parte entre parênteses. Isso significa que o LL não compensado aumenta à medida que o R2 diminui? Além disso, o R2 com validação cruzada precisa estar em um conjunto de dados totalmente novo? Ou pode ser baseado nos dados de treinamento?

— Dave

\log (2 π) N + 1 - \log (N) + \log (\sum_{i = 1}^{n} r_{i}^{2})

$\log(2\pi)N+1−\log(N)+\log(\sum_{i=1}^n r_i^2)$

1 - \sum_{i = 1}^{n} r_{i}^{2} / \sum_{i = 1}^{n} y_{i}^{2}

$1 - \sum_{i=1}^n r_i^2/\sum_{i=1}^ny_i^2$ . A penalização contribui para o erro indiretamente, é um preço que você paga para impor a escassez. O modelo não penalizado sempre terá um erro menor (interno). As pessoas geralmente fazem a validação cruzada com o mesmo conjunto de dados. Testar modelos em novos conjuntos de dados é outra coisa (não há necessidade da parte "cruzada") e isso não é feito o suficiente.

— 21418 AdamObt

@AdamO Eu acho que seria uma boa ideia editar seu comentário em sua resposta, é muito bom.

— Matthew Drury

Olá, @AdamO, uma pergunta final de acompanhamento. Agora entendo por que o R2 tradicional é uma medida ruim. Mas não sei ao certo por que o R2 validado cruzado (dentro do mesmo conjunto de dados) está bom?

— Dave