Validação cruzada para regressão líquida elástica: erro ao quadrado vs. correlação no conjunto de testes

Considere regressão líquida elástica com glmnetparametrização semelhante à função de perda

L = \frac{1}{2 n} ‖ y - β_{0} - X β ‖^{2} + λ (α ‖ β ‖_{1} + (1 - α) ‖ β ‖_{2}^{2} / 2) .

$\mathcal L = \frac{1}{2n}\big\lVert y - \beta_0-X\beta\big\rVert^2 + \lambda\big(\alpha\lVert \beta\rVert_1 + (1-\alpha) \lVert \beta\rVert^2_2/2\big).$ Eu tenho um conjunto de dados com

n ≪ p

$n\ll p$ (44 e 3000 respectivamente) e estou usando a validação cruzada de 11 vezes repetida para selecionar os parâmetros de regularização ideais

α

$\alpha$ e

λ

$\lambda$ . Normalmente, eu usaria o erro ao quadrado como a métrica de desempenho no conjunto de testes, por exemplo, essa métrica do tipo R ao quadrado:

L_{test} = 1 - \frac{‖ y_{test} - {\hat{β}}_{0} - X_{test} \hat{β} ‖^{2}}{‖ y_{test} - {\hat{β}}_{0} ‖^{2}},

$L_\text{test} = 1-\frac{\lVert y_\text{test} - \hat\beta_0 - X_\text{test}\hat\beta\rVert^2}{\lVert y_\text{test} - \hat\beta_0\rVert^2},$ mas desta vez também tentei usar a métrica de correlação (observe que para o A regressão OLS regularizada, minimizando a perda de erro ao quadrado, é equivalente a maximizar a correlação):

L_{test} = corr (y_{test}, X_{test} \hat{β}) .

$L_\text{test}=\operatorname{corr}(y_\text{test}, X_\text{test}\hat\beta).$

É claro que essas duas métricas de desempenho não são exatamente equivalentes, mas, estranhamente, elas discordam bastante:

Observe em particular o que acontece nos alfas pequenos, por exemplo, $\alpha=.2$ (linha verde): a correlação máxima do conjunto de testes é alcançada quando o conjunto de testes $R^2$ cai substancialmente em comparação com o máximo. Em geral, para qualquer $\alpha$ , a correlação parece ser maximizada em maior $\lambda$ que o erro ao quadrado.

Por que isso acontece e como lidar com isso? Qual critério deve ser preferido? Alguém encontrou esse efeito?

— ameba
fonte

As dobras do CV são exatamente iguais em cada experimento?

— Alexey Burnakov

@AlexeyBurnakov Sim. Os parâmetros de loop over regularization estão dentro do loop over folds.

— Ameba

Se os modelos nos dois gráficos também forem os mesmos, eu diria que os resultados não fazem sentido até que haja algum erro no cálculo. Eu tentei o elasticnet, mas não com essas métricas de desempenho.

— Alexey Burnakov

de fato, com CV, a métrica de perda está sendo calculada sobre as dobras de teste e, no seu caso, o R ^ 2 não precisa se encaixar exatamente na correlação ^ 2, não é? Talvez a discrepância esteja no fato de os valores de qualquer uma das métricas de perda serem muito desiguais nas dobras do teste de CV? Por exemplo, 0,5, 0,9, 0,1, 0,99, 0,05, que média produziria alguma figura bizarra no final completamente incompatível com a da outra?

— Alexey Burnakov

Não sei o que você quis dizer com @AlexeyBurnakov. Mas, de qualquer forma, veja a resposta que acabei de postar.

— Ameba

Eu acho que descobri o que estava acontecendo aqui.

Observe que o valor da correlação não depende do comprimento de . Portanto, se a correlação do teste continuar aumentando enquanto o quadrado R do teste cair, isso pode indicar que não é o ideal e a escala cima ou para baixo por um fator escalar pode ajudar. $\hat\beta$ $\lVert\hat\beta\rVert$ $\hat\beta$

Depois de perceber isso, lembrei-me de que havia na literatura múltiplas alegações de que a rede elástica, e até o laço por si só, "encolhem demais" os coeficientes. Para o laço, existe o procedimento "laço relaxado" que tem como objetivo alterar esse viés: consulte Vantagens de fazer o "laço duplo" ou executar o laço duas vezes? . Para redes elásticas, o artigo original de Zou & Hastie 2005 realmente defendia a expansão por um fator constante, consulte Por que o glmnet usa rede elástica "ingênua" do artigo original de Zou & Hastie? . Essa escala não alteraria o valor da correlação, mas afetaria o quadrado-R. $\hat\beta$

Quando aplico a escala heurística de Zou & Hastie obtenho o seguinte resultado:

{\hat{β}}^{*} = (1 + λ (1 - α)) \hat{β},

$\hat\beta^* = \big(1+\lambda(1-\alpha)\big)\hat\beta,$

Aqui, as linhas sólidas são as mesmas da figura na minha pergunta, enquanto as linhas tracejadas na subtrama esquerda usam a versão beta reescalonada. Agora, ambas as métricas são maximizadas em torno dos mesmos valores de e . $\alpha$ $\lambda$

Magia!

— ameba
fonte

Bem feito! Sutil ...

— Matthew Drury