Como posso estimar erros padrão de coeficiente ao usar a regressão de crista?

18

Estou usando a regressão de cume em dados altamente multicolineares. Usando o OLS, obtenho grandes erros padrão nos coeficientes devido à multicolinearidade. Eu sei que a regressão de cume é uma maneira de lidar com esse problema, mas em todas as implementações de regressão de cume que eu observei, não há erros padrão relatados para os coeficientes. Eu gostaria de alguma maneira de estimar quanto a regressão do cume está ajudando, vendo o quanto está diminuindo os erros padrão de coeficientes específicos. Existe alguma maneira de estimar eles em regressão de crista?

standard-error ridge-regression

— James Davison
fonte

19

Eu acho que o boostrap seria a melhor opção para obter SEs robustas. Isso foi feito em alguns trabalhos aplicados, usando métodos de encolhimento, por exemplo, análise dos dados do Consórcio de Artrite Reumatóide da América do Norte usando uma abordagem de regressão logística penalizada (BMC Proceedings 2009). Há também um bom artigo de Casella sobre computação SE com modelo penalizado, regressão penalizada, erros padrão e Lassos Bayesiano (Bayesian Analysis 2010 5 (2)). Mas eles estão mais preocupados com a penalização do laço e da malha elástica .

Sempre pensei na regressão de cordilheira como uma maneira de obter melhores previsões do que o OLS padrão, onde o modelo geralmente não é parcimonioso. Para a seleção de variáveis, os critérios laço ou rede elástica são mais apropriados, mas é difícil aplicar um procedimento de autoinicialização (uma vez que as variáveis selecionadas mudam de uma amostra para outra e mesmo no loop interno fold usado para otimizar o / parâmetros); esse não é o caso da regressão de crista, pois você sempre considera todas as variáveis. $k$ $\ell_1$ $\ell_2$

Não tenho idéia dos pacotes R que dariam essa informação. Parece não estar disponível no pacote glmnet (consulte o artigo de Friedman no JSS, Caminhos de regularização para modelos lineares generalizados via descida de coordenadas ). No entanto, Jelle Goeman, que criou o pacote penalizado , também discute esse ponto. Não consigo encontrar o PDF original na Web, então simplesmente cito suas palavras:

É uma pergunta muito natural solicitar erros padrão dos coeficientes de regressão ou outras quantidades estimadas. Em princípio, esses erros padrão podem ser facilmente calculados, por exemplo, usando o bootstrap.

Ainda assim, este pacote deliberadamente não os fornece. A razão para isso é que os erros padrão não são muito significativos para estimativas fortemente tendenciosas, como surgem de métodos de estimativa penalizada. A estimativa penalizada é um procedimento que reduz a variação dos estimadores ao introduzir um viés substancial. O viés de cada estimador é, portanto, um componente importante de seu erro quadrado médio, enquanto sua variação pode contribuir apenas com uma pequena parte.

Infelizmente, na maioria das aplicações de regressão penalizada, é impossível obter uma estimativa suficientemente precisa do viés. Quaisquer cálculos baseados em bootstrap podem apenas dar uma avaliação da variação das estimativas. As estimativas confiáveis do viés estão disponíveis apenas se houver estimativas imparciais imparciais, o que normalmente não é o caso nas situações em que estimativas penalizadas são usadas.

Relatar um erro padrão de uma estimativa penalizada conta apenas parte da história. Pode dar uma impressão equivocada de grande precisão, ignorando completamente a imprecisão causada pelo viés. Certamente, é um erro fazer declarações de confiança baseadas apenas em uma avaliação da variação das estimativas, como fazem os intervalos de confiança baseados em autoinicialização.

— chl
fonte

2

Obrigado por fornecer esta cotação. A citação original pode ser encontrado aqui na página 18.

— Francisco Arceo

8

Supondo que o processo de geração de dados siga as premissas padrão por trás do OLS, os erros padrão para regressão de crista são dados por:

$\sigma^2 (A^T A + \Gamma^T \Gamma)^{-1} A^T A (A^T A + \Gamma^T \Gamma)^{-1}$

A notação acima segue a notação wiki para regressão de crista . Especificamente,

$A$

$\sigma^2$

$\Gamma$

1

A^{T} A

$A^T A$

A

$A$

1

$\Gamma ^T\Gamma$ $\text{$\lambda $I}$ $\text{I}$ $\lambda$ integrais e outros problemas inversos. "Um problema inverso na ciência é o processo de calcular, a partir de um conjunto de observações, os fatores causais que os produziram: por exemplo, calcular uma imagem em tomografia computadorizada, reconstruir fontes em acústica ou calcular a densidade da Terra a partir de medidas de sua gravidade. field. here "O SPSS contém código suplementar que fornece o desvio padrão de todos os parâmetros e parâmetros adicionais podem ser derivados usando a propagação de erros, como no apêndice deste documento .

O que geralmente é mal entendido sobre a regularização de Tikhonov é que a quantidade de suavização tem muito pouco a ver com o ajuste da curva, o fator de suavização deve ser usado para minimizar o erro dos parâmetros de interesse. Você precisaria explicar muito mais sobre o problema específico que está tentando resolver para usar a regressão de cume adequadamente em algum contexto válido de problema inverso, e muitos dos trabalhos sobre seleção de fatores de suavização e muitos dos usos publicados da regularização de Tikhonov são: um pouco heurístico.

Além disso, a regularização de Tikhonov é apenas um tratamento inverso de problemas entre muitos. Siga o link para a revista Inverse Problems .

— Carl
fonte