Explicação lúcida para “estabilidade numérica da inversão da matriz” na regressão de crista e seu papel na redução do excesso de ajuste


10

Entendo que podemos empregar regularização em um problema de regressão de mínimos quadrados como

w=argminw[(yXw)T(yXw)+λw2]

e que esse problema tem uma solução de formulário fechado como:

w^=(XTX+λI)1XTy.

Vemos que na 2ª equação, a regularização está simplesmente adicionando λ à diagonal de XTX , o que é feito para melhorar a estabilidade numérica da inversão da matriz.

Meu atual entendimento "bruto" da estabilidade numérica é que, se uma função se tornar mais "numericamente estável", sua saída será menos significativamente afetada pelo ruído em suas entradas. Estou tendo dificuldades em relacionar esse conceito de estabilidade numérica aprimorada com o quadro geral de como ele evita / reduz o problema de sobreajuste.

Tentei procurar na Wikipedia e em alguns outros sites de universidades, mas eles não se aprofundam em explicar por que isso acontece.


A regressão de Ridge vem à mente. link
EngrStudent 28/02

11
Você pode encontrar algum valor na discussão (principalmente descritiva / intuitiva, e não algébrica) em Por que a estimativa do cume se torna melhor que o OLS adicionando uma constante à diagonal?
Glen_b -Reinstala Monica

Respostas:


2

No modelo linear , assumindo erros não correlacionados com zero médio e tendo classificação de coluna completa, o estimador de mínimos quadrados é um estimador imparcial para o parâmetro . No entanto, esse estimador pode ter alta variação. Por exemplo, quando duas das colunas de estão altamente correlacionadas.X ( X T X ) - 1 X T Y β XY=Xβ+ϵX(XTX)1XTYβX

O parâmetro de penalidade faz um estimador enviesado de , mas diminui sua variação. Além disso, é a expectativa posterior de em uma regressão bayesiana com um anterior em . Nesse sentido, incluímos algumas informações na análise que afirmam que os componentes de não devem estar muito longe de zero. Novamente, isso nos leva a uma estimativa de ponto enviesado de mas reduz a variação da estimativa.w β w β N ( 0 , 1λw^βw^ββββN(0,1λI)βββ

Em uma configuração em que alta dimensão, digamos , o menor ajuste de quadrados corresponderá quase perfeitamente aos dados. Embora não seja imparcial, essa estimativa será altamente sensível às flutuações nos dados, pois em dimensões tão altas, haverá muitos pontos com alta alavancagem. Em tais situações, o sinal de alguns componentes de pode ser determinado por uma única observação. O termo de penalidade tem o efeito de reduzir essas estimativas para zero, o que pode reduzir o EME do estimador, reduzindo a variação.N p βXNpβ^

Edit: Na minha resposta inicial eu forneci um link para um artigo relevante e na minha pressa eu removi. Aqui está: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf


11
Na sua forma atual, isso é realmente mais um comentário; você acha que poderia transformá-lo em uma resposta substantiva?
Silverfish 28/02

A parte inferior da p. 5 direita / parte superior da p. 6 à esquerda, pertencente à Figura 3, contém a principal discussão para a pergunta feita neste post.
Mark L. Stone

Está tudo correto, mas não tenho certeza de que responda à pergunta do OP.
Ameba

ameba, veja meu comentário acima, que se refere ao link que foi posteriormente editado a partir da resposta de Eric Mittman, jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf .
Mark L. Stone

1

A estabilidade numérica e a super adaptação são, de certo modo, questões relacionadas, mas diferentes.

O problema clássico do OLS:

Considere o problema clássico dos mínimos quadrados:

minimize(over b)(yXb)T(yXb)

A solução é o clássico . Uma idéia é que, pela lei dos grandes números:b^=(XX)1(Xy)

limn1nXXE[xx]limn1nXyE[xy]

Portanto, a estimativa OLS também converge para . (Em termos de álgebra linear, essa é a projeção linear da variável aleatória no intervalo linear das variáveis ​​aleatórias .) E[xx']-1E[xy]yx1,x2,...,xkb^E[xx]1E[xy]yx1,x2,,xk

Problemas?

Mecanicamente, o que pode dar errado? Quais são os possíveis problemas?

  1. Para amostras pequenas, nossas estimativas amostrais de e podem ser ruins.E [ x y ]E[xx]E[xy]
  2. Se as colunas de forem colineares (devido à colinearidade inerente ou ao tamanho pequeno da amostra), o problema terá um continuum de soluções! A solução pode não ser única. X
    • Isso ocorre se tiver uma classificação deficiente.E[xx]
    • Isso também ocorre se tiver uma classificação deficiente devido ao pequeno tamanho da amostra em relação ao número de problemas do regressor.XX

O problema (1) pode levar ao ajuste excessivo à medida que a estimativa começa a refletir padrões na amostra que não existem na população subjacente. A estimativa pode refletir padrões em e que realmente não existem em e 1b^11nXXE[xx]E[xy]1nXyE[xx]E[xy]

O problema (2) significa que uma solução não é única. Imagine que estamos tentando estimar o preço de sapatos individuais, mas pares de sapatos sempre são vendidos juntos. Este é um problema incorreto, mas digamos que estamos fazendo isso de qualquer maneira. Podemos acreditar que o preço do sapato esquerdo mais o preço do sapato certo é igual a US $ 50, mas como podemos chegar a preços individuais? A definição dos preços do sapato esquerdo e o preço do sapato direito ok? Como podemos escolher entre todas as possibilidades?p r = 5pl=45pr=5

Introduzindo a penalidade :L2

Agora considere:

minimize(over b)(yXb)T(yXb)+λb2

Isso pode nos ajudar com os dois tipos de problemas. A penalidade empurra nossa estimativa de para zero. Isso funciona efetivamente como bayesiano antes que a distribuição sobre os valores do coeficiente seja centrada em torno de . Isso ajuda com o ajuste excessivo. Nossa estimativa refletirá os dados e nossas crenças iniciais de que está próximo de zero.b 0 bL2b0b

$ 50 L 2 p l = p r = 25L2 regularização também sempre nos permite encontrar uma solução única para problemas . Se sabemos que o preço dos sapatos esquerdo e direito total é de , a solução que também minimiza a norma é escolher .$50L2pl=pr=25

Isso é mágico? Não. Regularização não é o mesmo que adicionar dados que realmente nos permitam responder à pergunta. regularização em certo sentido, adota a visão de que, se você não tiver dados, escolha estimativas mais próximas de . 0L20

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.