A estabilidade numérica e a super adaptação são, de certo modo, questões relacionadas, mas diferentes.
O problema clássico do OLS:
Considere o problema clássico dos mínimos quadrados:
minimize(over b)(y−Xb)T(y−Xb)
A solução é o clássico . Uma idéia é que, pela lei dos grandes números:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
Portanto, a estimativa OLS também converge para . (Em termos de álgebra linear, essa é a projeção linear da variável aleatória no intervalo linear das variáveis aleatórias .) E[xx']-1E[xy]yx1,x2,...,xkb^E[xx′]−1E[xy]yx1,x2,…,xk
Problemas?
Mecanicamente, o que pode dar errado? Quais são os possíveis problemas?
- Para amostras pequenas, nossas estimativas amostrais de e podem ser ruins.E [ x y ]E[xx′]E[xy]
- Se as colunas de forem colineares (devido à colinearidade inerente ou ao tamanho pequeno da amostra), o problema terá um continuum de soluções! A solução pode não ser única.
X
- Isso ocorre se tiver uma classificação deficiente.E[xx′]
- Isso também ocorre se tiver uma classificação deficiente devido ao pequeno tamanho da amostra em relação ao número de problemas do regressor.X′X
O problema (1) pode levar ao ajuste excessivo à medida que a estimativa começa a refletir padrões na amostra que não existem na população subjacente. A estimativa pode refletir padrões em e que realmente não existem em e 1b^11nX′XE[xx′]E[xy]1nX′yE[xx′]E[xy]
O problema (2) significa que uma solução não é única. Imagine que estamos tentando estimar o preço de sapatos individuais, mas pares de sapatos sempre são vendidos juntos. Este é um problema incorreto, mas digamos que estamos fazendo isso de qualquer maneira. Podemos acreditar que o preço do sapato esquerdo mais o preço do sapato certo é igual a US $ 50, mas como podemos chegar a preços individuais? A definição dos preços do sapato esquerdo e o preço do sapato direito ok? Como podemos escolher entre todas as possibilidades?p r = 5pl=45pr=5
Introduzindo a penalidade :L2
Agora considere:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
Isso pode nos ajudar com os dois tipos de problemas. A penalidade empurra nossa estimativa de para zero. Isso funciona efetivamente como bayesiano antes que a distribuição sobre os valores do coeficiente seja centrada em torno de . Isso ajuda com o ajuste excessivo. Nossa estimativa refletirá os dados e nossas crenças iniciais de que está próximo de zero.b 0 bL2b0b
$ 50 L 2 p l = p r = 25L2 regularização também sempre nos permite encontrar uma solução única para problemas . Se sabemos que o preço dos sapatos esquerdo e direito total é de , a solução que também minimiza a norma é escolher .$50L2pl=pr=25
Isso é mágico? Não. Regularização não é o mesmo que adicionar dados que realmente nos permitam responder à pergunta. regularização em certo sentido, adota a visão de que, se você não tiver dados, escolha estimativas mais próximas de . 0L20