- λ→∞ββ=0
(Atualização: consulte a resposta de Glen_b. Este não é o motivo histórico correto!)
β^=(XTX+λI)−1XTY.
λI
n<p
β
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
porque é estritamente monótono e isso é equivalente a
logminβ∈Rp||y−Xβ||2+λβTβ
o que deve parecer bastante familiar.
Portanto, vemos que, se colocarmos um normal anterior com média 0 e variância em nosso vetor , o valor de que maximiza o posterior é o estimador de crista. Observe que isso trata mais como um parâmetro frequentista, porque não há um precedente, mas não é conhecido; portanto, isso não é totalmente bayesiano.σ2λββσ2
Edit: você perguntou sobre o caso em que . Sabemos que um hiperplano em é definido por exatamente pontos. Se estivermos executando uma regressão linear e , interpolamos exatamente nossos dados e obtemos . Essa é uma solução, mas é terrível: nosso desempenho em dados futuros provavelmente será péssimo. Agora suponha que : não exista mais um hiperplano único definido por esses pontos. Podemos encaixar uma infinidade de hiperplanos, cada um com 0 soma residual de quadrados.n<pRppn=p||y−Xβ^||2=0n<p
Um exemplo muito simples: suponha que . Então, vamos obter uma linha entre esses dois pontos. Agora suponha que mas . Imagine um avião com esses dois pontos. Podemos girar esse plano sem alterar o fato de que esses dois pontos estão nele; portanto, existem inúmeros modelos, todos com um valor perfeito de nossa função objetivo; portanto, além da questão do ajuste excessivo, não está claro qual escolher.n=p=2n=2p=3
Como comentário final (por sugestão de @ gung), o LASSO (usando uma penalidade de ) é comumente usado para problemas de alta dimensão porque realiza automaticamente a seleção de variáveis (define alguns ). Por incrível que pareça, o LASSO é equivalente a encontrar o modo posterior ao usar um exponencial duplo (aka Laplace) antes do vetor . O LASSO também tem algumas limitações, tais como saturando a preditores e não necessariamente a manipulação de grupos preditores correlacionados de um modo ideal, de modo que a rede elástica (combinação convexa de e penalidades) pode ser exercida.L1βj=0βnL1L2