Por que a Laplace está produzindo soluções esparsas antes?


22

Eu estava examinando a literatura sobre regularização e frequentemente vejo parágrafos que vinculam a regulatização de L2 ao prior gaussiano e L1 com Laplace centrado em zero.

Sei como esses anteriores são, mas não entendo como isso se traduz, por exemplo, em pesos no modelo linear. Em L1, se eu entendi direito, esperamos soluções esparsas, ou seja, alguns pesos serão empurrados para exatamente zero. E em L2 obtemos pesos pequenos, mas não zero.

Mas por que isso acontece?

Por favor, comente se eu precisar fornecer mais informações ou esclarecer meu caminho de pensamento.



1
Uma explicação intuitiva realmente simples é que a penalidade diminui ao usar uma norma L2, mas não ao usar uma norma L1. Portanto, se você puder manter a parte do modelo da função de perda aproximadamente igual e diminuir uma das duas variáveis, é melhor diminuir a variável com um valor absoluto alto no caso L2, mas não no caso L1.
testuser

Respostas:


21

A relação da distribuição de Laplace anterior com a mediana (ou norma L1) foi encontrada pelo próprio Laplace, que descobriu que, usando essa priorização, você estima a mediana em vez da média como na distribuição normal (ver Stingler, 1986 ou Wikipedia ). Isso significa que a regressão com distribuição de erros de Laplace estima a mediana (como, por exemplo, regressão quantílica), enquanto os erros normais se referem à estimativa de OLS.

Os antecedentes robustos sobre os quais você perguntou foram descritos também por Tibshirani (1996), que notou que a regressão robusta de Lasso na configuração bayesiana é equivalente a usar Laplace anterior. Esse prior para coeficientes é centrado em torno de zero (com variáveis ​​centralizadas) e possui caudas amplas - portanto, a maioria dos coeficientes de regressão estimados usando-o acaba sendo exatamente zero. Isso fica claro se você observar atentamente a figura abaixo: a distribuição de Laplace tem um pico em torno de zero (há uma maior massa de distribuição), enquanto a distribuição Normal é mais difusa em torno de zero, portanto, valores diferentes de zero têm maior massa de probabilidade. Outras possibilidades de prévios robustos são as distribuições Cauchy ou .t

Usando esses priores, você é mais propenso a acabar com muitos coeficientes de valor zero, alguns de tamanho moderado e outros de tamanho grande (cauda longa), enquanto que com o Normal anterior, você obtém coeficientes de tamanho moderado que não são exatamente zero, mas também não tão longe de zero.

insira a descrição da imagem aqui

(fonte da imagem Tibshirani, 1996)


Stigler, SM (1986). A história da estatística: a medida da incerteza antes de 1900. Cambridge, MA: Belknap Press, da Harvard University Press.

Tibshirani, R. (1996). Retração e seleção de regressão através do laço. Jornal da Sociedade Estatística Real. Série B (Metodológica), 267-288.

Gelman, A., Jakulin, A., Pittau, GM e Su, Y.-S. (2008). Uma distribuição prévia padrão pouco informativa para modelos de regressão logística e outros. The Annals of Applied Statistics, 2 (4), 1360-1383.

Norton, RM (1984). A Distribuição Exponencial Dupla: Usando Cálculo para Encontrar um Estimador de Máxima Verossimilhança. The American Statistician, 38 (2): 135-136.


Uau, essa é uma explicação muito boa e também um agradecimento especial à pergunta vinculada, onde as normas de regularização são intuitivamente vinculadas ao modo meadian e mean, isso realmente esclarece muito para mim!
Dmitry Smirnov

1
@ Tim, A Distribuição Cauchy tem Cauda Pesada, mas a probabilidade de Zero é menor que a Distribuição Normal. Então, como é que isso induz uma solução esparsa?
Royi 9/11/16

4

Visão freqüentista 👀

Em certo sentido, podemos pensar em ambas as regularizações como "encolhendo os pesos" ; L2 minimiza a norma euclidiana dos pesos, enquanto L1 minimiza a norma de Manhattan. Seguindo essa linha de raciocínio, podemos argumentar que os equipotenciais de L1 e L2 são esféricos e em forma de diamante, respectivamente, portanto é mais provável que L1 leve a soluções esparsas, como ilustrado em Reconhecimento de padrões e aprendizado de máquina de Bishop :

Bishop * Reconhecimento de padrões e aprendizado de máquina *

Visão bayesiana 👀

No entanto, para entender como os anteriores se relacionam com o modelo linear , precisamos entender a interpretação bayesiana da regressão linear comum . O post do blog de Katherine Bailey é uma excelente leitura para isso. Em poucas palavras, assumimos erros de IDI distribuídos normalmente em nosso modelo linear

y=θX+ϵ

NyEu,Eu=1,2,...,NϵkN(0 0,σ)

y

p(y|X,θ;ϵ)=N(θX,σ)

Como se vê ... O estimador de probabilidade máxima é idêntico a minimizar o erro ao quadrado entre os valores de saída previstos e reais sob a suposição de normalidade para o erro.

θ^MLE=argmaxθregistroP(y|θ)=argminθEu=1n(yEu-θxEu)2

Regularização como colocação de pesos anteriores

Se colocarmos um valor não uniforme antes nos pesos da regressão linear, a estimativa da probabilidade máxima a posteriori (PAM) seria:

θ^MAPA=argmaxθregistroP(y|θ)+registroP(θ)

P(θ)θ

P(θ)θ

Laplace vs Gaussian

Agora , temos outra visão de por que colocar um Laplace antes nos pesos tem maior probabilidade de causar escassez: como a distribuição de Laplace está mais concentrada em torno de zero , é mais provável que nossos pesos sejam zero.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.