Laço bayesiano vs laço comum

24

Diferentes softwares de implementação estão disponíveis para o laço . Sei muito discutido sobre abordagem bayesiana versus abordagem freqüentista em diferentes fóruns. Minha pergunta é muito específica para o laço - Quais são as diferenças ou vantagens de laço baysiano vs laço regular ?

Aqui estão dois exemplos de implementação no pacote:

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

Então, quando devo escolher um ou outro método? Ou eles são iguais?

r machine-learning linear-model lasso

— rdorlearn
fonte

30

O laço padrão usa uma penalidade de regularização L1 para obter esparsidade na regressão. Observe que isso também é conhecido como busca de base .

Na estrutura bayesiana, a escolha do regularizador é análoga à escolha do anterior sobre os pesos. Se um prior gaussiano for usado, a solução Maximum a Posteriori (MAP) será a mesma que se uma penalidade de L2 fosse usada. Embora não seja diretamente equivalente, o anterior de Laplace (que atinge um pico acentuado em torno de zero, ao contrário do gaussiano que é suave em torno de zero), produz o mesmo efeito de encolhimento da penalidade de L1. Este artigo descreve o laço bayesiano. .

De fato, quando você coloca um Laplace anterior sobre os parâmetros, a solução MAP deve ser idêntica (não apenas similar) à regularização com a penalidade L1 e o Laplace anterior produzirá um efeito de encolhimento idêntico à penalidade L1. No entanto, devido a aproximações no procedimento de inferência bayesiana ou a outras questões numéricas, as soluções podem não ser realmente idênticas.

Na maioria dos casos, os resultados produzidos pelos dois métodos serão muito semelhantes. Dependendo do método de otimização e se as aproximações são usadas, o laço padrão provavelmente será mais eficiente para calcular do que a versão bayesiana. O bayesiano produz automaticamente estimativas de intervalo para todos os parâmetros, incluindo a variação de erro, se necessário.

— tdc
fonte

"Se um prior gaussiano for usado, a solução de máxima verossimilhança será a mesma ....". A frase destacada deve ler "Máximo A Posteriori (PAM)", porque a estimativa de Máxima Verossimilhança apenas ignora a distribuição anterior sobre os parâmetros, levando a uma solução não regulamentada, enquanto a estimativa de PAM leva em consideração o anterior.

— Mefathy 28/09/2015

11

Quando você coloca um Laplace anterior sobre os parâmetros, a solução MAP será idêntica (não apenas similar) à regularização com a penalidade L1 e o Laplace anterior produzirá um efeito de contração idêntico à penalidade L1.

— Mefathy 28/09/2015

@mefathy sim, você está certo em ambos os aspectos (não acredito que escrevi ML em vez de MAP ....), embora, é claro, na prática YMMV. Atualizei a resposta para incorporar os dois comentários.

— tdc

6

"Mínimos quadrados" significa que a solução geral minimiza a soma dos quadrados dos erros cometidos nos resultados de cada equação. A aplicação mais importante está no ajuste de dados. O melhor ajuste no sentido dos mínimos quadrados minimiza a soma dos resíduos quadráticos, sendo um residual a diferença entre um valor observado e o valor ajustado fornecido por um modelo. Os problemas dos mínimos quadrados caem em duas categorias: mínimos quadrados lineares ou ordinários e não- mínimos quadrados lineares, dependendo de os resíduos serem lineares ou não em todas as incógnitas.

A regressão linear bayesiana é uma abordagem da regressão linear na qual a análise estatística é realizada dentro do contexto da inferência bayesiana. Quando o modelo de regressão apresenta erros com distribuição normal e se uma forma específica de distribuição anterior é assumida, resultados explícitos estão disponíveis para as distribuições de probabilidade posteriores dos parâmetros do modelo.

Em alguns contextos, uma versão regularizada da solução dos mínimos quadrados pode ser preferível. A regularização de Tikhonov (ou regressão de crista) adiciona uma restrição de que , a norma L2 do vetor de parâmetro, não é maior que um determinado valor. Em um contexto bayesiano, isso equivale a colocar uma média zero normalmente distribuída antes no vetor de parâmetro. $\|\beta\|^2$

Uma versão regularizada alternativa dos mínimos quadrados é o Lasso (operador de contração e seleção menos absoluto), que usa a restrição de que , a norma L1 do vetor de parâmetro, não é maior que um determinado valor . Em um contexto bayesiano, isso equivale a colocar uma distribuição anterior de Laplace com média zero no vetor de parâmetro. $\|\beta\|_1$

Uma das principais diferenças entre a regressão Lasso e a cordilheira é que, na regressão da cordilheira, à medida que a penalidade é aumentada, todos os parâmetros são reduzidos enquanto ainda permanecem diferentes de zero, enquanto no Lasso, o aumento da penalidade fará com que mais e mais parâmetros sejam conduzido a zero.

Este artigo compara o laço regular com o laço bayesiano e a regressão da crista (ver figura 1 ).

— John
fonte