Laço bayesiano vs espiga e laje

Pergunta: Quais são as vantagens / desvantagens de usar um anterior sobre o outro para a seleção de variáveis?

Suponha que eu tenha a probabilidade: onde eu posso colocar qualquer um dos anteriores:

y \sim N (X W, σ^{2} Eu)

$y\sim\mathcal{N}(Xw,\sigma^2I)$

Ou:

W_{Eu} \sim π δ_{0 0} + (1 - π) N (0 0, 100) π = 0,9,

$w_i\sim \pi\delta_0+(1-\pi)\mathcal{N}(0,100)\\ \pi=0.9\,,$

W_{Eu} \sim \exp (- λ | W_{Eu} |) λ \sim Γ (1, 1) .

$w_i\sim \exp(-\lambda|w_i|)\\ \lambda \sim \Gamma(1,1)\,.$

Coloquei para enfatizar que a maioria dos pesos é zero e uma gama anterior em para escolher o parâmetro 'regularizing'. $\pi=0.9$ $\lambda$

No entanto, meu professor continua insistindo que a versão do laço 'encolhe' os coeficientes e não está realmente fazendo a seleção adequada das variáveis, ou seja, há um encolhimento excessivo até dos parâmetros relevantes.

$\frac{1}{|w_i|}$

bayesian feature-selection

— sachinruk
fonte

Seu professor está correto ao reduzir parâmetros relevantes, mas e daí? Apenas os reduz na medida em que eles não estão contribuindo significativamente para reduzir o erro. E por ser focado em fazer a seleção das variáveis adequada .. o foco não deve ser a redução (de teste) erro

— seanv507

Para a maioria dos problemas, sim, eu concordo. No entanto, para alguns problemas (por exemplo, detecção de câncer com expressão gênica), é super importante descobrir quais recursos são os fatores que contribuem. ps Desde então, mudei de meu pós-doutorado, pois ele é um idiota. Ftw de aprendizado de máquina !!!

— sachinruk

Spike e Slab são o padrão-ouro na seleção de variáveis e eu também prefiro trabalhar com o LASSO. @Sachin_ruk: a espiga e laje antes podem ser implementados utilizando Variacional Bayes também ...

— Sandipan Karmakar

@SandipanKarmakar, você poderia postar um link referente ao espigão e laje com o Bayes Variacional.

— Sachinruk 17/09/19

Sua pergunta mescla problemas de modelagem [que antes?] E implementação [Bayes variacionais]. Eles devem ser processados separadamente.

— Xi'an

Ambos os métodos (LASSO x espigão e laje) podem ser interpretados como problemas de estimativa bayesiana nos quais você está especificando parâmetros diferentes. Uma das principais diferenças é que o método LASSO não coloca nenhuma massa pontual em zero para o anterior (ou seja, os parâmetros são quase certamente diferentes de zero a priori), enquanto o espigão e laje coloca uma massa pontual substancial em zero.

Na minha humilde opinião, o principal vantagem do método spike-and-slab é que ele é adequado para problemas em que o número de parâmetros é maior que o número de pontos de dados e você deseja eliminar completamente um número substancial de parâmetros do modelo. Como esse método coloca uma grande massa de pontos em zero no anterior, ele produzirá estimativas posteriores que tendem a envolver apenas uma pequena proporção dos parâmetros, evitando evitar o excesso de ajuste dos dados.

Quando seu professor lhe diz que o primeiro não está realizando um método de seleção de variáveis, o que ele provavelmente quer dizer é isso. Sob o LASSO, cada um dos parâmetros é quase certamente diferente de zero a priori (ou seja, todos estão no modelo). Como a probabilidade também é diferente de zero sobre o suporte ao parâmetro, isso também significa que cada um é quase certamente diferente de zero a priori (ou seja, todos estão no modelo). Agora, você pode suplementar isso com um teste de hipóteses e excluir parâmetros do modelo dessa maneira, mas esse seria um teste adicional imposto sobre o modelo bayesiano.

Os resultados da estimativa bayesiana refletirão uma contribuição dos dados e uma contribuição do anterior. Naturalmente, uma distribuição anterior que está mais concentrada em torno de zero (como o espigão e laje) de fato "encolherá" os estimadores de parâmetros resultantes, em relação a um prioritário menos concentrado (como o LASSO). Obviamente, esse "encolhimento" é apenas o efeito das informações anteriores que você especificou. A forma do anterior do LASSO significa que ele está encolhendo todas as estimativas de parâmetros em relação à média, em relação a um anterior mais plano.

— Restabelecer Monica
fonte