Um método geral para criar soluções esparsas é via estimativa MAP com uma média normal zero antes de uma variação desconhecida.
p(xi|σ2i)∼N(0,σ2i)
Se você atribuir um antes de que tem um modo em zero, o modo posterior geralmente é escasso. O L 1 surge com esta abordagem, tendo uma distribuição de mistura exponencial.σ2iL1
p(σ2i|λ)∼Expo(λ22)
Então você recebe
log[p(xi|λ)]=−λ|xi|+log[λ2]
Algumas alternativas são o duplo pareto generalizado, meio cauchy e beta invertido. Em certo sentido, estes são melhores que o laço, porque não encolhem valores grandes. Na verdade, tenho certeza de que o duplo pareto generalizado pode ser escrito como uma mistura de exponenciais. Ou seja, escrevemos λ=λip(λi|αβ)
p(xi|αβ)=α2β(1+|xi|β)−(α+1)
Observe que incluí constantes de normalização, pois elas ajudam a escolher bons parâmetros globais. Agora, se aplicarmos a restrição de intervalo, teremos um problema mais complicado, pois precisamos renormalizar sobre o simplex.
Outra característica genérica das penalidades de indução de escarsidade é que elas não são diferenciáveis em zero. Normalmente, isso ocorre porque os limites esquerdo e direito são de sinal oposto.
Isso se baseia no brilhante trabalho de Nicolas Polson e James Scott sobre representações médias de variância que eles usam para desenvolver o TIRLS - uma extensão massiva de mínimos quadrados para uma classe muito grande de combinações de penalidade por perda.
Como alternativa, você pode usar um prior que é definido no simplex, mas tem modos nas distribuições marginais em zero. Um exemplo é a distribuição de dirichlet com todos os parâmetros entre 0 e 1. A penalidade implícita seria semelhante a:
−∑i=1n−1(ai−1)log(xi)−(an−1)log(1−∑i=1n−1xi)
0<ai<1