Por que o encolhimento realmente funciona, o que há de tão especial em 0?

Já existe um post neste site falando sobre o mesmo problema: Por que o encolhimento funciona?

Mas, embora as respostas sejam populares, não acredito que a essência da questão seja realmente abordada. É bastante claro que a introdução de algum viés na estimativa reduz a variação e pode melhorar a qualidade da estimativa. Contudo:

1) Por que o dano causado pela introdução do viés é menos comparado ao ganho de variação?

2) Por que isso sempre funciona? Por exemplo, no caso de regressão de Ridge: o teorema da existência

3) O que há de tão interessante em 0 (a origem)? Claramente, podemos encolher em qualquer lugar que quisermos (ou seja, estimador de Stein ), mas será que vai funcionar tão bem quanto a origem?

4) Por que vários esquemas de codificação universal preferem um número menor de bits em torno da origem? Essas hipóteses são simplesmente mais prováveis?

São esperadas respostas com referências a teoremas comprovados ou resultados estabelecidos.

regularization ridge-regression shrinkage

— Cagdas Ozgenc
fonte

@ KarolisKoncevičius, obrigado por corrigir os links! No entanto, observe que as edições no seu idioma podem não ser muito úteis, exceto a última. Os outros parecem adicionar algum texto redundante e, assim, tornam a postagem um pouco menos legível.

— Richard Hardy

3) "o que há de tão interessante na origem?" como você entende essa afirmação? se você tiver um fator de grupo (por exemplo, país) e fator individual (por exemplo, cidade), o encolhimento colocará a média no nível do país e somente desvios no nível da cidade com dados suficientes terão coeficiente) - ou seja, seu modelo será empurrado para o nível do grupo (país) média (empurrando coeficientes do nível da cidade para zero) ... e similarmente para mais níveis na hierarquia (e várias hierarquias)

— seanv507

Respostas:

1) Por que o dano causado pela introdução do viés é menos comparado ao ganho de variação?

Não precisa, mas geralmente é. Se a troca vale a pena, depende da função de perda. Mas as coisas com as quais nos preocupamos na vida real geralmente são semelhantes ao erro ao quadrado (por exemplo, nos preocupamos mais com um grande erro do que com dois erros com metade do tamanho).

Como um contra-exemplo - imagine que, para admissões em faculdades, reduzimos um pouco a pontuação do SAT das pessoas em relação ao SAT médio para a demografia (conforme definido). Se feito corretamente, isso reduzirá a variação e o erro quadrático médio das estimativas de (algum tipo de) capacidade da pessoa ao introduzir viés. A maioria das pessoas argumentaria que essa troca é inaceitável.

2) Por que isso sempre funciona?

3) O que há de tão interessante em 0 (a origem)? Claramente, podemos encolher em qualquer lugar que quisermos (ou seja, estimador de Stein), mas será que vai funcionar tão bem quanto a origem?

Eu acho que isso ocorre porque geralmente reduzimos coeficientes ou estimativas de efeito. Há razões para acreditar que a maioria dos efeitos não é grande (veja, por exemplo, a opinião de Andrew Gelman ). Uma maneira de dizer isso é que um mundo em que tudo influencia tudo com um efeito forte é um mundo violento e imprevisível. Como nosso mundo é previsível o suficiente para nos permitir viver uma vida longa e construir civilizações semi-estáveis, segue-se que a maioria dos efeitos não é grande.

Como a maioria dos efeitos não é grande, é útil reduzir indevidamente os poucos realmente grandes, ao mesmo tempo em que diminui corretamente as cargas de efeitos desprezíveis.

Acredito que isso seja apenas uma propriedade do nosso mundo e você provavelmente poderá construir mundos autoconsistentes onde o encolhimento não é prático (provavelmente fazendo do erro quadrático médio uma função de perda impraticável). Simplesmente não é o mundo em que vivemos.

Por outro lado, quando pensamos no encolhimento como uma distribuição anterior na análise bayesiana, há casos em que o encolhimento a 0 é ativamente prejudicial na prática.

Um exemplo é a escala de comprimento nos Processos Gaussianos (onde 0 é problemático). A recomendação no manual de Stan é usar um prior que coloque peso desprezível próximo de zero, ou seja, "efetivamente" encolhendo "pequenos valores para longe de zero. Da mesma forma, os antecedentes recomendados para dispersão na distribuição binomial negativa diminuem efetivamente para zero. Por último, mas não menos importante, sempre que a distribuição normal é parametrizada com precisão (como no INLA), é útil usar gama inversa ou outras distribuições anteriores que se afastam do zero.

4) Por que vários esquemas de codificação universal preferem um número menor de bits em torno da origem? Essas hipóteses são simplesmente mais prováveis?

$P(i) ≥ P(i + 1)$ $i$

— Martin Modrák
fonte

A resposta para 1) é realmente boa!

— David

Claramente, Andrew Gelman tinha em mente modelos padrão, onde multiplicamos coeficientes por insumos. Isso não precisa necessariamente ser o caso. E se o coeficiente entrarmos inversamente no modelo? Então 0 explodirá as coisas.

— Cagdas Ozgenc

@CowboyTrader Sim, e existem casos de uso no mundo real em que 0 é problemático e diminuímos (adicionados à resposta). Portanto, acredito que ele apóia levemente o ponto de que o encolhimento em direção a zero é apenas uma heurística que funciona (na prática) com frequência, mas não uma verdade matemática fundamental.

— Martin Modrák 24/05/19

Desculpe pela minha reação inicial. Sua resposta está ficando mais significativa. Observe que o encolhimento funciona sob outras funções de perda, não apenas na perda quadrada. A verdadeira questão que eu estou procurando é por que diabos sempre funciona? Para os parâmetros de média / localização, 0 parece ser um número mágico.

— Cagdas Ozgenc

σ

$\sigma$

Ridge, laço e rede elástica são semelhantes aos métodos bayesianos com priorizados centrados no zero - veja, por exemplo, Statistical Learning with Sparsity de Hastie, Tibshirani e Wainwright, seção 2.9 Lq Penalties and Bayes Estimates: "Há também uma visão bayesiana desses estimadores. ... Isso significa que a estimativa do laço é o estimador Bayesiano de MAP (maximum aposteriori) usando um anterior de Laplaciano. "

Uma maneira de responder à sua pergunta ( what's so special about zero?) é que os efeitos que estamos estimando são zero em média e tendem a ser pequenos (ou seja, nossos prévios devem estar centrados em torno de zero). As estimativas de redução em direção a zero são então ideais no sentido bayesiano, e o laço, as cordas e as redes elásticas podem ser pensadas através dessa lente.

— Adrian
fonte

Reduzir para zero não é nada de especial (exceto que a equação é mais simples porque você apenas multiplica o resultado com um fator específico). Você pode encolher para qualquer outro ponto também. Quanto mais longe esse ponto for do valor verdadeiro, menos bom será o desempenho do encolhimento (mas, para qualquer ponto, existe uma certa quantidade de encolhimento que dará algum aumento no desempenho ... pelo menos para variáveis distribuídas gaussianas). Portanto, quando um resultado normalmente está longe de zero, diminuir para zero dará apenas muito pouca melhoria.

— Sextus Empiricus

@MartijnWeterings Colocar claramente um prior na verdade em si será o ideal (olho de boi). Mas por que diminuir para 0 ainda dá alguma melhoria? É isso que eu estou procurando.

— Cagdas Ozgenc

@CowboyTrader Reduzir para qualquer valor gera melhorias. É por isso que também funciona para 0.

— Sextus Empiricus

@MartijnWeterings Sim, mas os limites da teoria da aprendizagem são praticamente sempre baseados na origem. Eles colocam uma bola / poliedro / etc centrada na origem. É apenas uma prova de conveniência? As hipóteses de MDL que codificam codificam números inteiros, fornecendo 0 o menor comprimento de código? Isso é uma coincidência?

— Cagdas Ozgenc

Então, digamos que você faça a regressão de crista no caso de todas as variáveis realmente fazerem parte do modelo (o que não é comum na prática), então não funcionará tão bem. Talvez seja isso que Adrian quis dizer com "os efeitos são zero em média e tendem a ser pequenos" (não conheço casos em que isso seja exatamente verdade. Mas há muitos casos em aprendizado de máquina em que alimentamos muitos parâmetros e onde muitos provavelmente não são necessários, em seguida, a maioria dos efeitos são zero ou pequeno).

— Sexto Empírico