1) Por que o dano causado pela introdução do viés é menos comparado ao ganho de variação?
Não precisa, mas geralmente é. Se a troca vale a pena, depende da função de perda. Mas as coisas com as quais nos preocupamos na vida real geralmente são semelhantes ao erro ao quadrado (por exemplo, nos preocupamos mais com um grande erro do que com dois erros com metade do tamanho).
Como um contra-exemplo - imagine que, para admissões em faculdades, reduzimos um pouco a pontuação do SAT das pessoas em relação ao SAT médio para a demografia (conforme definido). Se feito corretamente, isso reduzirá a variação e o erro quadrático médio das estimativas de (algum tipo de) capacidade da pessoa ao introduzir viés. A maioria das pessoas argumentaria que essa troca é inaceitável.
2) Por que isso sempre funciona?
3) O que há de tão interessante em 0 (a origem)? Claramente, podemos encolher em qualquer lugar que quisermos (ou seja, estimador de Stein), mas será que vai funcionar tão bem quanto a origem?
Eu acho que isso ocorre porque geralmente reduzimos coeficientes ou estimativas de efeito. Há razões para acreditar que a maioria dos efeitos não é grande (veja, por exemplo, a opinião de Andrew Gelman ). Uma maneira de dizer isso é que um mundo em que tudo influencia tudo com um efeito forte é um mundo violento e imprevisível. Como nosso mundo é previsível o suficiente para nos permitir viver uma vida longa e construir civilizações semi-estáveis, segue-se que a maioria dos efeitos não é grande.
Como a maioria dos efeitos não é grande, é útil reduzir indevidamente os poucos realmente grandes, ao mesmo tempo em que diminui corretamente as cargas de efeitos desprezíveis.
Acredito que isso seja apenas uma propriedade do nosso mundo e você provavelmente poderá construir mundos autoconsistentes onde o encolhimento não é prático (provavelmente fazendo do erro quadrático médio uma função de perda impraticável). Simplesmente não é o mundo em que vivemos.
Por outro lado, quando pensamos no encolhimento como uma distribuição anterior na análise bayesiana, há casos em que o encolhimento a 0 é ativamente prejudicial na prática.
Um exemplo é a escala de comprimento nos Processos Gaussianos (onde 0 é problemático). A recomendação no manual de Stan é usar um prior que coloque peso desprezível próximo de zero, ou seja, "efetivamente" encolhendo "pequenos valores para longe de zero. Da mesma forma, os antecedentes recomendados para dispersão na distribuição binomial negativa diminuem efetivamente para zero. Por último, mas não menos importante, sempre que a distribuição normal é parametrizada com precisão (como no INLA), é útil usar gama inversa ou outras distribuições anteriores que se afastam do zero.
4) Por que vários esquemas de codificação universal preferem um número menor de bits em torno da origem? Essas hipóteses são simplesmente mais prováveis?
P(i)≥P(i+1)i