Considere os três fenômenos a seguir.
Paradoxo de Stein: dados alguns dados da distribuição normal multivariada em , a média da amostra não é um estimador muito bom da verdadeira média. Pode-se obter uma estimativa com erro quadrado médio mais baixo se reduzirmos todas as coordenadas da amostra em direção a zero [ou em relação à sua média, ou na verdade em relação a qualquer valor, se bem entendi].
Nota: normalmente o paradoxo de Stein é formulado considerando-se apenas um único ponto de dados de ; corrija-me se isso for crucial e minha formulação acima não estiver correta.
Regressão de Ridge: dada uma variável dependente e algumas variáveis independentes , a regressão padrão tende superestimar os dados e levar a um desempenho fora da amostra ruim. Pode-se reduzir o sobreajuste encolhendo direção a zero: .
Efeitos aleatórios em modelos multiníveis / mistos: dada uma variável dependente (por exemplo, a altura do aluno) que depende de alguns preditores categóricos (por exemplo, id da escola e sexo do aluno), recomenda-se frequentemente tratar alguns preditores como 'aleatórios', ou seja, supondo que a altura média do aluno em cada escola vem de alguma distribuição normal subjacente. Isso resulta na redução das estimativas da altura média por escola em relação à média global.
Tenho a sensação de que tudo isso são vários aspectos do mesmo fenômeno do "encolhimento", mas não tenho certeza e certamente não tenho uma boa intuição sobre isso. Portanto, minha pergunta principal é: existe realmente uma profunda semelhança entre essas três coisas, ou é apenas uma aparência superficial? Qual é o tema comum aqui? Qual é a intuição correta sobre isso?
Além disso, aqui estão algumas peças deste quebra-cabeça que realmente não se encaixam para mim:
Na regressão de crista, não é reduzido uniformemente; o encolhimento da cordilheira está realmente relacionado à decomposição de valores singulares de , com as direções de baixa variância sendo mais reduzidas (consulte, por exemplo, The Elements of Statistical Learning 3.4.1). Mas o estimador de James-Stein simplesmente pega a média da amostra e a multiplica por um fator de escala. Como isso se encaixa?X
Atualização: consulte James-Stein Estimator com variações desiguais e, por exemplo, aqui, sobre variações de coeficientes .
A média da amostra é ótima nas dimensões abaixo de 3. Isso significa que, quando houver apenas um ou dois preditores no modelo de regressão, a regressão da crista será sempre pior que os mínimos quadrados comuns? Na verdade, pensando bem, não consigo imaginar uma situação em 1D (isto é, regressão simples e não múltipla) em que o encolhimento da crista seria benéfico ...
Atualização: Não. Consulte Sob exatamente quais condições a regressão de crista pode fornecer uma melhoria em relação à regressão de mínimos quadrados ordinários?
Por outro lado, a média da amostra é sempre abaixo do ideal em dimensões acima de 3. Isso significa que, com mais de três preditores, a regressão da crista é sempre melhor que a OLS, mesmo que todos os preditores não estejam correlacionados (ortogonais)? Geralmente, a regressão de crista é motivada pela multicolinearidade e pela necessidade de "estabilizar" o termo .
Atualização: Sim! Veja o mesmo tópico acima.
Muitas vezes há uma discussão acalorada sobre se vários fatores na ANOVA devem ser incluídos como efeitos fixos ou aleatórios. Pela mesma lógica, não deveríamos sempre tratar um fator aleatoriamente se ele tiver mais de dois níveis (ou se houver mais de dois fatores? Agora estou confuso)?
Atualização :?
Atualização: recebi ótimas respostas, mas nenhuma fornece uma imagem grande o suficiente, por isso deixarei a pergunta "aberta". Posso prometer conceder uma recompensa de pelo menos 100 pontos a uma nova resposta que superará as existentes. Procuro principalmente uma visão unificadora que possa explicar como o fenômeno geral de encolhimento se manifesta nesses vários contextos e apontar as principais diferenças entre eles.