Perguntas com a marcação «ridge-regression»

Um método de regularização para modelos de regressão que reduz os coeficientes para zero.

3
Quando devo usar laço vs cume?
Digamos que eu queira estimar um grande número de parâmetros e quero penalizar alguns deles porque acredito que eles devem ter pouco efeito em comparação com os outros. Como decido qual esquema de penalização usar? Quando a regressão de crista é mais apropriada? Quando devo usar o laço?



2
Por que a regressão do cume é chamada “cume”, por que é necessária e o que acontece quando
Cume estimativa coeficiente de regressão β R são os valores que minimizam oβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Minhas perguntas são: Se λ=0λ=0\lambda = 0 , vemos que a expressão acima se reduz ao RSS usual. E se λ→∞λ→∞\lambda \to \infty ? Não compreendo a explicação do livro didático sobre …

5
Visão unificada sobre o encolhimento: qual é a relação (se houver) entre o paradoxo de Stein, a regressão de crista e os efeitos aleatórios em modelos mistos?
Considere os três fenômenos a seguir. Paradoxo de Stein: dados alguns dados da distribuição normal multivariada em , a média da amostra não é um estimador muito bom da verdadeira média. Pode-se obter uma estimativa com erro quadrado médio mais baixo se reduzirmos todas as coordenadas da amostra em direção …

5
Que problema os métodos de encolhimento resolvem?
A temporada de férias me deu a oportunidade de me aconchegar ao lado do fogo com Os elementos do aprendizado estatístico . Vindo de uma perspectiva econométrica (freqüentista), estou tendo problemas para entender os usos de métodos de encolhimento, como regressão de cume, laço e regressão de menor ângulo (LAR). …

3
Por que a estimativa da crista se torna melhor que a OLS adicionando uma constante à diagonal?
Entendo que a estimativa de regressão de crista é o que minimiza a soma residual do quadrado e uma penalidade no tamanho deββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] No entanto, não entendo completamente o significado do fato de que βridgeβridge\beta_\text{ridge} difere de βOLSβOLS\beta_\text{OLS} …

2
Por que o encolhimento funciona?
Para resolver problemas de seleção de modelos, vários métodos (LASSO, regressão de crista, etc.) reduzirão os coeficientes das variáveis ​​preditivas em direção a zero. Estou procurando uma explicação intuitiva sobre por que isso melhora a capacidade preditiva. Se o verdadeiro efeito da variável foi realmente muito grande, por que a …

6
A regressão de crista é inútil em altas dimensões ( )? Como o OLS pode não se adequar demais?
Considere um bom problema de regressão antigo com preditores de e tamanho da amostra . A sabedoria usual é que o estimador OLS superajuste e geralmente será superado pelo estimador de regressão de crista:É padrão usar a validação cruzada para encontrar um parâmetro de regularização ideal . Aqui eu uso …

5
Como derivar a solução de regressão de crista?
Estou tendo alguns problemas com a derivação da solução para regressão de crista. Conheço a solução de regressão sem o termo de regularização: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Porém, após adicionar o termo L2 à função cost, como é que a solução se tornaλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.






Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.