Quais são as premissas da regressão de crista e como testá-las?

Considere o modelo padrão para regressão múltipla onde , para que normalidade, homoscedasticidade e não correlação de erros sejam .

Y = X β + ε

$Y=X\beta+\varepsilon$

ε \sim N (0, σ^{2} I_{n})

$\varepsilon \sim \mathcal N(0, \sigma^2I_n)$

Suponha que realizamos uma regressão de crista, adicionando a mesma pequena quantidade a todos os elementos da diagonal de : $X$

β_{r i d g e} = [X^{'} X + k I]^{- 1} X^{'} Y

$\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y$

Existem alguns valores de para os quais o coeficiente de cordilheira tem menos erro quadrático médio do que os obtidos por OLS, embora seja um estimador enviesado de . Na prática, é obtido por validação cruzada. $k$ $\beta_\mathrm{ridge}$ $\beta$ $k$

Aqui está minha pergunta: quais são as suposições subjacentes ao modelo de cume? Para ser mais concreto,

Todas as suposições do OLS (ordinário quadrado mínimo) são válidas com regressão de crista?
Se sim, para a pergunta 1, como testamos a homocedasticidade e a falta de autocorrelação com um estimador enviesado de ? $\beta$
Existe algum trabalho em testar outras suposições de OLS (homoscedasticidade e falta de autocorrelação) sob regressão de crista?

regression assumptions ridge-regression

— akyves
fonte

Observe que o OLS não assume que os preditores sejam independentes. Apenas alguns métodos ou fórmulas de soluções particulares fazem essas suposições. O que é importante é como você seleciona o multiplicador de regressão da crista, não que a estimativa de seja tendenciosa. Se esse multiplicador for selecionado observando-se um traço de cordilheira, não será possível quantificar incertezas, o que põe em questão a maioria dos testes formais de diagnóstico na teoria da regressão linear. Isso me leva a perguntar o que você realmente quer dizer com "regressão de cume": como exatamente você está estimando seu parâmetro?

β

$\beta$

— whuber

Talvez eu esteja errado, mas considerando o modelo padrão de regressão múltipla . E se não é de classificação completa, isso leva a uma matriz não invertível , especialmente no caso de alta dimensão de X. minha pergunta. Obrigado.

β_{O L S} = (X^{'} X)^{- 1} X^{'} Y

$\beta_{OLS}=(X'X)^{-1}X'Y$

X

$X$

X^{'} X

$X'X$

— akyves 02/09

A regressão linear pode lidar perfeitamente com a colinearidade, desde que não seja "muito grande".

— jona

Esse não é o modelo para a regressão múltipla: é apenas uma maneira de expressar a estimativa dos mínimos quadrados. Quando não é invertível, as equações normais ainda têm soluções e (geralmente) o modelo ainda possui um ajuste exclusivo , o que significa que ele faz previsões únicas.

X^{'} X

$X^\prime X$

— whuber

Relacionado: Pressupostos do modelo de regressão de mínimos quadrados parciais (PLS) .

— Ameba diz Reinstate Monica

Respostas:

O que é uma suposição de um procedimento estatístico?

Não sou estatístico e, portanto, isso pode estar errado, mas acho que a palavra "suposição" é frequentemente usada de maneira informal e pode se referir a várias coisas. Para mim, uma "suposição" é, estritamente falando, algo que somente um resultado teórico (teorema) pode ter.

Quando as pessoas falam sobre suposições de regressão linear ( veja aqui para uma discussão aprofundada), elas geralmente estão se referindo ao teorema de Gauss-Markov que diz que, sob suposições de erros não correlacionados, de variância igual e média zero, a estimativa de OLS é AZUL , ou seja, é imparcial e tem variação mínima. Fora do contexto do teorema de Gauss-Markov, não está claro para mim o que uma "suposição de regressão" significaria.

Do mesmo modo, as premissas de uma, digamos, uma amostra-teste t referem-se às premissas segundo as quais -statistic seja -distributed e, portanto, a inferência é válida. Não é chamado de "teorema", mas é um resultado matemático clara: se amostras são normalmente distribuídos, em seguida, -statistic seguirá de Student -Distribuição com graus de liberdade. $t$ $t$ $n$ $t$ $t$ $n-1$

Pressupostos das técnicas de regressão penalizada

Considere técnica agora qualquer regularizada regressão: Regressão Ridge, Lasso, rede elástica, componentes principais de regressão, regressão de mínimos quadrados parciais, etc. etc. Todo o ponto de estes métodos é fazer uma tendenciosa estimativa dos parâmetros de regressão, e na esperança de reduzir a espera perda explorando o trade-off de desvio-desvio.

Todos esses métodos incluem um ou vários parâmetros de regularização e nenhum deles possui uma regra definida para selecionar os valores desses parâmetros. O valor ideal geralmente é encontrado através de algum tipo de procedimento de validação cruzada, mas existem vários métodos de validação cruzada e eles podem gerar resultados um pouco diferentes. Além disso, não é incomum invocar algumas regras adicionais, além da validação cruzada. Como resultado, o resultado real de qualquer um desses métodos de regressão penalizado não é realmente totalmente definido pelo método, mas pode depender das escolhas do analista. $\hat \beta$

Portanto, não está claro para mim como pode haver qualquer declaração de otimização teórica sobre e, portanto, não tenho certeza de que falar sobre "suposições" (presença ou ausência delas) de métodos penalizados, como a regressão de crista, faça sentido. . $\hat \beta$

Mas e o resultado matemático de que a regressão de crista sempre supera a OLS?

Hoerl & Kennard (1970) em Regressão de Ridge: Estimação enviesada para problemas não-ortogonais provaram que sempre existe um valor do parâmetro de regularização tal forma que a estimativa de regressão da crista de tem uma perda esperada estritamente menor que a estimativa da OLS. É um resultado surpreendente - veja aqui para alguma discussão, mas apenas prova a existência desse , que depende do conjunto de dados. $\lambda$ $\beta$ $\lambda$

Esse resultado, na verdade, não requer nenhuma suposição e é sempre verdadeiro, mas seria estranho afirmar que a regressão de crista não possui nenhuma suposição.

Ok, mas como sei se posso aplicar a regressão de crista ou não?

Eu diria que, mesmo que não possamos falar de suposições, podemos falar sobre regras de ouro . É sabido que a regressão de crista tende a ser mais útil em caso de regressão múltipla com preditores correlacionados. É sabido que tende a superar o OLS, geralmente por uma grande margem. Ele tenderá a superá-lo mesmo no caso de heterocedasticidade, erros correlatos ou qualquer outra coisa. Portanto, a simples regra geral diz que, se você tiver dados multicolineares, a regressão de crista e a validação cruzada é uma boa idéia.

Provavelmente existem outras regras úteis e truques comerciais (como, por exemplo, o que fazer com discrepâncias brutas). Mas eles não são suposições.

Observe que, para a regressão do OLS, são necessárias algumas suposições para que os valores de mantidos. Por outro lado, é complicado obter valores de na regressão de crista. Se isso é feito, é feito por bootstrapping ou por uma abordagem semelhante e, novamente, seria difícil apontar suposições específicas aqui, porque não há garantias matemáticas. $p$ $p$

— ameba diz Restabelecer Monica
fonte

Na situação em que se obtém propriedades de inferência em relação a algum procedimento, sejam propriedades de um teste de hipótese de uma inclinação de regressão ou propriedades de um intervalo de confiança ou um intervalo de previsão, por exemplo, os próprios testes serão derivados de alguma conjunto de suposições. Como em muitas áreas temáticas, de longe, o objetivo mais comum do uso de regressão é realizar algum tipo de inferência (de fato, em algumas áreas de aplicação, isso raramente é feito por qualquer outro motivo), as suposições que seriam feitas para o procedimento inferencial estão naturalmente associadas Com ...

— ctd

ctd ... a coisa em que eles são usados. Portanto, se você precisar de algumas suposições para derivar um teste t para testar um coeficiente de regressão ou para um teste F parcial ou para um IC para a média ou um intervalo de previsão ... e as formas usuais de inferência produzem o mesmo ou quase o mesmo mesma coleção de premissas, essas seriam razoavelmente consideradas como premissas associadas à realização de inferência usando essa coisa. Se alguém for fazer alguma inferência com regressão de cordilheira (digamos um intervalo de previsão) e fizer suposições para fazer isso, pode-se dizer que essas são suposições ...

— ctd

precisava ser capaz de derivar (e presumivelmente, então, usar) esse tipo particular de inferência na regressão de crista.

— Glen_b -Reinstala Monica 26/11

R^{2}

$R^2$

Não é tarde demais, espero agradecer @amoeba. Ótima resposta!

— akyves

Eu gostaria de fornecer algumas informações da perspectiva das estatísticas. Se Y ~ N (Xb, sigma2 * In), o erro quadrático médio de b ^ é

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

Se XT X for aproximadamente zero, inv (XT X) será muito grande. Portanto, a estimativa de parâmetro de b não é estável e pode ter o seguinte problema.

algum valor absoluto da estimativa de parâmetro é muito grande
b tem sinal positivo ou negativo oposto ao esperado.
adicionar ou remover variáveis ou observações fará com que as estimativas dos parâmetros mudem drasticamente.

Para tornar a estimativa ordinal do quadrado mínimo de b estável, introduzimos a regressão de crista estimando o b^(k)=inv(X.T*X+kI)*X.T*Y.E podemos provar que sempre existe um k que comete o erro quadrado médio de

MSE(b^(k)) < MSE(b^).

No aprendizado de máquina, a regressão de crista é chamada de regularização L2 e é para combater problemas excessivos causados por muitos recursos.

— Emma
fonte