O que é uma suposição de um procedimento estatístico?
Não sou estatístico e, portanto, isso pode estar errado, mas acho que a palavra "suposição" é frequentemente usada de maneira informal e pode se referir a várias coisas. Para mim, uma "suposição" é, estritamente falando, algo que somente um resultado teórico (teorema) pode ter.
Quando as pessoas falam sobre suposições de regressão linear ( veja aqui para uma discussão aprofundada), elas geralmente estão se referindo ao teorema de Gauss-Markov que diz que, sob suposições de erros não correlacionados, de variância igual e média zero, a estimativa de OLS é AZUL , ou seja, é imparcial e tem variação mínima. Fora do contexto do teorema de Gauss-Markov, não está claro para mim o que uma "suposição de regressão" significaria.
Do mesmo modo, as premissas de uma, digamos, uma amostra-teste t referem-se às premissas segundo as quais -statistic seja -distributed e, portanto, a inferência é válida. Não é chamado de "teorema", mas é um resultado matemático clara: se amostras são normalmente distribuídos, em seguida, -statistic seguirá de Student -Distribuição com graus de liberdade.t n t t n - 1ttnttn−1
Pressupostos das técnicas de regressão penalizada
Considere técnica agora qualquer regularizada regressão: Regressão Ridge, Lasso, rede elástica, componentes principais de regressão, regressão de mínimos quadrados parciais, etc. etc. Todo o ponto de estes métodos é fazer uma tendenciosa estimativa dos parâmetros de regressão, e na esperança de reduzir a espera perda explorando o trade-off de desvio-desvio.
Todos esses métodos incluem um ou vários parâmetros de regularização e nenhum deles possui uma regra definida para selecionar os valores desses parâmetros. O valor ideal geralmente é encontrado através de algum tipo de procedimento de validação cruzada, mas existem vários métodos de validação cruzada e eles podem gerar resultados um pouco diferentes. Além disso, não é incomum invocar algumas regras adicionais, além da validação cruzada. Como resultado, o resultado real de qualquer um desses métodos de regressão penalizado não é realmente totalmente definido pelo método, mas pode depender das escolhas do analista.β^
Portanto, não está claro para mim como pode haver qualquer declaração de otimização teórica sobre e, portanto, não tenho certeza de que falar sobre "suposições" (presença ou ausência delas) de métodos penalizados, como a regressão de crista, faça sentido. .β^
Mas e o resultado matemático de que a regressão de crista sempre supera a OLS?
Hoerl & Kennard (1970) em Regressão de Ridge: Estimação enviesada para problemas não-ortogonais provaram que sempre existe um valor do parâmetro de regularização tal forma que a estimativa de regressão da crista de tem uma perda esperada estritamente menor que a estimativa da OLS. É um resultado surpreendente - veja aqui para alguma discussão, mas apenas prova a existência desse , que depende do conjunto de dados.β λλβλ
Esse resultado, na verdade, não requer nenhuma suposição e é sempre verdadeiro, mas seria estranho afirmar que a regressão de crista não possui nenhuma suposição.
Ok, mas como sei se posso aplicar a regressão de crista ou não?
Eu diria que, mesmo que não possamos falar de suposições, podemos falar sobre regras de ouro . É sabido que a regressão de crista tende a ser mais útil em caso de regressão múltipla com preditores correlacionados. É sabido que tende a superar o OLS, geralmente por uma grande margem. Ele tenderá a superá-lo mesmo no caso de heterocedasticidade, erros correlatos ou qualquer outra coisa. Portanto, a simples regra geral diz que, se você tiver dados multicolineares, a regressão de crista e a validação cruzada é uma boa idéia.
Provavelmente existem outras regras úteis e truques comerciais (como, por exemplo, o que fazer com discrepâncias brutas). Mas eles não são suposições.
Observe que, para a regressão do OLS, são necessárias algumas suposições para que os valores de mantidos. Por outro lado, é complicado obter valores de na regressão de crista. Se isso é feito, é feito por bootstrapping ou por uma abordagem semelhante e, novamente, seria difícil apontar suposições específicas aqui, porque não há garantias matemáticas.ppp