Escolhendo um modelo de regressão


8

Como alguém pode objetivamente (ler "algoritmicamente") selecionar um modelo apropriado para fazer uma regressão linear de mínimos quadrados simples com duas variáveis?

Por exemplo, digamos que os dados pareçam mostrar uma tendência quadrática e é gerada uma parábola que se ajusta muito bem aos dados. Como justificamos fazer dessa regressão? Ou como eliminamos a possibilidade de existir um modelo melhor?

O que realmente me preocupa é o seguinte: poderíamos continuar adicionando termos polinomiais até termos um ajuste perfeito para o conjunto de dados (uma interpolação dos pontos), sem nenhum erro. Mas isso seria inútil em termos de previsão ou extrapolação, porque não haveria razão para pensar que o "modelo" fosse realmente apropriado. Então, como equilibrar as necessidades de precisão e apelo intuitivo?

(Além disso, me avise se isso já tiver sido solicitado anteriormente, presumi que teria sido, mas não encontrei nada.)


1
A pergunta em si realmente implora a pergunta que você precisa se perguntar, e é por isso que estou construindo esse modelo de regressão? Para que você usará o modelo? O que você espera aprender com o modelo? Essas são questões imensas que certamente guiarão as etapas que você tomará na construção do modelo.
jsk

Eu acho que a figura na página da Wikipedia para sobreajuste fala por si só.
Nico

Respostas:


1

Você pode consultar o AIC, o BIC ou qualquer outra medida semelhante.

Você pode usar os olhos e a percepção do campo.

Ou você pode evitar alguns dos problemas usando splines.


Obrigado. Sou apenas iniciante em estatística, posso perguntar se as medidas da AIC e da BIC são "objetivas" (como derivadas de alguma coisa) ou são basicamente "compostas" pela experiência estatística?

AIC, BIC, etc são derivados de duas qualidades importantes do modelo em consideração: o número de parâmetros (k) e a probabilidade do modelo (L). Considere o - aqui vemos uma troca entre o número de parâmetros e a probabilidade. AIC2k2ln(L)
Abaumann

9

É provável que você não consiga encontrar um polinômio que constitua uma descrição correta do relacionamento, independentemente da quantidade de dados que você possui.

Esse problema pode se estender a quase qualquer classe de modelos.

No entanto, geralmente estamos interessados ​​em obter uma boa descrição que seja suficiente para algum propósito (um modelo), em vez de descobrir o processo real (possivelmente complicado demais) que conduz as observações.

De fato, mesmo onde o processo verdadeiro é de alguma classe hipotética de modelos potenciais, pode ser contraproducente descobrir o modelo verdadeiro (que pode ser de alta ordem, por exemplo, mas os termos de alta ordem podem ser muito pequenos). Pode ser que um modelo mais simples (ou seja, errado ) seja muito melhor para nossos propósitos.

Por exemplo, imagine que estávamos tentando prever os próximos valores em uma série um tanto barulhenta. Qualquer modelo que ajustamos apresenta algum erro nas estimativas de parâmetro e esse erro será ampliado pela previsão. Não é preciso muito para ter um modelo de ordem baixa (que é necessariamente tendencioso) com desempenho muito melhor do erro de previsão quadrada média (por exemplo) do que a ordem do modelo "verdadeiro".

Uma ferramenta comum para avaliar o desempenho do modelo é na previsão fora da amostra (não necessariamente ao longo do tempo). A validação cruzada é uma maneira comum de escolher modelos ou comparar seu desempenho.

Rob Hyndman escreveu uma pequena introdução agradável aqui .


1

Eu diria que muitas vezes as pessoas se alinham a uma das três abordagens diferentes:

  • freqüentistas, que fazem uso de testes como o teste F
  • bayesianos, que fazem uso de inferência bayesiana
  • pessoal da teoria da informação, que usa o BIC e o AIC, assim como outros exemplos citados acima.

A análise freqüentista é provavelmente a mais direta e a mais criticada por suas deficiências. A teoria da informação, por outro lado, sofreu um boom recentemente, chamando a atenção de mais e mais pessoas com o passar do tempo. Eu acho que você deve tentar entender um pouco e tirar algumas idéias de cada uma das três abordagens. Se você não tem idéia do que os dados devem conter, a abordagem freqüentista é uma boa maneira de começar; por outro lado, se você tiver alguma informação sobre o modelo subjacente, dê uma olhada na inferência bayesiana. E eu sempre manteria baixo o número de parâmetros livres, e é isso que AIC e BIC tentam equilibrar informações com parâmetros.


0

Eu usaria splines cúbicos restritos que permitem aproximar melhor a curva. Como um refinamento adicional, você pode usar o AICc (ou BIC) para escolher o número de nós.


Depende realmente do problema específico e do conjunto de dados; algumas vezes, uma linha reta é a melhor dificuldade para dizer algo sem ver os dados.
Nico
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.