Como alguém pode objetivamente (ler "algoritmicamente") selecionar um modelo apropriado para fazer uma regressão linear de mínimos quadrados simples com duas variáveis?
Por exemplo, digamos que os dados pareçam mostrar uma tendência quadrática e é gerada uma parábola que se ajusta muito bem aos dados. Como justificamos fazer dessa regressão? Ou como eliminamos a possibilidade de existir um modelo melhor?
O que realmente me preocupa é o seguinte: poderíamos continuar adicionando termos polinomiais até termos um ajuste perfeito para o conjunto de dados (uma interpolação dos pontos), sem nenhum erro. Mas isso seria inútil em termos de previsão ou extrapolação, porque não haveria razão para pensar que o "modelo" fosse realmente apropriado. Então, como equilibrar as necessidades de precisão e apelo intuitivo?
(Além disso, me avise se isso já tiver sido solicitado anteriormente, presumi que teria sido, mas não encontrei nada.)