Contexto:
De uma pergunta no Mathematics Stack Exchange (Posso criar um programa) , alguém possui um conjunto de pontos e deseja ajustar uma curva linear, exponencial ou logarítmica. O método usual é começar escolhendo um destes (que especifica o modelo) e, em seguida, faça os cálculos estatísticos.
Mas o que realmente se quer é encontrar a "melhor" curva linear, exponencial ou logarítmica.
Aparentemente, pode-se tentar os três e escolher a melhor curva ajustada dos três de acordo com o melhor coeficiente de correlação.
Mas, de alguma forma, sinto que isso não é bem kosher. O método geralmente aceito é escolher seu modelo primeiro, um desses três (ou alguma outra função de link) e, a partir dos dados, calcular os coeficientes. E, post facto, escolher o melhor de tudo é escolher a cereja. Mas para mim, se você está determinando uma função ou coeficiente a partir dos dados, ainda é a mesma coisa, seu procedimento está descobrindo a melhor coisa ... (digamos que qual função é também um outro coeficiente a ser descoberto).
Questões:
- É apropriado escolher o melhor modelo de ajuste dentre os modelos linear, exponencial e logarítmico, com base em uma comparação das estatísticas de ajuste?
- Em caso afirmativo, qual é a maneira mais apropriada de fazer isso?
- Se a regressão ajuda a encontrar parâmetros (coeficientes) em uma função, por que não pode haver um parâmetro discreto para escolher qual das três famílias de curvas as melhores viriam?