A regressão básica do OLS é uma técnica muito boa para ajustar uma função a um conjunto de dados. No entanto, regressão simples só se encaixa uma linha reta que é constante para toda a gama possível de . Isso pode não ser apropriado para uma determinada situação. Por exemplo, os dados às vezes mostram um relacionamento curvilíneo . Isso pode ser tratado por meio da regressão de Y em uma transformação de X , f ( X ) . Diferentes transformações são possíveis. Nas situações em que a relação entre X e Y é monotônica , mas diminui continuamente, uma transformação de logXYXf( X)XYpode ser usado. Outra opção popular é usar um polinômio em que novos termos são formados elevando a uma série de potências (por exemplo, X 2 , X 3 , etc.). Essa estratégia é fácil de implementar e você pode interpretar o ajuste informando quantas 'dobras' existem nos seus dados (onde o número de dobras é igual à maior potência necessária menos 1). XX2X3
No entanto, regressões baseadas no logaritmo ou em um expoente da covariável se ajustarão de maneira ideal apenas quando essa for a natureza exata do verdadeiro relacionamento. É bastante razoável imaginar que exista uma relação curvilínea entre e Y que seja diferente das possibilidades que essas transformações oferecem. Assim, chegamos a duas outras estratégias. A primeira abordagem é loess , uma série de regressões lineares ponderadas calculadas sobre uma janela em movimento. Essa abordagem é mais antiga e mais adequada para a análise exploratória de dados . XY
A outra abordagem é usar splines. Em que é mais simples, uma spline é um novo termo que se aplica a apenas uma parte da gama de . Por exemplo, X pode variar de 0 a 1, e o termo spline pode variar de 0,7 a 1. Nesse caso, 0,7 é o nó . Um termo spline simples e linear seria calculado da seguinte forma:
X s p l i n e = { 0XX
e seria adicionado ao seu modelo,alémdotermoXoriginal. O modelo ajustado mostrará uma quebra acentuada em 0,7 com uma linha reta de 0 a 0,7, e a linha continuando com uma inclinação diferente de 0,7 a 1. No entanto, um termo de spline não precisa ser linear. Especificamente, foi determinado que splines cúbicos são especialmente úteis (ou seja,X 3 s p l i n e
Xs p l i n e= { 0X- .7se X≤ 0,7se X> .7
XX3s p l i n e) A quebra acentuada não precisa estar lá também. Foram desenvolvidos algoritmos que restringem os parâmetros ajustados, de modo que a primeira e a segunda derivadas correspondam aos nós, o que torna impossível a detecção dos nós na saída. O resultado final de tudo isso é que, com apenas alguns nós (geralmente 3-5) nos locais de escolha (que o software pode determinar para você), é possível reproduzir praticamente
qualquercurva. Além disso, os graus de liberdade são calculados corretamente, para que você possa confiar nos resultados, o que não é verdade quando você olha primeiro para seus dados e depois decide ajustar um termo ao quadrado porque viu uma dobra. Além disso, tudo isso é apenas outra versão (embora mais complicada) do modelo linear básico. Assim, tudo o que obtemos com modelos lineares vem com isso (por exemplo, previsões, resíduos, faixas de confiança, testes etc.) Essas são vantagens
substanciais .
A introdução mais simples a esses tópicos que eu conheço é: