Talvez seja apenas porque estou cansada, mas estou tendo problemas para tentar entender o algoritmo Forward Stagewise Regression. Na página "Elementos da aprendizagem estatística", página 60:
A regressão forward-stagewise (FS) é ainda mais restrita que a regressão forward-stepwise. Começa como regressão progressiva para a frente, com uma interceptação igual à [média de] y, e preditores centralizados com coeficientes inicialmente todos 0.
A cada passo, o algoritmo identifica a variável mais correlacionada com o residual atual. Em seguida, calcula o coeficiente de regressão linear simples do resíduo nessa variável escolhida e depois o adiciona ao coeficiente atual dessa variável. Isso continua até que nenhuma das variáveis tenha correlação com os resíduos - isto é, os mínimos quadrados se encaixam quando N> p.
Então, esse é o algoritmo ?:
b[1]=mean(y)
b[2..n]=0
r=(y-X*b)
index, maxCorr = max(transpose(r)*X)
while(abs(maxCorr) > someThreshold)
b[index]=b[index]+regress(r,X[1..n][index])
r=(y-X*b)
index, maxCorr = max(transpose(r)*X)
Onde b é um vetor de coluna dos coeficientes, X é uma matriz de entradas e y é um vetor de coluna de saídas. Ou seja, y = X * b + erro.
Perguntando porque esse algoritmo me fornece apenas alguns coeficientes diferentes de zero no conjunto de dados em que estou testando (com limite = 0,0001), e a precisão da previsão não é muito boa.