A principal vantagem da regressão passo a passo é que ela é computacionalmente eficiente. No entanto, seu desempenho geralmente é pior que os métodos alternativos. O problema é que é muito ganancioso. Ao fazer uma seleção difícil no próximo regressor e 'congelar' o peso, ele faz escolhas localmente ideais a cada etapa, mas abaixo do ideal em geral. E não pode voltar a revisar suas escolhas passadas.
Até onde eu sei, a regressão gradual geralmente em comparação à regressão regularizada (LASSO), que tende a produzir melhores soluções.l1
Tibshirani (1996) . Retração e seleção de regressão através do laço
O LASSO penaliza a norma dos pesos, o que induz esparsidade na solução (muitos pesos são forçados a zero). Isso realiza a seleção de variáveis (as variáveis 'relevantes' podem ter pesos diferentes de zero). O grau de escarsidade é controlado pelo termo penalidade, e algum procedimento deve ser usado para selecioná-lo (a validação cruzada é uma escolha comum). O LASSO é mais computacionalmente intensivo do que a regressão por etapas, mas existem vários algoritmos eficientes. Alguns exemplos são a regressão de ângulo mínimo ( LARS ) e uma abordagem baseada na descida de coordenadas .l1
Uma abordagem semelhante à sugerida em (2) é chamada busca de correspondência ortogonal. É uma generalização da busca por correspondência, que é o nome da regressão gradual na literatura de processamento de sinais.
Pati et al. (1993) . Busca de correspondência ortogonal: aproximação de função recursiva com aplicações para decomposição de wavelets
Em cada iteração, o próximo melhor regressor é adicionado ao conjunto ativo. Em seguida, os pesos para todos os regressores no conjunto ativo são recalculados. Devido à etapa de reponderação, essa abordagem é menos ambiciosa (e tem melhor desempenho) do que a busca de correspondência regular / regressão passo a passo. Mas, ainda emprega uma heurística de busca gananciosa.
Todas essas abordagens (regressão por etapas, LASSO e busca de correspondência ortogonal) podem ser consideradas aproximações do seguinte problema:
minw∥y−Xw∥22s.t. ∥w∥0≤c
Em um contexto de regressão, as colunas de correspondem às variáveis independentes e à variável dependente. No processamento de sinal, as colunas de correspondem às funções e é um sinal a ser aproximado. O objetivo é encontrar um conjunto escasso de pesos que forneça a melhor aproximação (menos quadrados) de . A norma simplesmente conta o número de entradas diferentes de zero em . Infelizmente, esse problema é difícil para NP, portanto, algoritmos de aproximação devem ser usados na prática. A regressão passo a passo e a busca de correspondência ortogonal tentam resolver o problema usando uma estratégia de pesquisa gananciosa. O LASSO reformula o problema usando um relaxamento dasXyXywyl0wl0 norma para a norma. Aqui, o problema de otimização se torna convexo (e, portanto, tratável). E, embora o problema não seja mais idêntico, a solução é semelhante. Se bem me lembro, foi comprovado que tanto o LASSO quanto a busca de correspondência ortogonal recuperam a solução exata sob certas condições.l1