Existem vários sites que descrevem a descida do gradiente para encontrar os parâmetros para a regressão linear simples ( aqui está um deles). O Google também a descreve em seu novo curso de ML (para o público).
No entanto, na Wikipedia , são fornecidas as seguintes fórmulas para calcular os parâmetros:
Além disso, a função LinearRegression do scikit -learn , não possui um n_iter_
atributo (número de iterações), como ocorre em muitas outras funções de aprendizagem, o que suponho sugere que a descida de gradiente não esteja sendo usada?
Questões:
- Os sites que descrevem a descida em gradiente para regressão linear simples apenas o fazem para ensinar o conceito sobre o modelo mais básico de ML? A fórmula na Wikipedia é o que a maioria dos softwares de estatísticas usaria para calcular os parâmetros (pelo menos o scikit-learn não parece estar usando descida de gradiente)?
- O que normalmente é usado para regressão linear múltipla?
- Para que tipos de modelos estatísticos de aprendizagem a descida gradiente é normalmente usada para encontrar os parâmetros em relação a outros métodos? Ou seja, existe alguma regra de ouro?