3
Descida em gradiente em lote versus descida em gradiente estocástico
Suponha que tenhamos algum conjunto de treinamento para . Suponha também que executemos algum tipo de algoritmo de aprendizado supervisionado no conjunto de treinamento. As hipóteses são representadas como . Precisamos encontrar os parâmetros que minimizem a "distância" entre e . Seja(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + …