1
Como a descida estocástica do gradiente poderia economizar tempo em comparação com a descida padrão do gradiente?
A Descida de gradiente padrão calcularia o gradiente para todo o conjunto de dados de treinamento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Para um número predefinido de épocas, primeiro calculamos o vetor de gradiente weights_grad da função de perda para …