A descida estocástica do gradiente é precedida pela aproximação estocástica, descrita pela primeira vez por Robbins e Monro em seu artigo, Um método de aproximação estocástica . Kiefer e Wolfowitz publicaram posteriormente seu artigo, Estimativa Estocástica do Máximo de uma Função de Regressãoque é mais reconhecível para pessoas familiarizadas com a variante ML da Aproximação estocástica (ou seja, descida estocástica do gradiente), como apontado por Mark Stone nos comentários. Os anos 60 viram muitas pesquisas nesse sentido - Dvoretzky, Powell, Blum, todos os resultados publicados que hoje tomamos como garantidos. É um salto relativamente pequeno para passar do método de Robbins e Monro para o método de Kiefer Wolfowitz, e apenas uma reformulação do problema para chegar à descida estocástica do gradiente (para problemas de regressão). Os artigos acima são amplamente citados como sendo os antecedentes da descida estocástica do gradiente, como mencionado neste artigo de revisão de Nocedal, Bottou e Curtis , que fornece uma breve perspectiva histórica do ponto de vista do aprendizado de máquina.
Acredito que Kushner e Yin em seu livro Aproximação Estocástica e Algoritmos e Aplicações Recursivos sugerem que a noção havia sido usada na teoria de controle desde os anos 40, mas não me lembro se eles tinham uma citação para isso ou se foi. anedótico, nem tenho acesso ao livro deles para confirmar isso.
Herbert Robbins e Sutton Monro Um método de aproximação estocástica
The Annals of Mathematics Statistics, vol. 22, n ° 3. (setembro de 1951), pp. 400-407.
J. Kiefer e J. Wolfowitz Estimativa Estocástica do Máximo de uma Função de Regressão Ann. Matemática. Statist. Volume 23, Número 3 (1952), 462-466
Leon Bottou e Frank E. Curtis e Jorge Nocedal, métodos de otimização para aprendizado de máquina em larga escala , relatório técnico, arXiv: 1606.04838