O motivo pelo qual o gradiente on-line é útil é para aplicativos de grande escala. De qualquer forma, agora existem bibliotecas que o implementam, para que você não precise programá-lo. É uma boa maneira de aprender como as coisas funcionam.
Nas palavras de Leon Bottou:
O aprendizado de máquina em larga escala foi abordado pela primeira vez como um problema de engenharia. Por exemplo, para alavancar um conjunto de treinamento maior, podemos usar um computador paralelo para executar um algoritmo conhecido de aprendizado de máquina ou adaptar métodos numéricos mais avançados para otimizar uma função conhecida de objetivo de aprendizado de máquina. Tais abordagens se baseiam na suposição atraente de que é possível dissociar os aspectos estatísticos dos aspectos computacionais do problema de aprendizado de máquina.
Este trabalho mostra que essa suposição está incorreta e que desistir leva a algoritmos de aprendizado consideravelmente mais eficazes. Um novo referencial teórico leva em consideração o efeito da otimização aproximada nos algoritmos de aprendizado.
A análise mostra trocas distintas para o caso de problemas de aprendizado em pequena e grande escala. Problemas de aprendizado em pequena escala estão sujeitos à troca usual de aproximação-estimativa. Problemas de aprendizado em larga escala estão sujeitos a uma troca qualitativamente diferente, envolvendo a complexidade computacional dos algoritmos de otimização subjacentes de maneiras não triviais. Por exemplo, os algoritmos Estochastic Gradient Descent (SGD) parecem ser algoritmos medíocres de otimização e, no entanto, demonstram ter um desempenho extremamente bom em problemas de aprendizado em larga escala.
Aprendizagem em larga escala
projeto sgd