É garantido que o algoritmo tabular de aprendizado de Q encontre a função ideal , , desde que sejam satisfeitas as seguintes condições (condições de Robbins-Monro ) em relação à taxa de aprendizado
onde significa que a taxa de aprendizagem utilizado quando a actualização da valor associado com o estado e acção no momento passo de tempo , em que é assumida como sendo verdadeira, para todos os estados e ações .
Aparentemente, dado que , para que as duas condições sejam verdadeiras, todos os pares de ação de estado devem ser visitados infinitamente com frequência: isso também é afirmado no livro Aprendizado por reforço: uma introdução , além do fato de que este deve ser amplamente conhecido e é a lógica por trás do uso do política -greedy (ou políticas semelhantes) durante o treinamento.
Uma prova completa que mostra que o learning encontra a função ideal pode ser encontrada no artigo Convergence of Q-learning: A Simple Proof (de Francisco S. Melo). Ele usa conceitos como mapeamento de contração para definir a função ideal (consulte também O que é o operador Bellman no aprendizado por reforço? ), Que é um ponto fixo desse operador de contração. Ele também usa um teorema (n. 2) sobre o processo aleatório que converge para , dadas algumas suposições. (A prova pode não ser fácil de seguir se você não é um cara de matemática.)
Se uma rede neural é usada para representar a função , as garantias de convergência do learning ainda são válidas? Por que (ou não) o Q-learning converge ao usar a aproximação de função? Existe uma prova formal de tal não convergência de learning usando aproximação de função?
Estou procurando por diferentes tipos de respostas, daquelas que fornecem apenas a intuição por trás da não convergência do learning ao usar a aproximação de funções àquelas que fornecem uma prova formal (ou um link para um artigo com uma prova formal).