Para maior clareza, acho que você deve substituir por pois existe apenas uma função de valor de ação, estamos apenas avaliando Q em ações no próximo estado. Essa notação também sugere onde estão os .m a x a ( Q ( S ′ , a ) ) p ( s ′ | s , a )maxa(Q′,a)maxa(Q(S′,a))p(s′|s,a)
Intuitivamente, é uma propriedade do ambiente. Nós não controlamos como ele funciona, mas simplesmente provamos. Antes de chamarmos essa atualização, primeiro precisamos executar uma ação A no estado S. O processo de fazer isso nos dá uma recompensa e nos envia para o próximo estado. O próximo estado em que você pousa é extraído de por sua definição. Portanto, na atualização Q-learning, assumimos essencialmente que é 1 porque foi aí que acabamos.p ( s ' | s , a ) p ( s ' | s , a )p(s′|s,a)p(s′|s,a)p(s′|s,a)
Tudo bem, porque é um método iterativo em que estamos estimando a função de valor de ação ideal sem conhecer a dinâmica completa do ambiente e, mais especificamente, o valor de . Se você possui um modelo de ambiente que fornece essas informações, pode alterar a atualização para incluí-las, simplesmente alterando o retorno para .γ p ( S ′ | S , A ) m a x a ( Q ( S ′ , a ) )p(s|s′,a)γp(S′|S,A)maxa(Q(S′,a))