Estou tendo dificuldade em encontrar alguma explicação sobre o motivo pelo qual o Q-learning padrão tende a superestimar os valores q (que são abordados usando o Q-learning duplo). As únicas fontes que encontrei não explicam exatamente por que essa superestimação ocorre.
Por exemplo, o artigo da Wikipedia sobre Q-learning diz:
Como o valor máximo aproximado da ação é usado na atualização do Q-learning, em ambientes ruidosos, o Q-learning às vezes pode superestimar os valores das ações, retardando o aprendizado.
O que isto significa? Eu entendo o Q-learning, mas não o acima. Por que o uso do valor q máximo causa superestimação?
Obrigado!