3
Por que o Q-learning superestima os valores das ações?
Estou tendo dificuldade em encontrar alguma explicação sobre o motivo pelo qual o Q-learning padrão tende a superestimar os valores q (que são abordados usando o Q-learning duplo). As únicas fontes que encontrei não explicam exatamente por que essa superestimação ocorre. Por exemplo, o artigo da Wikipedia sobre Q-learning diz: …