Respostas:
O bootstrapping no RL pode ser lido como "usando um ou mais valores estimados na etapa de atualização para o mesmo tipo de valor estimado".
Na maioria das regras de atualização de TD, você verá algo parecido com esta atualização SARSA (0):
O valor é uma estimativa para o valor verdadeiro de e também chamado de destino TD. É um método de autoinicialização porque, em parte, estamos usando um valor Q para atualizar outro valor Q. Há uma pequena quantidade de dados reais observados na forma de , a recompensa imediata para a etapa e também na transição de estado .
Contraste com Monte Carlo, onde a regra de atualização equivalente pode ser:
Onde foi a recompensa total com desconto no momento , assumindo nesta atualização, que ele começou nos estados , tomando a ação , e seguiu a política atual até o final do episódio. Tecnicamente, que é o intervalo de tempo para a recompensa e o estado do terminal. Notavelmente, esse valor-alvo não usa nenhuma estimativa existente (de outros valores Q), apenas usa um conjunto de observações (ou seja, recompensas) do ambiente. Como tal, é garantido que seja uma estimativa imparcial do valor real de , pois é tecnicamente uma amostra deQ ( s , a ) Q ( s , a ).
A principal desvantagem do bootstrap é que ele é direcionado para quaisquer valores iniciais de (ou ). Provavelmente, estas estão erradas, e o sistema de atualização pode ser instável como um todo por causa de muita auto-referência e dados reais insuficientes - esse é um problema com o aprendizado fora da política (por exemplo, Q-learning) usando redes neurais.
Sem o bootstrapping, usando trajetórias mais longas, geralmente há uma alta variação , o que, na prática, significa que você precisa de mais amostras antes da convergência das estimativas. Portanto, apesar dos problemas com o bootstrap, se puder ser feito para funcionar, ele pode aprender significativamente mais rápido e é geralmente preferido em relação às abordagens de Monte Carlo.
Você pode comprometer os métodos baseados em amostras de Monte Carlo e os métodos de TD de uma única etapa que iniciam usando uma mistura de resultados de diferentes trajetórias de comprimento. Isso se chama aprendizado de TD ( ) λ λ e há uma variedade de métodos específicos, como SARSA ( ) ou Q ( ).
Em geral, a inicialização no RL significa que você atualiza um valor com base em algumas estimativas e não em alguns valores exatos . Por exemplo
Atualizações incrementais da avaliação de políticas de Monte Carlo:
TD (0) Atualizações de avaliação de políticas:
Em TD (0), o retorno a partir do estado é estimado (inicializado) por enquanto em MC usamos o retorno exato .