O que é eficiência da amostra e como a amostragem importante pode ser usada para alcançá-la?

Por exemplo, o título deste artigo é: "Exemplo de crítica eficiente de ator com repetição de experiência".

O que é eficiência da amostra e como a amostragem importante pode ser usada para alcançá-la?

reinforcement-learning statistical-ai importance-sampling

— Gokul NC
fonte

Respostas:

Um algoritmo é eficiente em termos de amostra se pode tirar o máximo proveito de cada amostra. Imagine aprender tentando aprender a jogar PONG pela primeira vez. Como humano, você levaria alguns segundos para aprender a jogar o jogo com base em muito poucas amostras. Isso o torna muito "eficiente na amostra". Algoritmos modernos de RL teriam que ver $100$ milhares de vezes mais dados do que você, de modo que eles são relativamente ineficientes.

No caso da aprendizagem off-política, nem todas as amostras são úteis na medida em que não são parte da distribuição que está interessado. Amostragem Importânciaé uma técnica para filtrar essas amostras. Seu uso original era entender uma distribuição enquanto só era possível coletar amostras de uma distribuição diferente, mas relacionada. Na RL, isso geralmente ocorre quando se tenta aprender fora da política. Ou seja, que suas amostras são produzidas por alguma política de comportamento, mas você deseja aprender uma política de destino. Portanto, é necessário medir a importância / similar das amostras geradas com as que a política de destino pode ter feito. Assim, é feita a amostragem de uma distribuição ponderada que favorece essas amostras "importantes". Existem muitos métodos, no entanto, para caracterizar o que é importante, e sua eficácia pode diferir dependendo da aplicação.

A abordagem mais comum para esse tipo de amostragem de importância fora da política é encontrar uma proporção da probabilidade de geração de uma amostra pela política de destino. O artigo Sobre uma conexão entre a amostragem de importância e o gradiente de política da razão de verossimilhança (2010) de Tang e Abbeel aborda este tópico.

— Jaden Travnik
fonte

Obrigado novamente. Pergunta básica: ..finding a ratio of how likely a sample is to be generated by the target policyComo decidimos isso, pois sabemos apenas a política de comportamento? A política de destino não é algo que precisamos encontrar?

— Gokul NC

Podemos obter uma estimativa disso prontamente, encontrando a proporção da política de destino pi, executando essa ação em relação à política de comportamento, mu. Assim, a razão é P = pi (s, a) / mu (s, a) onde a e s são a ação escolhida por mu e pelo estado, respectivamente.

— Jaden Travnik

Minha pergunta era: de onde obtemos pi (s, a), enquanto só temos mu (s, a)? Ou seja, de onde obtemos a política de destino, enquanto nosso objetivo é encontrá-la?

— Gokul NC

Sua política de destino é inicializada aleatoriamente, é apenas uma questão de atualizá-la.

— Jaden Travnik

Amostra de eficiência denota a quantidade de experiência que um agente / algoritmo precisa gerar em um ambiente (por exemplo, o número de ações executadas e número de estados resultantes + recompensas observadas) durante o treinamento para atingir um determinado nível de desempenho. Intuitivamente, você poderia dizer que um algoritmo é eficiente em termos de amostra se puder fazer bom uso de cada parte da experiência que gerar e melhorar rapidamente sua política. Um algoritmo tem baixa eficiência de amostra se não conseguir aprender algo útil de muitas amostras de experiência e não melhorar rapidamente.

A explicação da amostragem de importância na resposta de Jaden parece principalmente correta.

No artigo da sua pergunta, a amostragem por importância é um dos ingredientes que permite uma combinação correta de 1) aprender com trajetórias de várias etapas e 2) experimentar buffers de repetição. Essas duas coisas não eram fáceis de combinar antes (porque os retornos de várias etapas sem amostragem de importância são corretos apenas no aprendizado dentro da política, e amostras antigas em um buffer de reprodução foram geradas por uma política antiga, o que significa que o aprendizado com elas é fora da política ) Porém, ambas as coisas melhoram individualmente a eficiência da amostra, o que implica que também é benéfico para a eficiência da amostra se elas ainda puderem ser combinadas de alguma forma.

— Dennis Soemers
fonte