Eu quero criar uma IA que possa jogar cinco em linha / gomoku. Como mencionei no título, quero usar o aprendizado por reforço para isso.
Eu uso o método gradiente de política , ou seja, REFORÇAR, com a linha de base. Para a aproximação das funções de valor e política, eu uso uma rede neural . Possui camadas convolucionais e totalmente conectadas. Todas as camadas, exceto a saída, são compartilhadas. A camada de saída da política possui (o tamanho da placa) e uma unidade de saída macia . Então é estocástico. Mas e se a rede produzir uma probabilidade muito alta de uma movimentação inválida? Uma jogada inválida ocorre quando o agente deseja verificar um quadrado com um "X" ou "O". Eu acho que pode ficar preso nesse estado de jogo.
Você poderia recomendar alguma solução para este problema?
Meu palpite é usar o método ator-crítico . Para uma jogada inválida, devemos dar uma recompensa negativa e passar o turno para o oponente.