Não sou especialista no assunto e minha pergunta é provavelmente muito ingênua. Ele decorre de um ensaio para entender os poderes e as limitações do aprendizado por reforço, conforme usado no programa AlphaGo.
O programa AlphaGo foi construído usando, entre outras coisas (exploração de árvores em Monte-Carlo, etc.), redes neurais que são treinadas a partir de um enorme banco de dados de jogos jogados jogados por seres humanos e que são então reforçadas ao permitir versões do jogo programa contra si mesmo muitas vezes.
Agora, me pergunto o que aconteceria se tentássemos criar um programa sem banco de dados humano, ou seja, começando com um programa básico de Go, conhecendo regras e algum método para explorar árvores, e jogando contra si mesmo para melhorar sua rede neural. Após muitos jogos contra si, chegaremos a um programa capaz de competir ou vencer os melhores jogadores humanos? E se sim, quantos jogos (em ordem de magnitude) seriam necessários para isso? Ou, pelo contrário, esse programa irá convergir para um player muito mais fraco?
Suponho que o experimento não tenha sido realizado, pois o AlphaGo é tão recente. Mas a resposta pode, no entanto, ser óbvia para um especialista. Caso contrário, qualquer palpite educado me interessará.
Pode-se também fazer a mesma pergunta para jogos "mais simples". Se usarmos aproximadamente as mesmas técnicas de aprendizado por reforço usadas para o AlphaGo, mas sem o uso de banco de dados humano, para um programa de xadrez, conseguiríamos um programa capaz de derrotar o melhor humano? E se sim, com que rapidez? Isso já foi tentado? Ou, se não for para o xadrez, que tal damas ou jogos ainda mais simples?
Muito obrigado.