Qual a precisão das classificações dos motores de xadrez?

À luz do torneio do TCEC em andamento, eu estava pensando: como é que eles têm as classificações desses computadores? Presumivelmente, um motor de xadrez com classificação de 2000 deve esperar uma pontuação de cerca de 0,5 contra um humano classificado com 2000. Isso talvez facilite a verificação se os motores de xadrez são realmente aproximadamente a classificação que eles dizem que são. No entanto, isso é problemático para programas de classificação mais alta, como o komodo, que supostamente está em torno de 3250. Obviamente, nenhum ser humano joga nesse nível. Além disso, até 2800 computadores classificados não jogam contra humanos (duvido que o magnus jogue contra computadores para ajudar os desenvolvedores a definir sua classificação). É até suspeito se os motores jogam contra os mestres para determinar sua força. Portanto, suspeito que essas classificações de motores sejam determinadas por motores que jogam contra oponentes de força semelhante há muito tempo, e a maioria das classificações vem dos jogos engine vs engine atualmente. Mas se isso fosse verdade, eu não esperaria que as classificações do motor sejam precisas em comparação com a escala elo humana. Existe uma maneira de verificar se as classificações do motor são precisas?

engines

— CognisMantis
fonte

Se você pode obter um ser humano classificado confiável, jogue uma partida contra um computador fraco, para "calibrar" o computador, depois você poderá usar esse mecanismo em comparação com outro motor 300 pontos mais alto para calibrar aquele e subir escadas assim, 300 elo aponta cada vez para torná-lo estatisticamente fácil (para que nem todos sejam vitórias, porque então, como você sabe quanto é melhor em pontos)? Eu acho que seria possível pelo menos elo essencial de motores fortes.

— Santropedro 28/10

As classificações dos mecanismos de xadrez do computador não estão relacionadas à lista de classificações da FIDE.

Por exemplo, o MicroMaxmecanismo tem cerca de 1950 na CCRL:

http://www.computerchess.org.uk/ccrl/4040/

Eu distribuo um aplicativo iOS ( ChessMini ) para esse mecanismo. Eu escrevi na página de descrição do aplicativo:

O mecanismo tem uma classificação de Elo 2000 nas listas de classificação de xadrez para computador e é mais forte que 70% dos jogadores de xadrez humano.

Isso é verdade apenas se a classificação de xadrez da CCRL estiver muito próxima da lista de classificações da FIDE.

Infelizmente, recebi vários usuários reclamando que foram capazes de vencer o aplicativo de forma convincente, apesar de suas classificações na FIDE serem muito inferiores a 1900. Na verdade, eu mesmo tenho uma classificação na FIDE por volta de 2000, mas o mecanismo MicroMax nunca me venceu. Acho que a classificação "real" na escala FIDE é 1300-1400.

Esqueça a lista de classificação humana, basta olhar para a classificação relativa .

As classificações de xadrez do computador são extraordinariamente precisas (mas nenhuma relação com a FIDE) porque o tamanho da amostra é limitado apenas pelo seu poder de processamento. Você começa um torneio de motores, deixa o computador funcionando e vai para a cama ... São 24 horas de xadrez como o TCEC. Você joga o maior número possível de combinações de mecanismo que o seu computador pode pagar.

Os mecanismos de computador são classificados por jogar com outros mecanismos. Nenhuma intervenção humana. Nenhum grande mestre. Qualquer pessoa com um laptop pode fazer isso:

Download Arena ou Cutechess
Baixe seus mecanismos favoritos
Iniciar um torneio de mecanismo

É isso, é tão simples! Você obterá classificações estimadas para seus mecanismos.

— SmallChess
fonte

Ainda deve haver alguma relação aproximada entre as duas listas, não? (É difícil encontrar uma tal relação com poucos jogos entre humanos e computadores, mas deve haver um.)

— TMM

@TMM Talvez. Se houver um e puder ser comprovado estatisticamente (algo como correlação), tente sua resposta.

— SmallChess

Sua resposta oferece uma anedota interessante e é valiosa nessa medida, mas não parece autoritária no assunto específico que o OP levanta. Sua resposta é sua resposta, então não acho que você deva mudar, a menos que queira; no entanto, acredito que a resposta teria sido mais precisa se tivesse começado: "Não sei a resposta para sua pergunta, mas aqui está uma anedota esclarecedora". Na minha opinião, portanto, a questão ainda está em aberto e ainda quer uma resposta adequada.

— THB