Jogadores fortes movem suas peças com frequências relativas diferentes de jogadores fracos?


24

Esta questão é uma ramificação da pergunta anterior de Ramon Snir sobre a frequência com que diferentes tipos de peças são movidos, em média, em um jogo de xadrez. Minha pergunta:

Os números relativos de jogadas para os tipos de peças dados diferem quando se olha os jogos de jogadores mais fortes, em oposição aos jogos de jogadores mais fracos? (Por exemplo, talvez os jogadores mais fracos tendam a fazer mais movimentos de peão em detrimento dos movimentos de peças, ou fazem muitos movimentos de dama. Eu não sei.)

Consegui responder à pergunta anterior usando dados brutos extraídos de um banco de dados grande por outra pessoa . Esses dados vieram de uma amostra de jogos de 4 milhões ou mais, variando de grandmaster play a play amador fraco, e os números agregados dos totais de movimentação dados não discriminam com base na força do jogador. Responder à minha pergunta exigirá a obtenção de dados separados para jogos entre jogadores fortes e jogos entre jogadores fracos, e estou procurando respostas com backup de dados em vez de anedotas .

Aqui está uma forma mais específica da minha pergunta:

Existe algum limite de classificação Elo N tal que, quando se olha o número médio de movimentos em um jogo dividido por tipo de peça, há uma diferença significativa entre o que se encontra em jogos com jogadores acima de N e o que se encontra em jogos apresentando jogadores abaixo de N.

Seria interessante se mais desse tipo de coisa pudesse ser encontrado também, ou seja, diferenças concretas entre jogadores mais fortes e mais fracos que podem ser detectados pela mineração de dados. Tais descobertas podem apontar comportamentos específicos que impedem os jogadores ou, inversamente, comportamentos que os impulsionam para a frente. Agora, talvez não exista essa diferença apenas observando esse tipo de dados, mas eu também estaria interessado em saber isso.


Suspeito um pouco desses dados agregados, porque eles podem não entender. Alguns jogos são decididos jogando com peças outros empurrando peões. A frequência de uma peça movida não diz nada sobre a qualidade dos movimentos. Existe uma regra geral que diz que você não deve mover uma única peça com frequência na abertura. No entanto, jogadores fortes adotam essa tática algumas vezes, se justificada pela posição.
Michael

@ Michael, eu concordo inteiramente que um fator como o que eu estou perguntando não seria em si um indicativo de boa jogada; se eu mover minhas peças com a mesma frequência relativa de Aronian, por exemplo, é claro que isso não significa que estou tocando tão bem quanto ele. Mas é exatamente por isso que, acima, digamos, Elo 1800, não há diferença detectável nessas frequências relativas (embora exista uma enorme variedade de habilidades acima de 1800), enquanto abaixo de 1800 está significativamente distorcido. Essa descoberta nos dados pode indicar um fator por trás de um jogador estar abaixo desse limite de força.
ETD

11
Lembre-se de que os dados mostrarão o que os mestres fazem quando enfrentam outros mestres e da mesma forma com jogadores menores. Idealmente, você gostaria de comparar o que jogadores melhores e piores fazem em posições idênticas , mas isso provavelmente não seria possível através da modelagem de dados, exceto na abertura.
Evan Harper

@ EdDean - este é um tópico bastante interessante. Alguma idéia de onde exatamente ele conseguiu os jogos 4M +? Existe um lugar onde possamos obter algo de tamanho significativo (digamos, mais de 100 mil jogos), de uma fonte respeitável, mas gratuita? Estou pensando especificamente em uma fonte facilmente transferível por download, em oposição a "pesquisável on-line".
Daniel B

11
Apenas para acompanhar, a Wikipedia tem uma boa página sobre coleções de jogos de xadrez . Destes, o primeiro link parecia de longe o mais promissor (número relativamente pequeno de PGNs compactados para download), mas faltam grandes seções (códigos ECO B a E), o que tornaria a análise muito unilateral e bastante inútil.
Daniel B

Respostas:


29

Aqui está uma análise rápida e suja, baseada no banco de dados PGN "Million Base". Fiz isso às pressas, portanto pode haver erros na minha programação ou lógica. Por favor, não o use para algo muito sério. Atualização - Nota: Na verdade, acabei de perceber que cometi um erro no conjunto de dados e o limitei aos primeiros 1 milhão de registros. Vou postar uma atualização quando tiver tempo livre para executá-la novamente. Enquanto isso, esses números devem ser interessantes, no entanto.

Obtendo os dados:

Eu obtive o arquivo Million Base 1.74 a partir desta URL , pois o site top-5000.nl parece 404 quando você tenta fazer o download. O arquivo contém pouco mais de 1 milhão de jogos no formato de exportação PGN (ou seja, fácil de analisar).

Infelizmente, mais de 60% dos jogos não possuíam informações de classificação (eu estava procurando pelas tags "WhiteELO" e "BlackELO"), e menos ainda tinham classificações para os dois jogadores. No final, decidi obter o maior tamanho de amostra possível e contei os movimentos de um jogador se sua classificação fosse conhecida, independentemente da classificação do outro jogador.

Processo:

Os jogos foram analisados ​​um por um e, se a classificação de um jogador fosse conhecida, todos os seus movimentos para esse jogo seriam adicionados ao agregado do grupo de classificação do jogador. Eu escolhi dividir as classificações em grupos de 100, por exemplo, 1600 a 1699 era um único grupo.

Como o texto em movimento real na PGN é SAN, usei o seguinte atalho para contar os movimentos: Cavaleiro (N), Bispo (B), Torre (R), Rainha (Q) e Rei (K). Todos os movimentos começam com a letra da peça . O roque (OO e OOO) foi contado separadamente, como um caso especial. Todos os movimentos restantes foram contados como movimentos de peão sem exame adicional.

Nenhuma limpeza de dados foi feita. Não houve tentativa de identificar discrepantes e removê-los (por exemplo, jogos excessivamente curtos e longos, etc.). Eu mantive, mas não incluímos na análise a seguir, os resultados de classificações abaixo de 1600 - o tamanho da amostra para esses jogos ficou bem abaixo de 100, levando a grandes variações nos resultados. Os dados brutos são fornecidos no final desta postagem.

Algumas deficiências da informação: no momento, só coletei totais muito básicos e forneça médias. Tenho certeza de que, em geral, os dados NÃO são normalmente distribuídos, mas não serão capazes de dizer mais sem realmente gerar as contagens brutas e executá-las por meio de um programa estatístico. Posso fazê-lo, se houver interesse. No momento, isso significa que não há intervalos de confiança ou outras informações sobre a distribuição dos números que essas médias representam. Também não verifiquei quantos anos o conjunto de dados se estende - se representa muitos anos, pode ser benéfico tentar corrigir a força geral do campo.

Algumas tendências:

Uma palavra sobre as classificações dos jogadores - os grupos de classificações mais frequentes encontrados foram, em ordem: 2400 a 2500, 2500 a 2600 e 2300 a 2400. Esses grupos de classificação forneceram 72% dos jogos contados.

Olhando para os resultados reais, a duração média do jogo foi uma surpresa:

Número médio de movimentos por grupo de classificação

Todos os grupos de classificação sub-2000 tiveram jogos significativamente mais curtos que os grupos superiores. Isso pode ser explicado pela possibilidade de que eles estavam jogando com oponentes mais fortes (veja a classificação média acima) e que foram derrotados em menos jogadas. Isso parece ir contra os jogos um pouco mais curtos disputados pelo grupo de classificação mais alta, embora isso possa contribuir para um tamanho menor da amostra.

As diferenças relativamente grandes na duração média do jogo significam que fornecer a frequência de movimentação de uma determinada peça, em vez do número total de vezes que uma peça é movida, talvez seja a comparação mais justa. O cálculo das frequências resulta no seguinte gráfico:

Mover frequências por peça

As seguintes tendências parecem estar presentes:

  • A frequência dos movimentos dos cavaleiros parece tender ligeiramente para baixo com a classificação.
  • Bishop move a tendência para baixo até cerca de 2000, depois lentamente para cima.
  • A torre move a tendência acentuadamente para cima, aproximadamente no mesmo ponto, e permanece mais frequente do que o Bishop em movimentos de alto nível.
  • Os movimentos dos peões parecem ter tendência ligeiramente para baixo com o aumento da classificação. Uma grande exceção é a categoria superior, 2800 a 2900. Isso nos leva ao próximo ponto:
  • A categoria de classificação superior fornece discrepantes ou contra-tendências em várias medições. Isso pode ser explicado de várias maneiras - 1) o tamanho da amostra é razoavelmente baixo em 363, não pequeno, mas 10% do próximo tamanho menor da amostra incluído. 2) Como estão no topo dos grupos de classificação, nunca jogam oponentes "mais fortes" do que eles. 3) Ou simplesmente nesse nível, seu estilo de jogo transcendeu os níveis abaixo deles. Meu palpite seria uma combinação de 1) e 2).
  • As diferenças nos movimentos de dama e de roque são muito pequenas, sem nenhuma tendência real, exceto uma pequena tendência de queda nos dois casos.
  • A frequência dos movimentos dos reis tem algumas das maiores diferenças. Nenhuma tendência clara é visível e parece mudar de direção 3 ou 4 vezes.

Análise Adicional

Algumas idéias para análises futuras:

  • Correções estatísticas básicas: Acho que jogos extremamente curtos e longos provavelmente devem ser excluídos. Além disso, a distribuição das contagens reais pode ser muito reveladora.
  • Dividir ainda mais a análise também pode gerar resultados interessantes. Por exemplo, eu estaria interessado em saber como as frequências de preto e branco se combinam (elas são iguais ou diferentes? Por que?).
  • A categorização por diferença de classificação também pode ser interessante. Os jogadores que jogam com um oponente muito mais forte (digamos, 200 classificações acima deles) jogam com diferentes frequências de movimento? Infelizmente, isso exige que o ELO de ambos os jogadores seja conhecido, o que é raro neste conjunto de dados.
  • A tendência para o castelo curto versus o castelo longo também pode variar de acordo com a classificação.
  • Estatísticas de promoção de peças, algumas análises estruturais leves (por exemplo, incidência de peões dobrados, passantes, pinos, garfos, mostradas por classificação) podem ser interessantes.
  • Os "mapas de calor" da colocação das peças no tabuleiro real, mostrados pela classificação, também podem ser bastante interessantes.

Agregar dados no formato CSV

Para quem quiser brincar com os dados, fique à vontade.

Faixa de classificação, tamanho da amostra, duração média do jogo, movimentos médios de peões, movimentos médios de cavaleiros, movimentos médios de bispo, movimentos médios de torre, movimentos médios de rainha, movimentos médios de rainha, movimentos médios de rei e castelos médios

1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857

Agradável! Obrigado por executar os números aqui. A propósito, se você acha que alguma das idéias em sua seção "análise posterior" está pronta para ser questionada, não hesite em fazê-lo.
ETD

11
@ Eddean obrigado, e provavelmente farei algumas análises adicionais quando o tempo permitir. Eu também notei algumas melhorias adicionais que podem ser feitas (por exemplo, filtrar blitz e jogos simultâneos, e possivelmente outros), então provavelmente será um pouco de trabalho. Vou criar uma atualização quando tiver algo.
31712 Daniel B

11
Uau. Essa foi uma resposta e tanto. Fantástico.
James Tomasino

3
Eu não ficaria surpreso se, digamos, o aumento do número de movimentos de torre entre jogadores fortes apenas significasse que é mais provável que eles terminem em finais longos de torre, em vez de que eles movam-se com mais frequência em posições semelhantes.
Dfan 29/05

3
@dfan Eu concordo, esses números podem ter mais a ver com vários efeitos de 2ª ordem, por exemplo, jogadores com classificação mais baixa cometendo erros no início e não entrando em um longo fim de jogo etc. Eu tenho várias idéias sobre como isso pode ser mais preciso, mas infelizmente não há tempo para implementá-los.
Daniel B
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.