Aqui está uma análise rápida e suja, baseada no banco de dados PGN "Million Base". Fiz isso às pressas, portanto pode haver erros na minha programação ou lógica. Por favor, não o use para algo muito sério. Atualização - Nota: Na verdade, acabei de perceber que cometi um erro no conjunto de dados e o limitei aos primeiros 1 milhão de registros. Vou postar uma atualização quando tiver tempo livre para executá-la novamente. Enquanto isso, esses números devem ser interessantes, no entanto.
Obtendo os dados:
Eu obtive o arquivo Million Base 1.74 a partir desta URL , pois o site top-5000.nl parece 404 quando você tenta fazer o download. O arquivo contém pouco mais de 1 milhão de jogos no formato de exportação PGN (ou seja, fácil de analisar).
Infelizmente, mais de 60% dos jogos não possuíam informações de classificação (eu estava procurando pelas tags "WhiteELO" e "BlackELO"), e menos ainda tinham classificações para os dois jogadores. No final, decidi obter o maior tamanho de amostra possível e contei os movimentos de um jogador se sua classificação fosse conhecida, independentemente da classificação do outro jogador.
Processo:
Os jogos foram analisados um por um e, se a classificação de um jogador fosse conhecida, todos os seus movimentos para esse jogo seriam adicionados ao agregado do grupo de classificação do jogador. Eu escolhi dividir as classificações em grupos de 100, por exemplo, 1600 a 1699 era um único grupo.
Como o texto em movimento real na PGN é SAN, usei o seguinte atalho para contar os movimentos: Cavaleiro (N), Bispo (B), Torre (R), Rainha (Q) e Rei (K). Todos os movimentos começam com a letra da peça . O roque (OO e OOO) foi contado separadamente, como um caso especial. Todos os movimentos restantes foram contados como movimentos de peão sem exame adicional.
Nenhuma limpeza de dados foi feita. Não houve tentativa de identificar discrepantes e removê-los (por exemplo, jogos excessivamente curtos e longos, etc.). Eu mantive, mas não incluímos na análise a seguir, os resultados de classificações abaixo de 1600 - o tamanho da amostra para esses jogos ficou bem abaixo de 100, levando a grandes variações nos resultados. Os dados brutos são fornecidos no final desta postagem.
Algumas deficiências da informação: no momento, só coletei totais muito básicos e forneça médias. Tenho certeza de que, em geral, os dados NÃO são normalmente distribuídos, mas não serão capazes de dizer mais sem realmente gerar as contagens brutas e executá-las por meio de um programa estatístico. Posso fazê-lo, se houver interesse. No momento, isso significa que não há intervalos de confiança ou outras informações sobre a distribuição dos números que essas médias representam. Também não verifiquei quantos anos o conjunto de dados se estende - se representa muitos anos, pode ser benéfico tentar corrigir a força geral do campo.
Algumas tendências:
Uma palavra sobre as classificações dos jogadores - os grupos de classificações mais frequentes encontrados foram, em ordem: 2400 a 2500, 2500 a 2600 e 2300 a 2400. Esses grupos de classificação forneceram 72% dos jogos contados.
Olhando para os resultados reais, a duração média do jogo foi uma surpresa:
Todos os grupos de classificação sub-2000 tiveram jogos significativamente mais curtos que os grupos superiores. Isso pode ser explicado pela possibilidade de que eles estavam jogando com oponentes mais fortes (veja a classificação média acima) e que foram derrotados em menos jogadas. Isso parece ir contra os jogos um pouco mais curtos disputados pelo grupo de classificação mais alta, embora isso possa contribuir para um tamanho menor da amostra.
As diferenças relativamente grandes na duração média do jogo significam que fornecer a frequência de movimentação de uma determinada peça, em vez do número total de vezes que uma peça é movida, talvez seja a comparação mais justa. O cálculo das frequências resulta no seguinte gráfico:
As seguintes tendências parecem estar presentes:
- A frequência dos movimentos dos cavaleiros parece tender ligeiramente para baixo com a classificação.
- Bishop move a tendência para baixo até cerca de 2000, depois lentamente para cima.
- A torre move a tendência acentuadamente para cima, aproximadamente no mesmo ponto, e permanece mais frequente do que o Bishop em movimentos de alto nível.
- Os movimentos dos peões parecem ter tendência ligeiramente para baixo com o aumento da classificação. Uma grande exceção é a categoria superior, 2800 a 2900. Isso nos leva ao próximo ponto:
- A categoria de classificação superior fornece discrepantes ou contra-tendências em várias medições. Isso pode ser explicado de várias maneiras - 1) o tamanho da amostra é razoavelmente baixo em 363, não pequeno, mas 10% do próximo tamanho menor da amostra incluído. 2) Como estão no topo dos grupos de classificação, nunca jogam oponentes "mais fortes" do que eles. 3) Ou simplesmente nesse nível, seu estilo de jogo transcendeu os níveis abaixo deles. Meu palpite seria uma combinação de 1) e 2).
- As diferenças nos movimentos de dama e de roque são muito pequenas, sem nenhuma tendência real, exceto uma pequena tendência de queda nos dois casos.
- A frequência dos movimentos dos reis tem algumas das maiores diferenças. Nenhuma tendência clara é visível e parece mudar de direção 3 ou 4 vezes.
Análise Adicional
Algumas idéias para análises futuras:
- Correções estatísticas básicas: Acho que jogos extremamente curtos e longos provavelmente devem ser excluídos. Além disso, a distribuição das contagens reais pode ser muito reveladora.
- Dividir ainda mais a análise também pode gerar resultados interessantes. Por exemplo, eu estaria interessado em saber como as frequências de preto e branco se combinam (elas são iguais ou diferentes? Por que?).
- A categorização por diferença de classificação também pode ser interessante. Os jogadores que jogam com um oponente muito mais forte (digamos, 200 classificações acima deles) jogam com diferentes frequências de movimento? Infelizmente, isso exige que o ELO de ambos os jogadores seja conhecido, o que é raro neste conjunto de dados.
- A tendência para o castelo curto versus o castelo longo também pode variar de acordo com a classificação.
- Estatísticas de promoção de peças, algumas análises estruturais leves (por exemplo, incidência de peões dobrados, passantes, pinos, garfos, mostradas por classificação) podem ser interessantes.
- Os "mapas de calor" da colocação das peças no tabuleiro real, mostrados pela classificação, também podem ser bastante interessantes.
Agregar dados no formato CSV
Para quem quiser brincar com os dados, fique à vontade.
Faixa de classificação, tamanho da amostra, duração média do jogo, movimentos médios de peões, movimentos médios de cavaleiros, movimentos médios de bispo, movimentos médios de torre, movimentos médios de rainha, movimentos médios de rainha, movimentos médios de rei e castelos médios
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857