Se você está preparado para usar ferramentas padrão de linha de comando do Linux, wc
e grep
acho que meu processador PGN gratuito, pgn-extract , fará grande parte do pré-processamento necessário para contar os jogos em cada categoria. Abaixo está um script básico que reuni como prova de conceito. Ele assume que seu arquivo de jogos é chamado inputfile.pgn
- ajuste conforme necessário ou transmita-o como um argumento da linha de comando:
#!/bin/bash
# Output stats on castling.
src=inputfile.pgn
# Pre-process the games to allow textual analysis.
pgn-extract -C -V -N --notags --nochecks --linelength 10000 -s -o stripped.pgn ${src}
# Castling by white: detect a preceding move number.
grep '\. O-O ' stripped.pgn > Wkingside.pgn
grep '\. O-O-O ' stripped.pgn > Wqueenside.pgn
# Castling by black: detect no preceding move number.
grep '[^.] O-O ' stripped.pgn > Bkingside.pgn
grep '[^.] O-O-O ' stripped.pgn > Bqueenside.pgn
# Find games in which no castling occurred.
grep -v ' O-O ' stripped.pgn | grep -v ' O-O-O ' | grep -v '^$' > nocastle.pgn
# Output the FEN of the final position to include castling rights and
# look for the presence of rights.
pgn-extract -C -V -N --notags --nomovenumbers --linelength 10000 -s nocastle.pgn --dropply -1 -F | grep ' [wb] [KkQq]' > rights.txt
# Output the results - assumes valid Result tags in the source.
echo 'Number of games: ' `grep '^\[Result ' ${src} | wc -l`
echo 'W Kingside: ' `cat Wkingside.pgn | wc -l`
echo 'W Queenside: ' `cat Wqueenside.pgn | wc -l`
echo 'B Kingside: ' `cat Bkingside.pgn | wc -l`
echo 'B Queenside: ' `cat Bqueenside.pgn | wc -l`
echo 'Neither: ' `cat nocastle.pgn | wc -l`
echo 'Rights retained: ' `cat rights.txt | wc -l`
Tentei o script no banco de dados KingBase (abr 2019) e, após remover jogos e duplicatas quebrados, obtive as seguintes estatísticas:
Number of games: 2072354
W Kingside: 1633762
W Queenside: 246158
B Kingside: 1670870
B Queenside: 128124
Neither: 69776
Rights retained: 24280
O número 'nenhum' é de cerca de 3,4%, enquanto o número de 'direitos retidos' é de cerca de 1,2%. Se jogos com 20 ou menos dobras forem removidos, o número 'nenhum' será reduzido para cerca de 2,9% e o número de 'direitos retidos' para cerca de 0,7%.