Eu tenho duas implementações de um algoritmo genético que devem se comportar de forma equivalente. No entanto, devido a restrições técnicas que não podem ser resolvidas, sua saída não é exatamente a mesma, dada a mesma entrada.
Ainda assim, gostaria de mostrar que não há diferença significativa de desempenho.
Eu tenho 20 execuções com a mesma configuração para cada um dos dois algoritmos, usando sementes de números aleatórios iniciais diferentes. Para cada execução e geração do mínimo de erro de fitness do melhor indivíduo na população foi gravado. O algoritmo emprega um mecanismo de preservação de elite, de modo que a aptidão do melhor indivíduo diminui monotonicamente. Uma corrida consiste em 1000 gerações, então eu tenho 1000 valores por corrida. Não consigo obter mais dados, pois os cálculos são muito caros.
Qual teste devo empregar? Uma maneira fácil seria provavelmente comparar apenas o erro nas gerações finais (novamente, qual teste eu usaria aqui)? Mas também se pode pensar em comparar o comportamento de convergência em geral.