A abordagem típica é executar várias execuções do algoritmo evolutivo (EA) e plotar o desempenho médio ao longo do tempo (desempenho médio da média da população NÃO com melhor desempenho individual ).
Uma boa regra geral é realizar no mínimo 30 execuções (é claro que 50 a 100 execuções são melhores).
A média é melhor do que o melhor valor alcançado em um conjunto de execuções, mas a variação também deve ser levada em consideração.
Existem alguns bons exemplos no site de Randy Olson :
A adequação média de ambos os algoritmos ao longo de várias réplicas. A partir deste gráfico, concluiríamos que nosso algoritmo tem desempenho melhor que o melhor algoritmo atual em média.
A aptidão média com um intervalo de confiança de 95% para cada algoritmo. Este gráfico mostra que nosso algoritmo não tem um desempenho melhor do que o atual e apenas parecia ter um desempenho melhor em média devido ao acaso.
A análise básica de como calcular um intervalo de confiança para uma média da população é a seguinte:
Identifique a média da amostra x¯. Enquantox¯ é diferente de μ, média da população, eles ainda são calculados da mesma maneira:
x¯= ∑xEun
Identifique o desvio padrão da amostra (corrigido) s:
s =∑ni = 1(xEu-x¯)2n - 1------------√
sé uma estimativa do desvio padrão da populaçãoσ.
Calcular o valor crítico ,t∗, da distribuição Student-t. Esse valor depende do nível de confiança,C, e o número de observações, n.
O valor crítico é encontrado na tabela de distribuição t (a maioria dos livros de estatística o lista). Nesta tabelat∗ está escrito como
t∗( α , r )
Onde r = n - 1são os graus de liberdade (encontrados subtraindo um do número de observações) eα =1 - C2é o nível de significância .
Uma maneira melhor de uma crítica totalmente precisa t∗value é a função estatística implementada em planilhas (por exemplo, T.INV.2T
função ), ambientes de computação científica (por exemplo, SciPy stats.t.ppf
), bibliotecas de idiomas (por exemplo, C ++ e boost::math::students_t
).
Conecte os valores encontrados nas equações apropriadas:
(x¯-t∗sn--√,x¯+t∗sn--√)
O passo final é interpretar a resposta . Como a resposta encontrada é um intervalo com um limite superior e inferior, é apropriado afirmar que, com base nos dados fornecidos, a média real da população está entre o limite inferior e o limite superior com o nível de confiança escolhido.
Quanto mais os intervalos de confiança de dois algoritmos se sobrepuserem, maior a probabilidade de os algoritmos executarem o mesmo (ou não fizemos amostragem suficiente para discriminar entre os dois). Se os intervalos de confiança de 95% não se sobrepuserem, o algoritmo com o desempenho médio mais alto terá um desempenho significativamente melhor.
Na EA, a distribuição de origem nunca é normalmente normal e o que foi dito até agora formalmente se aplica apenas se for uma distribuição normal!
Na verdade, ainda diz muitas coisas. A tabela a seguir resume o desempenho dos intervalos t em quatro situações:
Normal curve | Not Normal curve
Small sample size (n < 30) Good | Poor
Larger sample size (n ≥ 30) Good | Fair
Para obter respostas mais precisas, estatísticas não paramétricas são o caminho a seguir (consulte Introdução à Estatística para Análise Experimental da CE por Mark Wineberg e Steffen Christensen para obter mais detalhes).