Não sei uma resposta padrão para isso, mas pensei nisso algumas vezes atrás e tenho algumas idéias para compartilhar.
Quando você tem uma matriz de confusão, tem mais ou menos uma imagem de como o modelo de classificação confunde (classifica incorretamente) as classes. Ao repetir os testes de classificação, você terá várias matrizes de confusão. A questão é como obter uma matriz de confusão agregada significativa. A resposta depende de qual é o significado de significativo (trocadilho intencional). Eu acho que não existe uma única versão significativa.
Uma maneira é seguir a idéia aproximada de vários testes. Em geral, você testa algo várias vezes para obter resultados mais precisos. Como princípio geral, pode-se argumentar que a média dos resultados dos testes múltiplos reduz a variação das estimativas e, consequentemente, aumenta a precisão das estimativas. É possível prosseguir dessa maneira, é claro, somando posição por posição e depois dividindo pelo número de testes. Você pode ir além e, em vez de estimar apenas um valor para cada célula da matriz de confusão, também pode calcular alguns intervalos de confiança, valores t e assim por diante. Tudo bem do meu ponto de vista. Mas conta apenas um lado da história.
O outro lado da história que pode ser investigado é a estabilidade dos resultados para as mesmas instâncias. Para exemplificar que vou dar um exemplo extremo. Suponha que você tenha um modelo de classificação para 3 classes. Suponha que essas classes estejam na mesma proporção. Se o seu modelo for capaz de prever uma classe perfeitamente e as outras 2 com desempenho aleatório, você terá 0,33 + 0,166 + 0,166 = 0,66 de taxa de classificação incorreta. Isso pode parecer bom, mas mesmo se você der uma olhada em uma única matriz de confusão, não saberá que seu desempenho nas duas últimas aulas varia muito. Vários testes podem ajudar. Mas calcular a média das matrizes de confusão revelaria isso? Minha crença não é. A média fornecerá o mesmo resultado mais ou menos, e a realização de vários testes diminuirá apenas a variação da estimativa.
Portanto, outra maneira de compor as matrizes de confusão envolveria melhor uma densidade de previsão para cada instância. Pode-se construir essa densidade contando para cada instância o número de vezes que foi prevista uma determinada classe. Após a normalização, você terá para cada instância uma densidade de previsão e não um único rótulo de previsão. Você pode ver que um único rótulo de previsão é semelhante a uma densidade degenerada, onde você tem probabilidade de 1 para a classe prevista e 0 para as outras classes para cada instância separada. Agora, com essas densidades, é possível construir uma matriz de confusão adicionando as probabilidades de cada instância e classe prevista à célula correspondente da matriz de confusão agregada.
Pode-se argumentar que isso daria resultados semelhantes ao método anterior. No entanto, acho que esse pode ser o caso algumas vezes, geralmente quando o modelo apresenta baixa variação, o segundo método é menos afetado pela maneira como as amostras dos testes são coletadas e, portanto, mais estável e mais próximo da realidade.
Além disso, o segundo método pode ser alterado para obter um terceiro método, onde é possível atribuir como previsão o rótulo com maior densidade a partir da previsão de uma determinada instância.
Eu não implementei essas coisas, mas pretendo estudar mais porque acredito que vale a pena gastar algum tempo.