Respostas:
Se você estiver testando o desempenho de um modelo (ou seja, não otimizando parâmetros), geralmente você somará as matrizes de confusão. Pense assim: você dividiu seus dados em 10 dobras diferentes ou conjuntos de 'teste'. Você treina seu modelo em 9/10 das dobras e testa a primeira dobra e obtém uma matriz de confusão. Essa matriz de confusão representa a classificação de 1/10 dos dados. Você repete a análise novamente com o próximo conjunto de 'testes' e obtém outra matriz de confusão representando outros 1/10 dos dados. Adicionar essa nova matriz de confusão à primeira agora representa 20% dos seus dados. Você continua até executar todas as suas dobras, soma todas as suas matrizes de confusão e a matriz de confusão final representa o desempenho desse modelo para todos os dados. Você pode calcular a média das matrizes de confusão, mas isso realmente não fornece nenhuma informação adicional da matriz cumulativa e pode ser tendencioso se suas dobras não tiverem o mesmo tamanho.
Nota - isso pressupõe amostragem não repetida dos seus dados. Não estou completamente certo se isso seria diferente para amostragens repetidas. Será atualizado se eu aprender alguma coisa ou alguém recomendar um método.