Digamos que eu tenha dois métodos de aprendizado para um problema de classificação , e , e que estimo o desempenho da generalização com algo como validação cruzada repetida ou inicialização. A partir deste processo, recebo uma distribuição das pontuações P_A e P_B para cada método nessas repetições (por exemplo, a distribuição dos valores da ROC AUC para cada modelo).B P B
Observando essas distribuições, pode ser que mas que (ou seja, o desempenho esperado de generalização de seja maior que , mas que haja mais incerteza sobre essa estimativa).
Eu acho que isso é chamado de dilema de viés e variância na regressão.
Quais métodos matemáticos posso usar para comparar e e, eventualmente, tomar uma decisão informada sobre qual modelo usar?
Nota: Por uma questão de simplicidade, estou me referindo a dois métodos e aqui, mas estou interessado em métodos que podem ser usados para comparar a distribuição de pontuações de ~ 1000 métodos de aprendizagem (por exemplo, de uma pesquisa em grade) e, eventualmente, fazer uma decisão final sobre qual modelo usar.