Comparando Distribuições de Desempenho de Generalização


10

Digamos que eu tenha dois métodos de aprendizado para um problema de classificação , e , e que estimo o desempenho da generalização com algo como validação cruzada repetida ou inicialização. A partir deste processo, recebo uma distribuição das pontuações P_A e P_B para cada método nessas repetições (por exemplo, a distribuição dos valores da ROC AUC para cada modelo).BAB P BPAPB

Observando essas distribuições, pode ser que μAμB mas que σAσB (ou seja, o desempenho esperado de generalização de A seja maior que B , mas que haja mais incerteza sobre essa estimativa).

Eu acho que isso é chamado de dilema de viés e variância na regressão.

Quais métodos matemáticos posso usar para comparar PA e PB e, eventualmente, tomar uma decisão informada sobre qual modelo usar?

Nota: Por uma questão de simplicidade, estou me referindo a dois métodos A e B aqui, mas estou interessado em métodos que podem ser usados ​​para comparar a distribuição de pontuações de ~ 1000 métodos de aprendizagem (por exemplo, de uma pesquisa em grade) e, eventualmente, fazer uma decisão final sobre qual modelo usar.


Penso que o termo tradeoff de desvio-desvio não se aplica aqui, porque você não está decompondo um erro quadrático médio em desvio e desvio, e não está falando sobre a variação de um estimador, mas sobre a variação de uma pontuação.
Lucas

Obrigado @Lucas. Estou tentando estimar a pontuação dos meus classificadores e em dados invisíveis . Para isso, achei que poderia obter a média das pontuações nos dados vistos como meus estimadores (ou seja, e para e respectivamente). A variação desses estimadores é diferente da variação das pontuações e ? B E ( P A ) E ( P B ) A B P A P BABE(PA)E(PB)ABPAPB
Amelio Vazquez-Reina

2
@ user815423426 Acho que a comparação depende da função de perda que você possui. Diebold e Mariano (2002) têm um bom artigo estudando sua pergunta. Eles propuseram alguns testes estatísticos comparando o desempenho da "generalização". Não sei como configurar um link nos comentários. O artigo é: Diebold, Francis X. e Robert S. Mariano. "Comparando a precisão preditiva." Journal of Business & Economic Statistics 20.1 (2002): 134-144.
Semibruin

Respostas:


2

Se houver apenas dois métodos, A e B, eu calcularia a probabilidade de que, para uma partição arbitrária de treinamento / teste, o erro (de acordo com alguma métrica de desempenho adequada) do modelo A fosse menor que o erro do modelo B. Se essa probabilidade foram maiores que 0,5, eu escolhi o modelo A e, caso contrário, o modelo B (cf. teste U de Mann-Whitney?) No entanto, suspeito fortemente que acabará escolhendo o modelo com a média mais baixa, a menos que as distribuições da estatística de desempenho sejam muito diferentes. -simétrico.

Por outro lado, para pesquisa em grade, a situação é um pouco diferente, pois você não está realmente comparando métodos diferentes, mas ajustando os (hiper) parâmetros do mesmo modelo para ajustar uma amostra finita de dados (neste caso indiretamente via cross -validação). Descobri que esse tipo de ajuste pode ser muito propenso a ajustes excessivos, veja meu artigo

Gavin C. Cawley, Nicola LC Talbot, "Sobre adaptação na seleção de modelos e viés de seleção subsequente na avaliação de desempenho", Journal of Machine Learning Research, 11 (julho): 2079-2107, 2010. ( www )

Eu tenho um artigo em revisão que mostra que provavelmente é melhor usar uma grade relativamente grossa para máquinas de kernel (por exemplo, SVMs) para evitar o excesso de ajuste no critério de seleção de modelo. Outra abordagem (que eu não investiguei, portanto, ressalte!) Seria escolher o modelo com o erro mais alto que não seja estatisticamente inferior ao melhor modelo encontrado na pesquisa em grade (embora possa ser uma abordagem bastante pessimista, especialmente para pequenos conjuntos de dados).

A solução real, porém, provavelmente não é otimizar os parâmetros usando a pesquisa em grade, mas sim calcular a média dos valores dos parâmetros, seja em uma abordagem bayesiana ou apenas como um método de conjunto. Se você não otimizar, é mais difícil ajustar demais!


Obrigado Dikran. Quando você diz que "average over the parameter values"eu acho que entendo como fazer isso através de um método de conjunto (por exemplo, construindo a saída do conjunto como a média das saídas do classificador), mas não tenho certeza de como fazer isso com uma abordagem bayesiana ao trabalhar com um modelo discriminativo. Entendo a teoria de uma abordagem totalmente bayesiana (ou seja, evite estimativas pontuais e marginalize os parâmetros para construir o posterior final), mas, assumindo que o meu anterior sobre os parâmetros seja uniforme, isso não seria equivalente à construção do conjunto de médias ?
Amelio Vazquez-Reina

11
Na abordagem bayesiana, os modelos seriam ponderados por sua probabilidade marginal (ou seja, evidência bayesiana) e por qualquer anterior colocado sobre os hiperparâmetros, portanto, seria um caso especial de calcular a média de um conjunto com um método específico para ponderar os modelos.
Dikran Marsupial
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.