Eu tenho uma tarefa de classificação na qual tenho vários preditores (um dos quais é o mais informativo) e estou usando o modelo MARS para construir meu classificador (estou interessado em qualquer modelo simples e usar glms para fins ilustrativos seria bem também). Agora, tenho um enorme desequilíbrio de classe nos dados de treinamento (cerca de 2700 amostras negativas para cada amostra positiva). Semelhante às tarefas de Recuperação de Informações, estou mais preocupado em prever as amostras positivas de classificação mais altas. Por esse motivo, o desempenho nas curvas do Precision Recall é importante para mim.
Antes de tudo, simplesmente treinei o modelo nos meus dados de treinamento, mantendo o desequilíbrio da classe como está. Visualizo meu modelo treinado em vermelho e a entrada mais importante em azul.
Treinamento em dados desequilibrados, avaliação em dados desequilibrados :
Pensando que o desequilíbrio de classe está descartando o modelo, uma vez que aprender as amostras positivas do topo do ranking é uma parte minúscula de todo o conjunto de dados, ampliei os pontos de treinamento positivo para obter um conjunto de dados de treinamento equilibrado. Quando planto o desempenho no conjunto de treinamento equilibrado , obtenho um bom desempenho. Nas curvas PR e ROC, meu modelo treinado faz melhor do que as entradas.
Treinamento em dados balanceados (ampliados), avaliação também em dados balanceados (ampliados):
No entanto, se eu usar esse modelo treinado nos dados balanceados, para prever o conjunto de treinamento original e desequilibrado, ainda assim obterei um desempenho ruim na curva de relações públicas.
Treinamento em dados balanceados (ampliados), avaliação em dados desbalanceados originais:
Então, minhas perguntas são:
- É a razão pela qual a visualização da curva PR mostra desempenho inferior do meu modelo treinado (vermelho), enquanto a curva ROC mostra melhorias devido ao desequilíbrio de classe?
- As abordagens de reamostragem / amostragem ascendente / amostragem descendente podem resolver isso para forçar o treinamento a se concentrar na região de alta precisão / baixa recordação?
- Existe alguma outra maneira de focar o treinamento na região de alta precisão / baixa recordação?