Antes de mais, gostaria de descrever alguns layouts comuns que os livros de Data Mining usam para explicar como lidar com conjuntos de dados não balanceados . Normalmente, a seção principal é denominada Conjuntos de dados não balanceados e abrange estas duas subseções: Classificação sensível ao custo e técnicas de amostragem.
Parece que, enfrentando um problema com uma classe rara, é possível executar tanto a classificação quanto a amostragem sensíveis ao custo. Em vez disso, acho que se deve aplicar técnicas sensíveis ao custo se a classe rara também for o alvo da classificação e uma classificação incorreta de um registro dessa classe for cara.
Por outro lado, técnicas de amostragem, como sobre e subamostragem, são úteis se o objetivo da classificação for uma boa precisão geral, sem focar em uma classe específica.
Essa crença vem do raciocínio do MetaCost, que é uma maneira geral de tornar um classificador sensível aos custos: se alguém quiser tornar um classificador sensível aos custos, a fim de penalizar um erro de classificação incorreta da rara classe, ele deve sobrepor a outra classe. . Grosso modo, o classificador tenta se adaptar à outra classe e se torna específico para a classe rara.
É o oposto de fazer uma amostragem excessiva da classe rara, que é a maneira geralmente sugerida para lidar com esse problema. A sobre-amostragem da classe rara ou a sub-amostragem da outra classe é útil para melhorar a precisão geral.
Por favor, seria ótimo se você confirmasse meus pensamentos.
Dito isso, a pergunta comum que um conjunto de dados desequilibrado é:
Devo tentar obter um conjunto de dados que conte tantos registros raros quanto os outros?
Minha resposta seria, caso você esteja procurando por precisão: OK. Você pode executá-lo descobrindo exemplos de classe mais raros ou excluindo alguns registros da outra classe.
Caso você esteja se concentrando na classe rara, com uma técnica sensível aos custos, eu responderia: você só pode descobrir exemplos de classe mais raros, mas não deve excluir registros da outra classe. No último caso, você não poderá permitir que o classificador se adapte à outra classe e o raro erro de classificação incorreta da classe poderá aumentar.
O que você responderia?