Quando a amostragem desequilibrada é super / sub-amostrada, a precisão maximizada difere da minimização dos custos de classificação incorreta?

Antes de mais, gostaria de descrever alguns layouts comuns que os livros de Data Mining usam para explicar como lidar com conjuntos de dados não balanceados . Normalmente, a seção principal é denominada Conjuntos de dados não balanceados e abrange estas duas subseções: Classificação sensível ao custo e técnicas de amostragem.

Parece que, enfrentando um problema com uma classe rara, é possível executar tanto a classificação quanto a amostragem sensíveis ao custo. Em vez disso, acho que se deve aplicar técnicas sensíveis ao custo se a classe rara também for o alvo da classificação e uma classificação incorreta de um registro dessa classe for cara.

Por outro lado, técnicas de amostragem, como sobre e subamostragem, são úteis se o objetivo da classificação for uma boa precisão geral, sem focar em uma classe específica.

Essa crença vem do raciocínio do MetaCost, que é uma maneira geral de tornar um classificador sensível aos custos: se alguém quiser tornar um classificador sensível aos custos, a fim de penalizar um erro de classificação incorreta da rara classe, ele deve sobrepor a outra classe. . Grosso modo, o classificador tenta se adaptar à outra classe e se torna específico para a classe rara.

É o oposto de fazer uma amostragem excessiva da classe rara, que é a maneira geralmente sugerida para lidar com esse problema. A sobre-amostragem da classe rara ou a sub-amostragem da outra classe é útil para melhorar a precisão geral.

Por favor, seria ótimo se você confirmasse meus pensamentos.

Dito isso, a pergunta comum que um conjunto de dados desequilibrado é:

Devo tentar obter um conjunto de dados que conte tantos registros raros quanto os outros?

Minha resposta seria, caso você esteja procurando por precisão: OK. Você pode executá-lo descobrindo exemplos de classe mais raros ou excluindo alguns registros da outra classe.

Caso você esteja se concentrando na classe rara, com uma técnica sensível aos custos, eu responderia: você só pode descobrir exemplos de classe mais raros, mas não deve excluir registros da outra classe. No último caso, você não poderá permitir que o classificador se adapte à outra classe e o raro erro de classificação incorreta da classe poderá aumentar.

O que você responderia?

machine-learning classification unbalanced-classes

— Simone
fonte

"Encontrar" novos registros para classes raras pode ser impossível. Suponho que os dados sejam estruturados dessa maneira, porque é caro (bioinformática) ou arriscado (empréstimo bancário) criar eventos de classe mais raros.

— Steffen

Claro, mas é uma solução proposta comum. No entanto, é verdade que, se você conseguir descobrir exemplos de classe mais raros, poderá descobrir também outros exemplos. Porque o conjunto de treinamento deve ser uma amostra representativa do universo de registros. Então, parece-me que parece realizar uma super amostragem.

— Simone

É uma boa pergunta. Pessoalmente, minha resposta seria que nunca faz sentido jogar fora os dados (a menos que seja por razões computacionais), quanto mais dados você tiver, melhor será o seu modelo de mundo. Portanto, sugiro que a modificação da função de custo da maneira apropriada para sua tarefa seja suficiente. Por exemplo, se você estiver interessado em uma classe rara específica, poderá tornar as classificações incorretas dessa classe apenas mais caras; se você estiver interessado em uma medida equilibrada, algo como Taxa de Erro Balanceado (a média dos erros em cada classe) ou o Coeficiente de Correlação de Matthews é apropriado; se você estiver interessado apenas no erro de classificação geral, a perda tradicional de 0-1 .

Uma abordagem moderna para o problema é usar o Active Learning. Por exemplo, Hospedales et al (2011) "Encontrando Classes Raras: Aprendizado Ativo com Modelos Generativos e Discriminativos, Transações IEEE sobre Engenharia de Conhecimento e Dados (TKDE 2011) . No entanto, acredito que essas abordagens ainda sejam relativamente menos maduras.

— tdc
fonte

Uma medida interessante é a dos Metthews, caso seja necessário uma medida equilibrada. No entanto, como não queremos excluir nenhum registro, antes de executar qualquer amostragem ou modificação na função de custo, você reequilibraria o conjunto de dados adicionando exemplos de classe raros? Eu acho que a resposta poderia ser NÃO. Porque, desde que você descubra exemplos de classe raros, poderá descobrir outros exemplos. Assim, para obter uma medida mais equilibrada ou uma melhor medida de desempenho de classe rara (por exemplo, medida F), eu executaria uma técnica (como amostragem ou modificação do custo) somente após a fase de coleta de dados. Você concorda?

— Simone

Concordado, quaisquer operações como essa devem ser executadas após a fase de coleta de dados.

— tdc