Categorização de abordagens para lidar com classes desequilibradas

Qual é a melhor maneira de categorizar as abordagens desenvolvidas para lidar com o problema de classe de desequilíbrio?

Este artigo os categoriza em:

Pré-processamento: inclui métodos de superamostragem, subamostragem e híbrido,
Aprendizagem sensível ao custo: inclui métodos diretos e meta-aprendizagem, que este último divide em limiar e amostragem,
Técnicas de conjunto: inclui conjuntos sensíveis ao custo e pré-processamento de dados em conjunto com o aprendizado do conjunto.

A segunda classificação:

Pré-processamento de dados: inclui alterações na distribuição e ponderação do espaço de dados. A aprendizagem em uma classe é considerada como mudança de distribuição.
Métodos de aprendizagem para fins especiais
Pós-processamento de previsão: inclui método de limite e pós-processamento sensível a custos
Métodos híbridos:

O terceiro artigo :

Métodos em nível de dados
Métodos em nível de algoritmo
Métodos híbridos

A última classificação também considera o ajuste do produto como uma abordagem independente.

Desde já, obrigado.

machine-learning classification class-imbalance

— ebrahimi
fonte

A resposta muito curta: todos são os melhores e todos são os piores! Classificação e mineração de dados em geral são muito sensíveis ao contexto. Não existe um tamanho único para todas as soluções neste domínio. A propósito, a melhor abordagem, em termos muito genéricos, geralmente é uma combinação das melhores decisões em diferentes níveis, da extração do recurso ao esquema de avaliação.

— Mok12

@mok Obrigado. Você poderia informar o peso da classe nos classificadores do sklearn, por exemplo, a regressão logística é classificada em qual categoria?

— ebrahimi

@ebrahimi, deve cair no nível do algoritmo, porque apenas os pesos são ajustados de acordo com um dicionário aprovado ou calculados (inferidos) de acordo com os valores de y (classe) e os dados permanecem intocados.

— Sanjay Krishna

@SanjayKrishna Muito obrigado. No caso da primeira categorização, ela cai no aprendizado sensível aos custos, não é? Além disso, no caso da segunda taxonomia, ela seria classificada na terceira categoria, ou seja, pós-processamento sensível ao custo. é verdade? A segunda resposta para isso: stackoverflow.com/questions/32492550/… também é útil.

— ebrahimi

A maneira como vejo todas as três categorizações concorda em muitas coisas. Por exemplo, todos os três têm uma categoria para etapas de pré-processamento.

Eu tenderia a concordar principalmente com a terceira categorização como mais genérica e abrange mais coisas.

A categoria no nível de dados inclui todas as etapas de pré-processamento que lidam com o desequilíbrio de classe (por exemplo, sobre / sub-amostragem).
O nível do algoritmo pode ser considerado como incluindo as segundas categorias dos dois primeiros artigos. Qualquer alteração no algoritmo que lida com o desequilíbrio de classe seria feita aqui (por exemplo, ponderação de classe).
Finalmente, uma categoria híbrida para combinar os dois.

A única coisa que falta nos dois primeiros artigos são as etapas de pós-processamento, que para ser honesto, não são usadas na prática com a mesma frequência.

— Sou eu Mario
fonte