Qual é a melhor maneira de categorizar as abordagens desenvolvidas para lidar com o problema de classe de desequilíbrio?
Este artigo os categoriza em:
- Pré-processamento: inclui métodos de superamostragem, subamostragem e híbrido,
- Aprendizagem sensível ao custo: inclui métodos diretos e meta-aprendizagem, que este último divide em limiar e amostragem,
- Técnicas de conjunto: inclui conjuntos sensíveis ao custo e pré-processamento de dados em conjunto com o aprendizado do conjunto.
A segunda classificação:
- Pré-processamento de dados: inclui alterações na distribuição e ponderação do espaço de dados. A aprendizagem em uma classe é considerada como mudança de distribuição.
- Métodos de aprendizagem para fins especiais
- Pós-processamento de previsão: inclui método de limite e pós-processamento sensível a custos
- Métodos híbridos:
O terceiro artigo :
- Métodos em nível de dados
- Métodos em nível de algoritmo
- Métodos híbridos
A última classificação também considera o ajuste do produto como uma abordagem independente.
Desde já, obrigado.
4
A resposta muito curta: todos são os melhores e todos são os piores! Classificação e mineração de dados em geral são muito sensíveis ao contexto. Não existe um tamanho único para todas as soluções neste domínio. A propósito, a melhor abordagem, em termos muito genéricos, geralmente é uma combinação das melhores decisões em diferentes níveis, da extração do recurso ao esquema de avaliação.
—
Mok12
@mok Obrigado. Você poderia informar o peso da classe nos classificadores do sklearn, por exemplo, a regressão logística é classificada em qual categoria?
—
ebrahimi
@ebrahimi, deve cair no nível do algoritmo, porque apenas os pesos são ajustados de acordo com um dicionário aprovado ou calculados (inferidos) de acordo com os valores de y (classe) e os dados permanecem intocados.
—
Sanjay Krishna
@SanjayKrishna Muito obrigado. No caso da primeira categorização, ela cai no aprendizado sensível aos custos, não é? Além disso, no caso da segunda taxonomia, ela seria classificada na terceira categoria, ou seja, pós-processamento sensível ao custo. é verdade? A segunda resposta para isso: stackoverflow.com/questions/32492550/… também é útil.
—
ebrahimi