Quando devemos considerar um conjunto de dados como desequilibrado?

10

Estou enfrentando uma situação em que os números de exemplos positivos e negativos em um conjunto de dados são desequilibrados.

Minha pergunta é: existem regras práticas que nos dizem quando devemos subamostrar a categoria grande para forçar algum tipo de equilíbrio no conjunto de dados.

Exemplos:

Se o número de exemplos positivos for 1.000 e o número de exemplos negativos for 10.000, devo treinar meu classificador no conjunto de dados completo ou subamostrar os exemplos negativos?
A mesma pergunta para 1.000 exemplos positivos e 100.000 negativos.
A mesma pergunta para 10.000 positivos e 1.000 negativos.
etc ...

— Rami
fonte

Não há nada de errado com os conjuntos de dados que não se dividem perfeitamente no meio em si. Que técnica de modelagem você está usando? Se a técnica se basear em dados "equilibrados", você pode estar usando a técnica errada.

— D3C34C34D

11

Nina Zumel examina os efeitos do balanceamento em diferentes estimadores aqui , isso pode ajudar outros também. Ela analisa floresta aleatória, SVM e uma estimativa de logit.

— CFM

9

Eu acho que a subamostragem (downsampling) é um método popular para controlar o desequilíbrio de classe no nível básico, o que significa que ele corrige a raiz do problema. Portanto, para todos os seus exemplos, selecionar 1.000 aleatoriamente a maioria da turma a cada vez funcionaria. Você pode até brincar com a criação de 10 modelos (10 dobras de 1.000 por maioria versus a minoria com 1.000) para usar todo o seu conjunto de dados. Você pode usar esse método, mas, novamente, você está jogando fora 9.000 amostras, a menos que tente alguns métodos de conjunto. Correção fácil, mas difícil de obter um modelo ideal com base em seus dados.

O grau em que você precisa controlar o desequilíbrio de classe baseia-se amplamente em seu objetivo. Se você se preocupa com a classificação pura, o desequilíbrio afetaria a probabilidade de 50% de corte para a maioria das técnicas, então eu consideraria a redução da amostragem. Se você se importa apenas com a ordem das classificações (deseja positivos geralmente mais altos que negativos) e usa uma medida como AUC, o desequilíbrio de classe apenas influencia suas probabilidades, mas a ordem relativa deve ser decentemente estável para a maioria das técnicas.

A regressão logística é boa para o desequilíbrio de classe, porque enquanto você tiver> 500 da classe minoritária, as estimativas dos parâmetros serão precisas o suficiente e o único impacto será na interceptação, que pode ser corrigida se for algo que você possa quer. A regressão logística modela as probabilidades em vez de apenas classes, para que você possa fazer mais ajustes manuais para atender às suas necessidades.

Muitas técnicas de classificação também têm um argumento de peso de classe que o ajudará a se concentrar mais na classe minoritária. Isso penalizará a classificação de falta de uma classe minoritária verdadeira, de modo que sua acurácia geral sofrerá um pouco, mas você começará a ver mais classes minoritárias classificadas corretamente.

— TBSRounder
fonte

Você poderia expandir sua orientação sobre "enquanto você tiver mais de 500 da classe minoritária"? Onde você conseguiu esse número de 500? É baseado na sua experiência? Eu estava esperando uma porcentagem da sua resposta.

— Jas

2

O desequilíbrio não é definido formalmente, mas uma proporção de 1 a 10 é geralmente desequilibrada o suficiente para se beneficiar do uso da técnica de balanceamento.

Existem dois tipos de desequilíbrio, relativo e absoluto. No relativo, as razões entre as classes maioritária e minoritária são desequilibradas. Em absoluto, você também tem um pequeno número de amostras minoritárias. Quanto maior a taxa de desequilíbrio, maior a probabilidade de você também atingir um desequilíbrio absoluto.

Observe que a subamostragem direta não é uma maneira ideal de lidar com o conjunto de dados desequilibrado. Isso ocorre porque você deve criar um classificador que funcione bem no seu conjunto de dados original. Para uma técnica para construir classificadores em conjuntos de dados desequilibrados, veja aqui . Para avaliar seu classificador, clique aqui .

— DaL
fonte

2

Problema de desequilíbrio de dados? Em teoria, é apenas sobre números. Mesmo que a diferença seja 1 amostra, é um desequilíbrio de dados

Na prática, dizer que este é um problema de desequilíbrio de dados é controlado por três coisas: 1. O número e a distribuição de amostras que você possui 2. A variação dentro da mesma classe 3. As semelhanças entre as diferentes classes

Os dois últimos pontos mudam a forma como consideramos o nosso problema.

Para explicar isso, deixe-me dar um exemplo: Classe A = 100 amostras Classe B = 10 000

Se a variação na classe B for muito baixa, a amostragem será suficiente, não haverá problema de desequilíbrio de dados

Se a variação for muito alta na classe b, a amostragem para baixo pode levar à perda de informações E é perigoso aplicar a amostragem para baixo

Outro ponto, ter muitas amostras (principalmente para a classe minoritária) aliviará o problema de desequilíbrio de dados e facilitará o tratamento de

Por exemplo, 10: 100. vs. 1000: 10 000

— Bashar Haddad
fonte