A classificação GBM sofre com tamanhos de classe desequilibrados?


16

Estou lidando com um problema de classificação binária supervisionada. Eu gostaria de usar o pacote GBM para classificar os indivíduos como não infectados / infectados. Eu tenho 15 vezes mais não infectado do que indivíduos infectados.

Eu queria saber se os modelos GBM sofrem no caso de tamanhos de classe desequilibrados? Não encontrei nenhuma referência respondendo a essa pergunta.

Tentei ajustar os pesos atribuindo um peso de 1 aos indivíduos não infectados e um peso de 15 aos infectados, mas obtive resultados ruins.


1
(nota lateral) Seria útil se você fornecesse o que GBM significa e um link para o pacote.
Memming

1
Que função de perda você está usando para o seu modelo de aumento de gradiente? Quando se trata de classes desequilibradas, vi desempenho ruim quando utilizei erro absoluto médio, porque parece favorecer a classe mais comum. Quando eu usei erro quadrado médio o desempenho melhorou substancialmente
Ryan Zotti

Apenas para referência futura, acho que a função de perda padrão usada pela perda logarítmica de cursor (desvio cruzado) também é bastante útil. (Que penalizam fortemente sobre os casos erradas em uma escala logarítmica negativa)
Lily Longo

Respostas:


4

Na minha experiência, o GBM sofre de fato com tamanhos de classe desequilibrados. Tive um bom sucesso usando a amostragem SMOTE, que cria dados sintéticos enquanto superamostra a classe minoritária. Você pode encontrá-lo no DMwRpacote.


Estou um pouco confuso. O GBM não deveria ser uma abordagem para lidar com o desequilíbrio de dados? Confira isso analyticsvidhya.com/blog/2017/03/…
Lamothy

5

Penso que os seus dados são semelhantes aos da Secom, nos quais trabalhei no passado e enfrentei muitas dificuldades. A seguir, é o que eu tentei:

  • Diferentes técnicas de amostragem
  • Classificadores diferentes, como Random Forest, ANN, GBM, métodos Ensemble, etc.

Eu também tentei o SVM de 1 classe, que apresentou melhores resultados em comparação com outros como adaboost, Random Forest. Você pode tentar isso também.

E posso ver que você fez essa pergunta há um ano, por isso, se você encontrou a melhor maneira, publique-a aqui para que eu possa obter ajuda para obter melhor precisão.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.