Digamos que eu tenha várias linhas para um problema de classificação:
Onde são os recursos / preditores e é a classe à qual a combinação de recursos da linha pertence.
Muitas combinações de recursos e suas classes são repetidas no conjunto de dados, que estou usando para ajustar um classificador. Eu só estou querendo saber se é aceitável remover duplicatas (eu basicamente executo um group by X1 ... XN Y
em SQL)? Obrigado.
PS:
Isto é para um conjunto de dados de presença binária apenas onde os anteriores da classe são bastante distorcidos