Na verdade, a PNL é uma das áreas mais comuns em que a reamostragem de dados é necessária, pois existem muitas tarefas de classificação de texto que lidam com problemas desequilibrados (pense em filtragem de spam, detecção de comentários ofensivos, classificação de artigos etc.). Mas o SMOTE parece ser problemático aqui por alguns motivos:
- O SMOTE trabalha no espaço de recursos. Isso significa que a saída do SMOTE não é um dado sintético que é um representante real de um texto dentro de seu espaço de recurso.
- Por um lado, o SMOTE trabalha com o KNN e, por outro lado, os espaços de recursos para o problema da PNL são muito grandes. O KNN falhará facilmente nessas enormes dimensões.
Para que eu possa propor duas abordagens:
- Não me importo com a representação de texto real de novas amostras sintéticas que, suponho, devem estar bem. Você precisa equilibrar a distribuição do seu classificador e não do leitor de dados de texto. Portanto, aplique o SMOTE como tradicional (no entanto, geralmente uso a solução 2 abaixo para não garantir o resultado!) Com algumas etapas de redução de dimensionalidade.
1) Vamos supor que você queira fazer duplicar suas amostras de dados da classe menor usando 3-NN. Ignore as classes principais e mantenha apenas amostras secundárias.
2) Para cada ponto de amostra no espaço de recurso, escolha 5 vizinhos mais próximos. Em seguida, escolha três deles aleatoriamente (não é desnecessário complicado? Se eu não quisesse explicar o algoritmo original, diria que basta escolher três vizinhos!)
3) Para cada dimensão, calcule a distância entre a amostra e os vizinhos e multiplique-a em um número aleatório entre 0-1 e adicione-o ao valor original da amostra nessa dimensão. (este parágrafo complicado significa simplesmente para cada dimensão escolher um valor aleatório entre a amostra original e o vizinho!)
- Mas eu costumo fazer outra amostragem excessiva que está no texto (mais intuitiva) e é meio que SMOTE.
k = 2
n números aleatórios de acordo com essa distribuição. É usado para determinar o tamanho do novo documento sintético.
mmnkk