Estou tentando remover palavras de parada antes de executar a modelagem de tópicos. Notei que algumas palavras de negação (não, nem, nunca, nenhuma etc.) são geralmente consideradas palavras de parada. Por exemplo, NLTK, spacy e sklearn incluem "not" em suas listas de palavras de parada. No entanto, se removermos "não" dessas frases abaixo, elas perderão o significado significativo e isso não seria preciso para modelagem de tópicos ou análise de sentimentos.
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
Alguém pode explicar por que essas palavras de negação são geralmente consideradas palavras de parada?