Estou removendo palavras de parada de um texto, usando aproximadamente este código
Eu tenho o seguinte
$ cat file
file
types
extensions
$ cat stopwords
i
file
types
grep -vwFf stopwords file
Estou esperando o resultado:
extensions
mas recebo o (acho incorreto)
file
extensions
É como se a palavra filetivesse sido ignorada no arquivo de palavras irrelevantes. Agora aqui é a parte legal: se eu modificar o arquivo de stopwords, mudando a palavra / única letra ina primeira linha, para qualquer outra letra ascii para além de f, i, l, e, em seguida, o mesmo comando grep me dá um resultado diferente e correcta extensions.
O que está acontecendo aqui e como corrigi-lo?
Estou usando o grep (BSD grep) 2.5.1-FreeBSD em um Mac OSX GNU bash, versão 4.4.12 (1)
ipadrão o segundo e não o primeiro padrão no stopwordsarquivo também altera o comportamento.
grepnem com o GNU grep3.1.
-xopção para regex de linha em vez de-wpara word? No entanto, acho que a-Fopção cancelará qualquer um deles ou vice-versa.