Você pode usar uma expressão regular para remover palavras duplicadas consecutivas em uma linha, no entanto, não acho possível remover palavras duplicadas que não são consecutivas (por exemplo dangerous, hazardous, dangerous
).
Use este regex na janela de substituição no Notepad ++ e não se esqueça de selecionar "Expressão regular" como a opção Modo de pesquisa abaixo:
Este regex irá remover todas as palavras duplicadas consecutivas - se é 2 palavras duplicadas ou 10 palavras duplicadas consecutivamente: \b(\w+)(?:,\s+\1\b)+
.
O mesmo regex sem vírgulas seria: \b(\w+)(?:\s+\1\b)+
(pode ser útil para outros usuários).
Se você quer um regex especificamente para apenas duas palavras duplicadas (duplos), use esse regex: (\b\w+\b)\W+\1
.
Coloque este regex na substituir com caixa para manter uma ocorrência da palavra (caso contrário, todas as palavras repetidas serão removidos): ${1}
.
Essas expressões regulares resolverão uma situação como a descrita na sua pergunta como exemplo. O primeiro regex funcionará para todo número de palavras duplicadas (por exemplo dangerous, dangerous, dangerous, dangerous, hazardous
), enquanto a segunda versão funcionará apenas para duas palavras duplicadas (por exemplo dangerous, dangerous, hazardous
).
Nota: A expressão regular só se aplica ao formato descrito na pergunta, significado que formata como two words, two words, anotherword
, two-words, two-words, anotherword
, three words expression, three words expression, anotherword
não será alterado porque a regex não se aplica a eles.
dangerous,hazardous,dangerous,perilous
? Em outras palavras, as palavras duplicadas estão sempre próximas uma da outra?