Eu tenho minhas referências como um arquivo de texto com uma longa lista de entradas e cada uma possui dois (ou mais) campos.
A primeira coluna é o URL da referência; a segunda coluna é o título que pode variar um pouco, dependendo de como a entrada foi feita. O mesmo para o terceiro campo que pode ou não estar presente.
Quero identificar, mas não remover, entradas que tenham o primeiro campo (URL de referência) idêntico. Eu sei, sort -k1,1 -u
mas isso removerá automaticamente (sem interatividade) todos, exceto o primeiro hit. Existe uma maneira de me informar para que eu possa escolher qual manter?
No extrato abaixo de três linhas que possuem o mesmo primeiro campo ( http://unix.stackexchange.com/questions/49569/
), eu gostaria de manter a linha 2 porque ela possui tags adicionais (classificar, CLI) e excluir as linhas 1 e 3:
http://unix.stackexchange.com/questions/49569/ unique-lines-based-on-the-first-field
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field sort, CLI
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field
Existe um programa para ajudar a identificar essas "duplicatas"? Então, eu posso limpar manualmente excluindo pessoalmente as linhas 1 e 3?