Eu quero recuperar o que estiver entre essas duas tags - <tr> </tr>- de um documento html. Agora não tenho requisitos específicos de html que justifiquem um analisador de html. Eu simplesmente precisa de algo que partidas <tr>e </tr>e fica tudo entre eles e poderia haver vários trs. Tentei o awk, o que funciona, mas, por algum motivo, acaba me fornecendo duplicatas de cada linha extraída.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Como fazer isso?
awkestá funcionando, mas dando duplicatas tentar passar a saída do seu awk de sort -ulevá-los distinta
'/<tr/{p=1}; p; /<\/tr>/{p=0}'. Poste algum exemplo de entrada e saída esperada se não funcionar.