Eu quero recuperar o que estiver entre essas duas tags - <tr> </tr>
- de um documento html. Agora não tenho requisitos específicos de html que justifiquem um analisador de html. Eu simplesmente precisa de algo que partidas <tr>
e </tr>
e fica tudo entre eles e poderia haver vários tr
s. Tentei o awk, o que funciona, mas, por algum motivo, acaba me fornecendo duplicatas de cada linha extraída.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Como fazer isso?
awk
está funcionando, mas dando duplicatas tentar passar a saída do seu awk de sort -u
levá-los distinta
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
. Poste algum exemplo de entrada e saída esperada se não funcionar.