Eu tenho algumas centenas de arquivos de código-fonte html. Eu preciso extrair o conteúdo de um <div>
elemento específico de cada um desses arquivos, então eu vou escrever um script para percorrer cada arquivo. A estrutura do elemento é assim:
<div id='the_div_id'>
<div id='some_other_div'>
<h3>Some content</h3>
</div>
</div>
Alguém pode sugerir um método pelo qual eu possa extrair a div the_div_id
e todos os elementos filho e conteúdo de um arquivo usando a linha de comando do linux?
hxselect
é mais exigente quanto ao formato de entrada do quepup
. Por exemplo, eu estou ficandoInput is not well-formed. (Maybe try normalize?)
comhxselect
ondepup
apenas analisá-lo.