Eu tenho algumas centenas de arquivos de código-fonte html. Eu preciso extrair o conteúdo de um <div>elemento específico de cada um desses arquivos, então eu vou escrever um script para percorrer cada arquivo. A estrutura do elemento é assim:
<div id='the_div_id'>
<div id='some_other_div'>
<h3>Some content</h3>
</div>
</div>
Alguém pode sugerir um método pelo qual eu possa extrair a div the_div_ide todos os elementos filho e conteúdo de um arquivo usando a linha de comando do linux?
hxselecté mais exigente quanto ao formato de entrada do quepup. Por exemplo, eu estou ficandoInput is not well-formed. (Maybe try normalize?)comhxselectondepupapenas analisá-lo.