Extrair arquivos de texto html para arquivo de texto


0

Eu tenho uma pasta com muitos arquivos html, gostaria de extrair apenas o texto contido no corpo deste html para um arquivo txt, como posso fazer isso?

Respostas:


1

Você pode iterar sobre cada arquivo no diretório e usar um navegador de linha de comando, como lynx ou w3m, para renderizar o HTML em texto sem formatação e salvá-lo em um arquivo de texto.

Exemplo do Lynx:

lynx -dump in.html > out.txt

exemplo w3m:

w3m -dump in.html > out.txt
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.