Eu estou procurando uma maneira de converter uma pasta cheia de arquivos HTML para texto simples. O que eu quero é que os arquivos de texto sejam o máximo possível, como o que eu teria se eu tivesse selecionado todo o texto em um navegador da Web, copiado e colado o texto em um arquivo de texto simples.
NÃO, REALMENTE, QUERO TEXTO SIMPLES NÃO-FORMATO. Todas as soluções que estou encontrando produzem Markdown ou algo parecido, ou tentam preservar o layout, ou usam asteriscos e sublinhados para indicar a formatação do texto, ou preservam o conteúdo dos scripts no arquivo de saída, ou alguma coisa inteligente .
Tudo o que quero são as palavras escritas pelo autor na ordem em que o autor as escreveu. Eu nem me importo se o processamento converte todos os itens da lista em uma lista em um único parágrafo, ou até mesmo reduz o documento inteiro em um único parágrafo. Tudo isso é muito melhor do que dar-me qualquer coisa diferente da linguagem real contida no documento.
Eu adoraria um aplicativo de terminal ou script Python, mas vou pegar qualquer coisa que eu possa conseguir.
<
e>
. Eu não seised
, mas tenho certeza que poderia fazer isso.