Salvando páginas da Web no Firefox como arquivos de texto ou RTF que preservam a formatação e o posicionamento básicos


0

É possível, no Firefox, salvar páginas que contenham texto, mantendo a formatação e o posicionamento básicos , mas sem salvar nenhum código executável (JavaScript)?

Não precisa ser perfeito, apenas uma aproximação aproximada.

Eu preciso que o texto seja pesquisável, portanto, tirar uma captura de tela não será suficiente.

As respostas que se aplicam ao Windows são preferidas.

O que eu tentei:

  1. Copie e cole no bloco de notas.
    Resultado: perdeu toda a formatação e posicionamento do texto (conforme o esperado).
  2. Copie e cole no OpenOffice, LibreOffice e Wordpad.
    Resultado: não manteve posicionamento de texto suficiente. Especificamente, o texto justificado à esquerda e à direita tornou-se justificado à esquerda.
  3. Salve como arquivo de texto no Firefox.
    Resultado: Igual ao nº 1.
  4. Salve como arquivo somente HTML no Firefox.
    Resultado: o mesmo que o nº 2.
  5. Salve como arquivo completo em HTML no Firefox.
    Resultado: por qualquer motivo, o Firefox relata uma falha em muitas páginas, provavelmente devido à forma como as páginas são veiculadas via HTTPS.

Minha solução atual é uma PITA. Eu faço o download do HTML da página e de qualquer CSS. Em seguida, edito manualmente cada arquivo HTML para apontar para a cópia local dos arquivos CSS. Por fim, removo todas as referências JavaScript. Isso leva bastante tempo e esforço e resulta em uma dependência de arquivos CSS, em vez de um único texto limpo ou arquivo RTF.

Eu considerei a extensão Mozilla Archive Format , mas acho que ela sempre salva todo o JavaScript no arquivo. Prefiro um arquivo de texto simples ou RTF (rich text) sem dependências e definitivamente sem JavaScript.


Acredito que o processo usual é fazer trabalho manual. Desculpa. Meu palpite é que você não verá uma resposta muito satisfatória. No entanto, como você remove todas as referências JavaScript? Isso deve ser bastante automatizado. Por exemplo, substitua <SCRIPT por <SCRdisabled (e / SCRIPT) ... que tornaria o HTML tecnicamente inválido, mas provavelmente renderizaria perfeitamente / aceitável.
TOOGAM

@TOOGAM Sim, eu fazer edições como aquele ou apenas editar todos <SCRIPT>e </SCRIPT>tags. Como não gosto de manter todos os arquivos CSS por perto, às vezes copio e colo os estilos CSS importantes no HTML para aplicá-los diretamente. É bastante demorado. Cortar e colar em um processador de texto chega tão perto, mas perder a justificativa esquerda e direita causa a perda de posicionamento importante, especialmente para transcrições de texto.
RockPaperLizard

Você tem que usar o Firefox? Você pode usar outro raspador da Web, como o cURL?
TOOGAM

@TOOGAM Boa pergunta. Eu prefiro o Firefox, mas ele não precisa ser usado. Só para esclarecer, só tenho essa necessidade de páginas da Web ocasionais (normalmente de 1 a 5 por dia) e só preciso do texto na única página (não preciso raspar um site inteiro nem nada). As páginas são normalmente exibidas via HTTPS. Normalmente, estou em uma caixa do Windows quando preciso fazer isso.
RockPaperLizard
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.