Finja que queria que uma cópia simples da página fosse baixada para o meu HD para manutenção permanente. Não estou procurando uma obtenção recursiva profunda, apenas uma única página, mas também quaisquer recursos carregados por essa página para serem baixados.
Exemplo: https://www.tumblr.com/
Espero:
- O index.html
- Qualquer imagem carregada
- Qualquer arquivo JS carregado
- Qualquer arquivo CSS carregado
- Quaisquer imagens carregadas no arquivo CSS
- links para os recursos da página localizados para trabalhar com as cópias baixadas (sem dependência da web)
Estou interessado em saber se você pode me ajudar a encontrar a melhor sintaxe wget ou outra ferramenta que faça isso. As ferramentas que eu tentei geralmente falham ao obter as imagens carregadas por CSS; portanto, a página nunca parece correta quando carregada localmente. Obrigado!
Solução Tangente
Eu encontrei uma maneira de fazer isso usando o FireFox. O salvamento padrão está interrompido e há um complemento chamado "Salvar Concluído", que aparentemente pode fazer um bom trabalho com isso. No entanto, você não pode baixá-lo porque diz que não é suportado na versão atual do FireFox. O motivo é que ele foi transferido para este complemento: "Mozilla Archive Format". Instale isso e, quando você usar Arquivo> "Salvar página como ..", haverá uma nova opção chamada "Página da Web concluída", que é essencialmente o complemento antigo, que corrige a implementação de estoque que o FireFox usa (o que é terrível). Esta não é uma solução WGET, mas fornece uma solução viável.
Edição: Outro problema ridículo para quem pode estar seguindo esta pergunta no futuro, tentando fazer isso. Faça com que o complemento funcione corretamente, você precisa de Ferramentas> Formato de arquivo Mozilla e altere a configuração padrão (terrível) de "tire uma foto fiel da página" para "preservar scripts e código-fonte usando Salvar concluído", caso contrário, o complemento esvaziará tudo seus arquivos de script e substitua-os pelo texto "/ * Script removido por snapshot save * /".