clone de wget não é exato


1

Eu estou tentando obter uma réplica exata de uma página. Eu uso:

wget -E -H -k -K -p http://example.com

Tudo funciona bem, exceto:

  1. Se no meu estilo houver uma importação de outro arquivo CSS, ele não será baixado.
  2. Se o JavaScript colocar as imagens em qualquer lugar, elas não serão baixadas (coloque uma classe em uma tag de âncora e, em seguida, no meu arquivo script.js, coloque a imagem no jQuery.

Alguma idéia de como conseguir um desses para trabalhar?


Veja Aqui . O Wget não pode interpretar JavaScript ou CSS. Você precisa de um navegador compatível com JavaScript. Se for um site único, você pode tentar extrair links com regexp.
Banthar

@banthar ... Eu gostaria de baixar os arquivos que estão no javascript ou no css. Você tem algum lugar que você possa me enviar para referência sobre como descobrir essa expressão regular?

Respostas:


0

Eu uso pavuk para espelhamento e funciona muito bem - o espelho resultante é visível no navegador e também analisa parcialmente o javascript (mas é claro que não completamente):

/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' -norobots -dont_limit_inlines -dont_leave_site http://www.example.com/ >OUT 2>ERR &

Você também pode usar o -skip_url_rpattern para evitar que alguns scripts dinâmicos inúteis sejam espelhados, por exemplo:

-skip_url_rpattern 'index.php\?Addcomm=' -skip_url_rpattern 'index.php\?cal=1'
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.