Essencialmente, quero rastrear um site inteiro com o Wget, mas preciso que NUNCA baixe outros ativos (por exemplo, imagens, CSS, JS, etc.). Eu só quero os arquivos HTML.
As pesquisas no Google são completamente inúteis.
Aqui está um comando que eu tentei:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Nosso site é híbrido com PHP e CMS. Assim, HTML "arquivos" poderia ser /path/to/page
, /path/to/page/
, /path/to/page.php
, ou /path/to/page.html
.
Inclusive incluí, -R js,css
mas ele ainda baixa os arquivos, ENTÃO os rejeita (desperdício inútil de largura de banda, CPU e carga do servidor!).
Length: 558 [text/css]
nos arquivos que não quero. Se eu pudesse interromper a solicitação se o cabeçalho não retornar text/html
, eu ficaria feliz.