Gostaria de rastrear links em www.website.com/XYZ e fazer o download apenas dos links em www.website.com/ABC.
Estou usando o seguinte comando wget para obter os arquivos que desejo:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Isso funciona perfeitamente quando eu uso o wget 1.13.4. Mas o problema é que eu tenho que usar esse comando em um servidor que tenha o wget 1.11 e, quando eu uso o mesmo comando, ele acaba baixando domínios adicionais, como:
www.website.de
www.website.it
...
Como posso evitar esse problema? Eu tentei usar
--exclude domains=www.website.de,www.website.it
no entanto, continuou baixando esses domínios.
Observe também que não posso usá-lo, --no-parent
pois os arquivos desejados estão no nível superior (quero arquivos em website.com/ABC pesquisando links em website.com/XYZ).
Alguma dica?
wget
não deve cruzar hosts por padrão e você precisa da opção -H
/ --span-hosts
para cruzar hosts ao executar um wget recursivo. "www.website.com" é um host completamente diferente de "www.website.de".
-H
sempre foi solicitado a ser executado fora do host original. Será que -D www.website.com
ajuda?