Estou tentando espelhar um blog, por exemplo www.example.com, com wget.
Eu uso o wget com as seguintes opções (variáveis de shell são substituídas corretamente):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
O blog contém imagens que residem em outros domínios.
Embora eu tenha especificado a -popção (baixar ativos da página vinculada), essas imagens não serão baixadas, a menos que eu especifique explicitamente cada domínio na -Dopção.
Se eu omitir a -Dopção, o wget seguirá todos os links externos www.example.come fará o download de toda a Internet.
É possível wgetsimplesmente seguir todos os links abaixo www.example.come fazer o download dos recursos necessários de cada página, estejam eles no mesmo domínio ou não, sem que eu precise especificar cada domínio explicitamente?
-D $domainsbem como -H. Sem -Hele, ele deve permanecer no seu domínio, mas ainda recuperar os ativos diretos da página, mesmo quando eles estão em um domínio diferente.
wget -N -E -H -k -K -pprimeiro e criei um script para buscar imagens vinculadas ausentes.