Estou tentando espelhar um blog, por exemplo www.example.com
, com wget
.
Eu uso o wget com as seguintes opções (variáveis de shell são substituídas corretamente):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
O blog contém imagens que residem em outros domínios.
Embora eu tenha especificado a -p
opção (baixar ativos da página vinculada), essas imagens não serão baixadas, a menos que eu especifique explicitamente cada domínio na -D
opção.
Se eu omitir a -D
opção, o wget seguirá todos os links externos www.example.com
e fará o download de toda a Internet.
É possível wget
simplesmente seguir todos os links abaixo www.example.com
e fazer o download dos recursos necessários de cada página, estejam eles no mesmo domínio ou não, sem que eu precise especificar cada domínio explicitamente?
-D $domains
bem como -H
. Sem -H
ele, ele deve permanecer no seu domínio, mas ainda recuperar os ativos diretos da página, mesmo quando eles estão em um domínio diferente.
wget -N -E -H -k -K -p
primeiro e criei um script para buscar imagens vinculadas ausentes.