Alternativas ao wget

12

Eu tenho um site em um servidor que é basicamente um monte de páginas HTML, imagens e sons.

Perdi minha senha para esse servidor e preciso pegar tudo o que está armazenado lá. Posso ir página por página e salvar tudo, mas o site tem mais de 100 páginas.

Estou usando o OSX. Eu tentei usar, wgetmas acho que o servidor está bloqueando isso.

Existe alguma alternativa que eu possa usar para capturar esse conteúdo?

wget

— Cao espacial
fonte

Se você tiver acesso físico ao servidor, inicialize no modo de usuário único e recupere sua senha. debuntu.org/…

— spuder 17/08/13

14

Se o servidor estiver bloqueando o wget, provavelmente o fará com base no campo "User-agent:" do cabeçalho http, pois essa é a única maneira de saber em primeiro lugar. Também pode estar bloqueando seu IP, caso em que o uso de software diferente não ajudará, ou algum esquema que identifique a automação com base na rapidez com que um conjunto de solicitações é rápido (já que pessoas reais não navegam 100 páginas em 3,2 segundos) . Eu nunca ouvi falar de alguém fazendo isso, mas é possível.

Também não ouvi falar de uma maneira de desacelerar o wget, mas há uma maneira de falsificar o campo user-agent:

wget --user-agent=""

De acordo com a página de manual, o "User-agent:" será removido completamente, pois não é obrigatório. Se o servidor não gostar disso, tente o --user-agent="Mozilla/5.0"que deve ser bom o suficiente.

Obviamente, ajudaria se você explicasse melhor por que "acha que o servidor está bloqueando isso". O wget diz alguma coisa ou apenas passa o tempo?

— Cachinhos Dourados
fonte

Oh sim! Obrigado. Eu perdi isso na ajuda do wget. Está funcionando agora!!!!!!!!!!!!!!!!!!!!!!!!

— SpaceDog

5

wgettem várias opções para aguardar entre consultas, limitar a taxa ou o valor baixado. Verifique a infopágina para detalhes.

— Stéphane Chazelas

6

Eu costumo usar httrackpara baixar / espelhar o conteúdo da Web de um site.

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

Após a execução, você fica com uma estrutura de diretórios local e navegável. Por exemplo:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

Ao fazer o download, você verá o seguinte tipo de saída:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

Pode ser em segundo plano e / ou abortado e depois retomado. Esta é apenas a ponta do iceberg em termos de suas características. Há também uma GUI para configurar um download e monitorá-lo à medida que avança.

Há extensa documentação no httracksite e no Google.

— slm
fonte