Quero baixar um site inteiro (com sub-sites). Existe alguma ferramenta para isso?
--convert-links
wget) não revelam sites que são revelados apenas pelo envio de um formulário, entre outras coisas.
Quero baixar um site inteiro (com sub-sites). Existe alguma ferramenta para isso?
--convert-links
wget) não revelam sites que são revelados apenas pelo envio de um formulário, entre outras coisas.
Respostas:
Experimente o exemplo 10 daqui :
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
–mirror
: ativar opções adequadas para espelhamento.
-p
: baixe todos os arquivos necessários para exibir corretamente uma determinada página HTML.
--convert-links
: após o download, converta os links no documento para visualização local.
-P ./LOCAL-DIR
: salve todos os arquivos e diretórios no diretório especificado.--wait=seconds
argumento se quiser ser mais amigável ao site; esperará o número especificado de segundos entre as recuperações.
O httrack é a ferramenta que você está procurando.
O HTTrack permite que você baixe um site da Internet para um diretório local, criando recursivamente todos os diretórios, obtendo HTML, imagens e outros arquivos do servidor para o seu computador. O HTTrack organiza a estrutura de links relativa do site original.
Com wget
você pode baixar um site inteiro, você deve usar a -r
opção para um download recursivo . Por exemplo,
wget -r http://www.google.com
O WEBHTTRACK WEBSITE COPIER é uma ferramenta útil para baixar um site inteiro no disco rígido para navegação offline. Inicie o ubuntu software center e digite "webhttrack website copier" sem as aspas na caixa de pesquisa. selecione e faça o download do centro de software para o seu sistema. inicie o webHTTrack no menu inicial ou no menu Iniciar. A partir daí, você poderá começar a aproveitar essa ótima ferramenta para downloads do seu site
Eu não sei sobre subdomínios, ou seja, subsite, mas o wget pode ser usado para pegar um site completo. Dê uma olhada na questão deste superusuário . Ele diz que você pode usar -D domain1.com,domain2.com
para baixar domínios diferentes em um único script. Eu acho que você pode usar essa opção para baixar subdomínios, ou seja,-D site1.somesite.com,site2.somesite.com
Eu uso o Burp - a ferramenta spider é muito mais inteligente que o wget e pode ser configurada para evitar seções, se necessário. O Burp Suite em si é um poderoso conjunto de ferramentas para ajudar nos testes, mas a ferramenta spider é muito eficaz.
Você pode fazer o download do comando do site inteiro:
wget -r -l 0 website
Exemplo:
wget -r -l 0 http://google.com
Se a velocidade é uma preocupação (e o bem-estar do servidor não é), você pode tentar o puf , que funciona como o wget, mas pode baixar várias páginas em paralelo. No entanto, não é um produto acabado, não é mantido e é terrivelmente indocumentado. Ainda assim, para baixar um site com muitos arquivos pequenos, essa pode ser uma boa opção.