Baixando massa '.txt' do site


1

Eu estou tentando baixar um monte de (digamos, arquivos .txt) de um site, agora eles não são muito grandes (cerca de 4-10kbs cada), mas existem cerca de 70000 deles.

Tudo o que eu sou depois é o .txt, eu não quero clonar o site como HTTrack etc ...

Existe algum programa lá fora que me ajudaria com este problema? (e poupe-me uma tonelada de tempo!)

Felicidades


4
Tente wgetpor exemplo. Você deve incluir mais informações na sua pergunta, como é possível determinar os nomes dos arquivos txt. E qual sistema operacional você está usando.
mpy

Desculpe eu estou usando o Windows 8 atm (esqueci de dizer no acima) Os arquivos .txt também estão em páginas aleatórias dentro do site (também eles têm nomes aleatórios) Eu deveria disse isso também no acima ... desculpe e obrigado por a resposta
xencored


1
visite wgetman page, gnu.org/software/wget/manual/wget.html e procure acclist.
DᴀʀᴛʜVᴀᴅᴇʀ

Obrigado vou dar uma olhada, eu estava atrás de algo assim para arquivos que não sejam imagens exisoftware.com/news/download-all-images-from-a-website.html
xencored

Respostas:


0

Se você está certo em usar um navegador, você pode usar o Firefox com a extensão DownThemAll . Você precisará navegar até a raiz do diretório e iniciar o DownThemAll - você pode filtrar apenas arquivos .txt na tela de seleção.


Eu não tenho certeza se a solução seria boa se eles estivessem espalhados por um site porque o OP declarou que existem 700 arquivos txt. A menos que haja alguma opção com a qual não estou familiarizado, edite sua postagem com um exemplo.
DᴀʀᴛʜVᴀᴅᴇʀ

Isso não me levaria tanto tempo assim? Eu teria que visitar cada página (todos os 50000 deles)?
xencored

1
Minhas desculpas, não percebi que estavam espalhadas por várias páginas. O DTA teria funcionado se os arquivos em questão fossem indexados / listados centralmente.
Craig Watson

0

Use a copiadora gratuita do site HTTrack . Ele permite configurar, por exemplo, profundidade de link, tamanho máximo de arquivo, largura de banda, incluir e excluir links etc. "Ele permite que você baixe um site da Internet para um diretório local, criando recursivamente todos os diretórios, obtendo HTML, imagens e outros arquivos do servidor para o seu computador. O HTTrack organiza a estrutura de links relativa do site original. "


Então, como o OP usaria o HTTrack para baixar apenas os arquivos TXT espalhados pelo site? Ele afirmou claramente que não quer espelhar todo o site.
Karan

Você está certo, ele não pode 'apenas' baixar o arquivo .txt porque ele também precisa do 'intermediário' .html para coletar os links. Mas isso é tão fácil quanto depois "del * .html / s" (e mais alguns) ou um xcopy de todos os arquivos * .txt para outro local. Eu fiz isso muitas vezes para outros tipos de arquivos.
Jan Doggen
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.