Respostas:
De acordo com as informações sobre o acesso do robô às nossas páginas :
O acesso do robô ao nosso site deve ser deixado como último recurso, quando tudo mais falhar. Lembre-se também de que o site do Project Gutenberg é protegido por direitos autorais.
No entanto, há esperança :
Melhores alternativas
- Obtenha uma versão offline do site do Project Gutenberg.
- Obtenha todos os arquivos do ebook de Project Gutenberg.
- Obtenha os dados do catálogo do Project Gutenberg.
E:
[...] Você pode obter todos os nossos eBooks em arquivos compactados, apontando o seu robô em http://www.gutenberg.org/robot/harvest
[...] Descompactar os arquivos zip produzirá outros 70.000 arquivos.
Este é um exemplo de como obter todos os arquivos usando
wget
:wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] Se você quiser apenas alguns tipos de arquivos, diga:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] Se você quiser apenas arquivos em um determinado idioma, diga:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
Então, eu questionaria:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
. Mas acho que é melhor você abortar e reiniciar: tente --level 9999 --no-clobber
, o que ignorará os arquivos que você já possui (supondo que você ainda esteja na mesma pasta do disco).
-c
opção, mas ainda assim. Dei offset=xxx
na URL para ser espelhado, mas ainda está baixando da primeira página.
Você pode fazer o download de toda a coleção de livros em inglês da Gutenberg e de outros idiomas em um único arquivo ZIM, que é altamente compactado e pode ser aberto com o Kiwix tanto na área de trabalho quanto no Android. Os livros em inglês são de 40 GB.
Enquanto a resposta selecionada estiver correta, ela poderá causar dois problemas:
wget
comando falhará nas verificações recursivas ao baixar os arquivos de um espelho externo.A solução abaixo corrige estes problemas:
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
Você pode alterar as seqüências de referência e agente do usuário para fornecer um pouco de aleatoriedade.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso tem algumas boas opções.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso é um arquivo de 8 GB que deve ser suficiente para suas necessidades.
Há mais informações aqui:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , fornece todas as opções de download do arquivo, incluindo FTP e BitTorrent.
Outra opção é a ótima ferramenta em http://pgiso.pglaf.org/ .
Por que não usar todas as suas habilidades e conhecimentos de programação complicados e mostrados acima para criar um botão simples que vincula todas essas ações e diz "Baixar todos os livros atuais" - com uma guia de opção de idioma quando você clica nele.
Tenho certeza de que a maioria dos usuários que acessam o site é colecionadora de livros eletrônicos e o download manual de certos livros sobre tópicos que os interessam é bom para 1 ou 2 livros. Mas fazer uma coleção maior manualmente é uma chatice. No entanto, se eles precisam para pesquisa ou simplesmente desejam possuir uma enorme biblioteca digital de livros em seu próprio PC. A maioria das pessoas é desativada e se dispersa para fora do site quando percebe que precisa ser um Assistente de Computador para fazer isso. ainda mais visitantes no site. Assim, todo mundo está feliz.