Você pode pegar o site de despejos-pages-articles.xml.bz2
da Wikimedia e processá-los com o WikiTaxi (faça o download no canto superior esquerdo). A ferramenta Wikitaxi Import criará um .taxi
arquivo (em torno de 15 GB para a Wikipedia) fora do .bz2
arquivo. Esse arquivo será usado pelo programa WikiTaxi para pesquisar artigos. A experiência é muito semelhante à do navegador.
Ou você pode usar o Kiwix , mais rápido de configurar, porque também fornece os dumps ( .zim
arquivos) já processados . Como o comentário especifica para mwoffliner
poder usar outros sites do MediaWiki para kiwix , ele pode não funcionar com todos, pois podem ter diferenças personalizadas, mas é a única variante que encontrei.
Levar material da Wikimedia wget
não é uma boa prática. Se muitas pessoas fizerem isso, poderá inundar os sites com solicitações.
Edite posteriormente para o caso em que você deseja também as imagens offline:
Se você deseja um espelho completo da Wikipedia (incluindo imagens) da formatação HTML completa intacta que faça o download em aproximadamente 30 horas , você deve usar:
A Wikipedia em inglês possui muitos dados. Existem 13,9 milhões de páginas com mais de 20,0 GB de texto e mais de 3,7 milhões de miniaturas.
XOWA :
Configurar tudo isso no seu computador não será um processo rápido ... A importação em si exigirá 80 GB de espaço em disco e cinco horas de tempo de processamento para a versão em texto. Se você também deseja imagens, os números aumentam para 100 GB de espaço em disco e 30 horas de tempo de processamento. No entanto, quando terminar, você terá uma cópia completa e recente da Wikipedia em inglês com imagens que podem caber em um cartão SD de 128GB.
Mas a versão offline é muito parecida com a versão online, inclui fotos etc.:
(testei o artigo abaixo completamente offline)
Edite posteriormente se nenhuma das opções acima se aplicar:
Se o wiki não faz parte da Wikimedia ou não possui um despejo, existe um projeto no github que baixa esse wiki usando sua API:
Main Page
e siga os links de lá.