Recuperando um site perdido sem backup?


262

Infelizmente, nosso provedor de hospedagem sofreu 100% de perda de dados, por isso perdi todo o conteúdo de dois sites de blog hospedados:

(Sim, sim, eu absolutamente deveria ter feito backups externos completos. Infelizmente, todos os meus backups estavam no próprio servidor. Portanto, salve a palestra; você está 100% absolutamente certo, mas isso não me ajuda no momento. Vamos mantenha o foco na questão aqui!)

Estou iniciando o processo lento e doloroso de recuperar o site dos caches do rastreador da web.

Existem algumas ferramentas automatizadas para recuperar um site dos caches da internet web spider (Yahoo, Bing, Google etc.), como Warrick , mas tive alguns resultados ruins usando isso:

  • Meu endereço IP foi rapidamente banido do Google por usá-lo
  • Eu recebo muitos erros 500 e 503 e "aguardando 5 minutos ..."
  • Por fim, posso recuperar o conteúdo do texto mais rapidamente manualmente

Tive uma sorte muito melhor usando uma lista de todas as postagens do blog, clicando no cache do Google e salvando cada arquivo individual como HTML. Enquanto há uma série de posts, não há que muitos, e eu acho que mereço alguma auto-flagelação por não ter uma melhor estratégia de backup. De qualquer forma, o importante é que tive sorte em obter o texto da postagem do blog dessa maneira e, definitivamente, sou capaz de extrair o texto das páginas da Web dos caches da Internet. Com base no que fiz até agora, estou confiante de que posso recuperar todo o texto e comentários perdidos da postagem do blog .

No entanto, as imagens que acompanham cada postagem do blog estão se mostrando ... mais difíceis.

Alguma dica geral para recuperar páginas de sites de caches da Internet e, em particular, locais para recuperar imagens arquivadas das páginas de sites ?

(E, novamente, por favor, não há palestras de backup. Você está totalmente, completamente, totalmente certo! Mas estar certo não está resolvendo meu problema imediato ... A menos que você tenha uma máquina do tempo ...)


96
Quando alguém como Jeff Atwood pode perder dois sites inteiros de uma só vez ... Bem. Vou revisar meus próprios procedimentos de backup, por um lado: P

240
@Phoshi: Jeff tem alguns bons artigos sobre Coding Horror no backup. Você deve ler rapidamente.

34
joshhunt ganha uma (1) internet. Esta oferta não pode ser combinada com outras ofertas, trocada ou substituída. Sem checagens.
11119 Adam Davis

28
Os comprimentos algumas pessoas vão para, para ganhar rep no SU ...

26
Por favor, não se refira ao que você fez como "backups" - se esses arquivos estiverem no mesmo servidor, eles não são de forma alguma "backups".

Respostas:


220

Aqui está minha facada selvagem no escuro: configure seu servidor da Web para retornar 304 para cada solicitação de imagem e, em seguida, faça a origem da recuperação postando uma lista de URLs em algum lugar e pedindo no podcast que todos os seus leitores carreguem cada URL e colhem imagens que carregam de seus caches locais. (Isso só funciona depois que você restaura as próprias páginas HTML, completas com as <img ...>tags, que sua pergunta parece sugerir que você poderá fazer.)

Essa é basicamente uma maneira elegante de dizer: "obtenha dos caches do navegador dos leitores". Você tem muitos leitores e ouvintes de podcast, para poder mobilizar efetivamente um grande número de pessoas que provavelmente acessaram seu site recentemente. Porém, é difícil encontrar e extrair manualmente imagens de caches de vários navegadores da Web, e toda a abordagem funciona melhor se for fácil o suficiente para que muitas pessoas a testem e sejam bem-sucedidas. Assim, a abordagem 304. Tudo o que exige dos leitores é que eles cliquem em uma série de links e arrastem todas as imagens carregadas em seu navegador da Web (ou clique com o botão direito do mouse e salve como etc.) e depois enviem por e-mail para você ou enviam para um localização central que você configurou, ou qualquer outra coisa. A principal desvantagem dessa abordagem é que os caches do navegador da Web não voltam tão longe no tempo. Mas é preciso apenas um leitor que carregou uma postagem de 2006 nos últimos dias para resgatar até uma imagem muito antiga. Com uma audiência grande o suficiente, tudo é possível.


52
+1 para a abordagem mais criativa. Poderia realmente funcionar, já que a CH tem muitos leitores.

16
implementado aqui? diovo.com/2009/12/…
Jeff Atwood

3
Acho que você pode rastrear seus arquivos estáticos para as tags de imagem e copiar todos eles em uma página gigante de imagens, em vez de todos clicarem em cada link. A implementação do diovo.com parece muito impressionante, espero que funcione para você.

2
WOW isso é uma merda wizardy mau I <3
Ahmad Alfy

4
De fato, você deve conseguir recuperar imagens usando canvase enviá-las para casa pelo AJAX.
Tomáš Zato

65

Alguns de nós o seguem com um leitor de RSS e não limpam caches. Tenho postagens de blog que parecem voltar a 2006. Nenhuma imagem, pelo que posso ver, mas pode ser melhor do que o que você está fazendo agora.


+1 definitivamente. O Google Reader não, mas eu aposto que um desktop seria.

2
Você também pode pedir às pessoas que verifiquem os caches dos navegadores. Quem vê o estilo retrô de Coding Horror pode ter algumas das imagens em cache.

Eu tenho postagens de blog desde 2005 no GReader, mas infelizmente elas não têm imagens e não me permitem exportá-las como uma série de páginas ... Eu poderia enviá-las para você, Jeff. ..
Glen Solsberry 11/12/2009

Sim, havia um implícito "Vou enviar o que tenho se você pedir." na minha resposta também.

3
Muitos leitores de RSS assumem que as imagens nunca morrerão. Eu sei que o meu faz :(

62

(1) Extraia uma lista dos nomes de arquivos de todas as imagens ausentes dos backups em HTML. Você ficará com algo como:

  • estadia-puft-marshmallow-man.jpg
  • internet-properties-dialog.png
  • yahoo-homepage-small.png
  • password-show-animated.gif
  • tivo2.jpg
  • michael-abrash-graphics-programme

(2) Faça uma pesquisa de imagens no Google para esses nomes de arquivo. Parece que muitos deles foram "espelhados" por outros blogueiros e estão prontos para serem usados ​​porque têm o mesmo nome de arquivo .

(3) Você pode fazer isso de maneira automatizada se for bem-sucedido, digamos, com mais de 10 imagens.


Seria muito irônico se ele realmente tivesse imagens assim.
Hashim

51

Ao acessar a pesquisa de imagens do Google e digitar, site:codinghorror.comé possível encontrar pelo menos as versões em miniatura de todas as suas imagens. Não, isso não ajuda necessariamente, mas fornece um ponto de partida para recuperar esses milhares de imagens.

Codinghorror images

Parece que o Google armazena uma miniatura maior em alguns casos:

Google vs. Bing

O Google está à esquerda e o Bing à direita.


2
Sim, na pior das hipóteses, teremos que ampliar as miniaturas do Google. Ouço que o Bing armazena miniaturas maiores, no entanto?
11139 Jeff Atwood

Eu não sei; Eu não sou um tipo de cara bing. Eu nem sei se eles pesquisam imagens como o Google. Vou descobrir e atualizar o referido post.
George Stocker

18
Não sei se é você. Mas o Imageshack parece ter muitas das imagens do seu blog. profile.imageshack.us/user/codinghorror
Nick Berardi

Eles parecem ter 456 imagens em tamanho real. Esta pode ser a melhor aposta para recuperar tudo. Talvez eles possam até lhe fornecer uma reserva.
22411 Nick Berardi

28
Use as miniaturas do Google como começo e, em seguida, use tineye.com para verificar se alguém está hospedando uma cópia.
sep332

40

Lamento ouvir sobre os blogs. Não vou dar aula. Mas eu encontrei o que parece ser suas imagens no Imageshack. Eles são realmente seus ou alguém tem mantido uma cópia deles por aí.

http://profile.imageshack.us/user/codinghorror

Eles parecem ter 456 imagens em tamanho real. Esta pode ser a melhor aposta para recuperar tudo. Talvez eles possam até lhe fornecer uma reserva.


37

Jeff, eu escrevi algo para você aqui

Em suma, o que proponho que você faça é:

  1. Configure o servidor da web para retornar 304 para cada solicitação de imagem. 304 significa que o arquivo não foi modificado e isso significa que o navegador buscará o arquivo do cache se ele estiver presente lá. (crédito: esta resposta do Superusuário )

  2. Em todas as páginas do site, adicione um pequeno script para capturar os dados da imagem e enviá-los ao servidor.

  3. Salve os dados da imagem no servidor.

  4. Voila!

Você pode obter os scripts no link fornecido.


A resposta do superusuário não está vinculada.
13139 Nathaniel

@Nathaniel: FIXED
alexanderpas

28

Tente esta consulta na Wayback Machine :

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

Você receberá todas as imagens de codinghorror.com arquivadas por archive.org. Isso retorna 3878 imagens, algumas das quais são duplicadas. Não será completo, mas um bom começo, no entanto.

Para as imagens restantes, você pode usar as miniaturas em um cache do mecanismo de pesquisa e fazer uma pesquisa inversa usando-as em http://www.tineye.com/ . Você fornece a imagem em miniatura e fornece uma visualização e um ponteiro para as imagens correspondentes encontradas na Web.


1
retorna um 404 agora?
Rogerdpack #


26

+1 na ddrecomendação se (1) o disco bruto estiver disponível em algum lugar; e (2) as imagens eram arquivos simples. Em seguida, você pode usar uma ferramenta forense de "gravação de dados" para (por exemplo) retirar todos os intervalos credíveis que parecem ser JPGs / PNGs / GIFs. Recuperei mais de 95% das fotos em um iPhone que foi apagado dessa maneira.

As ferramentas de código aberto 'principal' e seu sucessor 'bisturi' podem ser usadas para isso:

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/


2
O Photorec também pode ser útil quando você obtém imagens em dd.

O principal está disponível via yum no Fedora

26

Felizmente, as gerações futuras ficarão bem.

Mesmo com apenas parte dessa grande rocha, cientistas / linguistas descobriram muito.

Pedra de Roseta

Se algumas fotos estiverem faltando, deixe para alguém descobrir daqui a alguns milhares de anos.

Felizmente, você está rindo um pouco. :)


5
Ok, você tem uma risada de mim, pelo menos ;-)

21

Você também pode tentar o archive.org também. Use a máquina de retorno. Eu usei isso para recuperar imagens dos meus sites.


3
Parece não ter muito cache para CodingHorror, pelo menos. Eu vejo imagens para blog.stackoverflow embora.

i reconstruído um site usando internet máquina wayback uma vez, mas eu tentei algumas vezes desde então e ele realmente não arquivar muito muitos sites ...
djangofan

Parece que remonta a 2004 aqui web.archive.org/web * / codinghorror.com

Graças a Deus não tinha um arquivo robots.txt, hein? :)
Synetech

14

Então, na pior das hipóteses, você não pode recuperar nada. Droga.

Tente pegar o google minificado e colocá-lo no TinEye , o mecanismo de busca de imagens reversas. Espero que ele consiga duplicar ou refazer as pessoas que fizeram.


14

É um tiro no escuro, mas você pode considerar:

  • Como postar a lista exata de fotos que estão faltando
  • terceirizar o processo de recuperação através do cache da Internet de todos os seus leitores.

Por exemplo, consulte o Nirsoft Mozilla Cache Viewer :

texto alternativo
(fonte: nirsoft.net )

Ele pode desenterrar rapidamente qualquer imagem "blog.stackoverflow.com" que ainda possa ter por meio de uma simples linha de comando:

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

Nota: eles têm o mesmo cache explorer para o Chrome .

texto alternativo
(fonte: nirsoft.net )

(Devo ter 15 dias no valor de fotos blog.stackoverflow.com)

E Internet Explorer , ou Opera .


Atualize a lista pública para refletir o que os leitores relatam encontrar em seu cache.


12

No passado, eu usei o http://www.archive.org/ para obter imagens em cache. É uma espécie de sucesso ou falha, mas funcionou para mim.
Além disso, ao tentar recuperar fotos de estoque que usei em um site antigo, www.tineye.com é ótimo quando eu só tenho as miniaturas e preciso das imagens em tamanho real.

Espero que isso ajude você. Boa sorte.


Eu procurei no archive.org há alguns minutos atrás por imagens codinghorror.com e as poucas postagens em que cliquei não tiveram nenhuma exibição.
687 George Stocker

O Archive.org libera os dados meses após a primeira indexação.
Christian

10

Provavelmente, essa não é a solução mais fácil ou mais completa, mas serviços como o Evernote geralmente salvam o texto e as imagens quando são armazenados no aplicativo - talvez alguns leitores úteis que salvaram seus artigos possam salvar as imagens e enviá-las de volta para você. ?


10

Eu tive ótimas experiências com archive.org . Mesmo que você não consiga extrair todas as postagens do blog do site, elas mantêm instantâneos periódicos:

texto alternativo

Dessa forma, você pode verificar cada página e ver as postagens do blog que você fez. Com os nomes de todas as postagens, você pode encontrá-las facilmente no cache do Google, se o archive.org não tiver. O arquivo tenta manter as imagens, o cache do Google terá imagens e eu não esvaziei meu cache recentemente para poder ajudá-lo com as postagens mais recentes do blog :)


Tentei obter alguns dados do site de uma empresa em que trabalhava há algum tempo. Foi bom para o texto, menos para as imagens. Mas YMMV
ChrisF

Acredito que o cache da web do Google não armazena imagens.
13139 Nathaniel


8

Uma sugestão para o futuro: eu uso o Windows Live Writer para blogs e salva cópias locais de postagens na minha máquina, além de publicá-las no blog.


Além disso, o uso do Windows Live Writer é apenas bom senso.

7

Cerca de cinco anos atrás, uma encarnação precoce de um disco rígido externo no qual eu estava armazenando todas as minhas fotos digitais falhou muito. Eu fiz uma imagem do disco rígido usandodd e escrevi uma ferramenta rudimentar para recuperar qualquer coisa que parecesse uma imagem JPEG. Tirei a maioria das minhas fotos disso.

Então, a pergunta é: você pode obter uma cópia da imagem de disco da máquina virtual que continha as imagens?



7

Sugiro a combinação de archive.org e um anonimizador de pedidos como [Tor] [2]. Sugiro usar o anonimizador, pois dessa forma cada uma de suas solicitações terá um IP e um local aleatórios e, dessa forma, você poderá evitar ser banido por um archive.org (como o Google fez) por um número extraordinariamente alto de solicitações.

Boa sorte, existem muitas jóias nesse blog.


Dado que Jeff quer fazer uma doação para archive.org, abusar do anonimizador pode não ser absolutamente inaceitável. Mas eu ainda quero te dar um chute por isso. : - |

6

A máquina de wayback terá alguns. O cache do Google e caches semelhantes terão alguns.

Uma das coisas mais eficazes que você poderá fazer é enviar por email os pôsteres originais, pedindo ajuda.

Na verdade, tenho algumas recomendações de infraestrutura, pois depois de tudo isso estar limpo. O problema fundamental não é realmente os backups, é a falta de replicação do site e a falta de auditoria. Se você me enviar um e-mail com o conteúdo do campo de e-mail particular, mais tarde, quando estiver de pé, gostaria de discutir o assunto com você.


6

Se suas imagens foram armazenadas em um serviço externo, como o Flickr ou uma CDN (como mencionado em um de seus podcasts), você ainda pode ter os recursos de imagem lá.

Algumas imagens podem ser encontradas pesquisando nas Imagens do Google e clique em "Encontrar imagens semelhantes" , talvez haja cópias em outros sites.


5

Às vezes, o archive.org oculta imagens. Obtenha cada URL manualmente (ou escreva um script curto) e consulte-os assim:

string.Format ("GET / * / {0}", nextUri)

É claro que será uma grande dor procurar.

Talvez eu tenha alguns no cache do navegador. Se eu fizer, eu os hospedarei em algum lugar.


4

Se você deseja tentar raspar os caches dos usuários, convém configurar o servidor para responder 304 Not Modifieda todas as solicitações condicionais-GET ('If-Modified-Since' ou 'If-None-Match'), que os navegadores usam para revalidar o material em cache.

Se seus cabeçalhos de cache inicial em conteúdo estático, como imagens, forem bastante liberais - permitindo que as coisas sejam armazenadas em cache por dias ou meses - você poderá continuar recebendo solicitações de revalidação por um tempo. Defina um cookie para essas solicitações e apele para que os usuários executem um script no cache para extrair as imagens que ainda possuem.

No entanto, tenha cuidado: no momento em que você começar a colocar qualquer conteúdo em texto com recursos embutidos que ainda não estão presentes, você poderá acabar com essas versões em cache quando os revalidadores atingirem 404s.



4

Correndo o risco de apontar o óbvio, tente extrair os backups do seu próprio computador para as imagens. Sei que minha estratégia de backup é aleatória o suficiente para que eu tenha várias cópias de vários arquivos pendurados em unidades externas, discos gravados e em arquivos zip / tar. Boa sorte!


4

Consegui recuperar esses arquivos do meu cache do Safari no Snow Leopard:

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

Se alguém quiser tentar, escrevi um script Python para extraí-los para ~ / codinghorror / filename, que coloquei online aqui .

Eu espero que isso ajude.


3

Você teve a chance de ver se o seu provedor de hospedagem possui algum backup (algumas versões mais antigas)?


ele não parece bom .. o programa de backup deles não conseguiu fazer o backup dos arquivos do disco rígido da máquina virtual; portanto, não há backups.
11139 Jeff Atwood

2

Quanto esses dados valem para você? Se vale uma quantia significativa (milhares de dólares), considere solicitar ao seu provedor de hospedagem o disco rígido usado para armazenar os dados do seu site (no caso de perda de dados devido a falha de hardware). Em seguida, você pode levar a unidade para o ontrack ou algum outro serviço de recuperação de dados para ver o que pode sair da unidade. Isso pode ser difícil de negociar devido à possibilidade de dados não recuperados de outras pessoas na unidade também, mas se você realmente se importa com isso, provavelmente poderá trabalhar com isso.


o servidor era uma VM até onde eu sei.
splattne

1
@ splattne mesmo assim, há uma chance diferente de zero de que muitos dados possam ser recuperados.

Teria que ser um serviço altamente especializado.

2

Lamento ouvir isso e estou muito irritado com você, e com o tempo - eu queria uma cópia offline de algumas de suas postagens e fiz o HTTrack em todo o site, mas tive que sair (isso foi há algumas semanas) e Eu parei

Se o host estiver meio descendente - e pelo fato de eu achar que você é um bom cliente ... eu pediria que eles lhe enviassem os discos rígidos (como eu acho que eles deveriam usar RAID) ou fizessem alguma recuperação.

Embora isso possa não ser um processo rápido, eu fiz isso com um host para um cliente e consegui recuperar bancos de dados inteiros intactos (... basicamente, o host tentou uma atualização para o painel de controle que estava usando e estragou tudo. mas nada foi substituído).

Aconteça o que acontecer - Boa sorte de todos os seus fãs nos sites SO!

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.