Recuperando um site perdido sem backup?

262

Infelizmente, nosso provedor de hospedagem sofreu 100% de perda de dados, por isso perdi todo o conteúdo de dois sites de blog hospedados:

(Sim, sim, eu absolutamente deveria ter feito backups externos completos. Infelizmente, todos os meus backups estavam no próprio servidor. Portanto, salve a palestra; você está 100% absolutamente certo, mas isso não me ajuda no momento. Vamos mantenha o foco na questão aqui!)

Estou iniciando o processo lento e doloroso de recuperar o site dos caches do rastreador da web.

Existem algumas ferramentas automatizadas para recuperar um site dos caches da internet web spider (Yahoo, Bing, Google etc.), como Warrick , mas tive alguns resultados ruins usando isso:

Meu endereço IP foi rapidamente banido do Google por usá-lo
Eu recebo muitos erros 500 e 503 e "aguardando 5 minutos ..."
Por fim, posso recuperar o conteúdo do texto mais rapidamente manualmente

Tive uma sorte muito melhor usando uma lista de todas as postagens do blog, clicando no cache do Google e salvando cada arquivo individual como HTML. Enquanto há uma série de posts, não há que muitos, e eu acho que mereço alguma auto-flagelação por não ter uma melhor estratégia de backup. De qualquer forma, o importante é que tive sorte em obter o texto da postagem do blog dessa maneira e, definitivamente, sou capaz de extrair o texto das páginas da Web dos caches da Internet. Com base no que fiz até agora, estou confiante de que posso recuperar todo o texto e comentários perdidos da postagem do blog .

No entanto, as imagens que acompanham cada postagem do blog estão se mostrando ... mais difíceis.

Alguma dica geral para recuperar páginas de sites de caches da Internet e, em particular, locais para recuperar imagens arquivadas das páginas de sites ?

(E, novamente, por favor, não há palestras de backup. Você está totalmente, completamente, totalmente certo! Mas estar certo não está resolvendo meu problema imediato ... A menos que você tenha uma máquina do tempo ...)

— Jeff Atwood
fonte

96

Quando alguém como Jeff Atwood pode perder dois sites inteiros de uma só vez ... Bem. Vou revisar meus próprios procedimentos de backup, por um lado: P

240

@Phoshi: Jeff tem alguns bons artigos sobre Coding Horror no backup. Você deve ler rapidamente.

34

joshhunt ganha uma (1) internet. Esta oferta não pode ser combinada com outras ofertas, trocada ou substituída. Sem checagens.

— 11119 Adam Davis

28

Os comprimentos algumas pessoas vão para, para ganhar rep no SU ...

26

Por favor, não se refira ao que você fez como "backups" - se esses arquivos estiverem no mesmo servidor, eles não são de forma alguma "backups".

220

Aqui está minha facada selvagem no escuro: configure seu servidor da Web para retornar 304 para cada solicitação de imagem e, em seguida, faça a origem da recuperação postando uma lista de URLs em algum lugar e pedindo no podcast que todos os seus leitores carreguem cada URL e colhem imagens que carregam de seus caches locais. (Isso só funciona depois que você restaura as próprias páginas HTML, completas com as <img ...>tags, que sua pergunta parece sugerir que você poderá fazer.)

Essa é basicamente uma maneira elegante de dizer: "obtenha dos caches do navegador dos leitores". Você tem muitos leitores e ouvintes de podcast, para poder mobilizar efetivamente um grande número de pessoas que provavelmente acessaram seu site recentemente. Porém, é difícil encontrar e extrair manualmente imagens de caches de vários navegadores da Web, e toda a abordagem funciona melhor se for fácil o suficiente para que muitas pessoas a testem e sejam bem-sucedidas. Assim, a abordagem 304. Tudo o que exige dos leitores é que eles cliquem em uma série de links e arrastem todas as imagens carregadas em seu navegador da Web (ou clique com o botão direito do mouse e salve como etc.) e depois enviem por e-mail para você ou enviam para um localização central que você configurou, ou qualquer outra coisa. A principal desvantagem dessa abordagem é que os caches do navegador da Web não voltam tão longe no tempo. Mas é preciso apenas um leitor que carregou uma postagem de 2006 nos últimos dias para resgatar até uma imagem muito antiga. Com uma audiência grande o suficiente, tudo é possível.

— John Siracusa
fonte

52

+1 para a abordagem mais criativa. Poderia realmente funcionar, já que a CH tem muitos leitores.

16

implementado aqui? diovo.com/2009/12/…

— Jeff Atwood

3

Acho que você pode rastrear seus arquivos estáticos para as tags de imagem e copiar todos eles em uma página gigante de imagens, em vez de todos clicarem em cada link. A implementação do diovo.com parece muito impressionante, espero que funcione para você.

2

WOW isso é uma merda wizardy mau I <3

— Ahmad Alfy

4

De fato, você deve conseguir recuperar imagens usando canvase enviá-las para casa pelo AJAX.

— Tomáš Zato

65

Alguns de nós o seguem com um leitor de RSS e não limpam caches. Tenho postagens de blog que parecem voltar a 2006. Nenhuma imagem, pelo que posso ver, mas pode ser melhor do que o que você está fazendo agora.

— retrátil
fonte

+1 definitivamente. O Google Reader não, mas eu aposto que um desktop seria.

2

Você também pode pedir às pessoas que verifiquem os caches dos navegadores. Quem vê o estilo retrô de Coding Horror pode ter algumas das imagens em cache.

Eu tenho postagens de blog desde 2005 no GReader, mas infelizmente elas não têm imagens e não me permitem exportá-las como uma série de páginas ... Eu poderia enviá-las para você, Jeff. ..

— Glen Solsberry 11/12/2009

Sim, havia um implícito "Vou enviar o que tenho se você pedir." na minha resposta também.

3

Muitos leitores de RSS assumem que as imagens nunca morrerão. Eu sei que o meu faz :(

62

(1) Extraia uma lista dos nomes de arquivos de todas as imagens ausentes dos backups em HTML. Você ficará com algo como:

estadia-puft-marshmallow-man.jpg
internet-properties-dialog.png
yahoo-homepage-small.png
password-show-animated.gif
tivo2.jpg
michael-abrash-graphics-programme

(2) Faça uma pesquisa de imagens no Google para esses nomes de arquivo. Parece que muitos deles foram "espelhados" por outros blogueiros e estão prontos para serem usados porque têm o mesmo nome de arquivo .

(3) Você pode fazer isso de maneira automatizada se for bem-sucedido, digamos, com mais de 10 imagens.

— Portman
fonte

Seria muito irônico se ele realmente tivesse imagens assim.

— Hashim

51

Ao acessar a pesquisa de imagens do Google e digitar, site:codinghorror.comé possível encontrar pelo menos as versões em miniatura de todas as suas imagens. Não, isso não ajuda necessariamente, mas fornece um ponto de partida para recuperar esses milhares de imagens.

Codinghorror images

Parece que o Google armazena uma miniatura maior em alguns casos:

Google vs. Bing

O Google está à esquerda e o Bing à direita.

— George Stocker
fonte

2

Sim, na pior das hipóteses, teremos que ampliar as miniaturas do Google. Ouço que o Bing armazena miniaturas maiores, no entanto?

— 11139 Jeff Atwood

Eu não sei; Eu não sou um tipo de cara bing. Eu nem sei se eles pesquisam imagens como o Google. Vou descobrir e atualizar o referido post.

— George Stocker

18

Não sei se é você. Mas o Imageshack parece ter muitas das imagens do seu blog. profile.imageshack.us/user/codinghorror

— Nick Berardi

Eles parecem ter 456 imagens em tamanho real. Esta pode ser a melhor aposta para recuperar tudo. Talvez eles possam até lhe fornecer uma reserva.

— 22411 Nick Berardi

28

Use as miniaturas do Google como começo e, em seguida, use tineye.com para verificar se alguém está hospedando uma cópia.

— sep332

40

Lamento ouvir sobre os blogs. Não vou dar aula. Mas eu encontrei o que parece ser suas imagens no Imageshack. Eles são realmente seus ou alguém tem mantido uma cópia deles por aí.

http://profile.imageshack.us/user/codinghorror

Eles parecem ter 456 imagens em tamanho real. Esta pode ser a melhor aposta para recuperar tudo. Talvez eles possam até lhe fornecer uma reserva.

— Nick Berardi
fonte

37

Jeff, eu escrevi algo para você aqui

Em suma, o que proponho que você faça é:

Configure o servidor da web para retornar 304 para cada solicitação de imagem. 304 significa que o arquivo não foi modificado e isso significa que o navegador buscará o arquivo do cache se ele estiver presente lá. (crédito: esta resposta do Superusuário )
Em todas as páginas do site, adicione um pequeno script para capturar os dados da imagem e enviá-los ao servidor.
Salve os dados da imagem no servidor.
Voila!

Você pode obter os scripts no link fornecido.

— Niyaz
fonte

A resposta do superusuário não está vinculada.

— 13139 Nathaniel

@Nathaniel: FIXED

— alexanderpas

28

Tente esta consulta na Wayback Machine :

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

Você receberá todas as imagens de codinghorror.com arquivadas por archive.org. Isso retorna 3878 imagens, algumas das quais são duplicadas. Não será completo, mas um bom começo, no entanto.

Para as imagens restantes, você pode usar as miniaturas em um cache do mecanismo de pesquisa e fazer uma pesquisa inversa usando-as em http://www.tineye.com/ . Você fornece a imagem em miniatura e fornece uma visualização e um ponteiro para as imagens correspondentes encontradas na Web.

— Peter Stuer
fonte

1

retorna um 404 agora?

— Rogerdpack #

Eu criei

— Hartator

26

+1 na ddrecomendação se (1) o disco bruto estiver disponível em algum lugar; e (2) as imagens eram arquivos simples. Em seguida, você pode usar uma ferramenta forense de "gravação de dados" para (por exemplo) retirar todos os intervalos credíveis que parecem ser JPGs / PNGs / GIFs. Recuperei mais de 95% das fotos em um iPhone que foi apagado dessa maneira.

As ferramentas de código aberto 'principal' e seu sucessor 'bisturi' podem ser usadas para isso:

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/

— gojomo
fonte

2

O Photorec também pode ser útil quando você obtém imagens em dd.

O principal está disponível via yum no Fedora

26

Felizmente, as gerações futuras ficarão bem.

Mesmo com apenas parte dessa grande rocha, cientistas / linguistas descobriram muito.

Pedra de Roseta

Se algumas fotos estiverem faltando, deixe para alguém descobrir daqui a alguns milhares de anos.

Felizmente, você está rindo um pouco. :)

— jm
fonte

5

Ok, você tem uma risada de mim, pelo menos ;-)

21

Você também pode tentar o archive.org também. Use a máquina de retorno. Eu usei isso para recuperar imagens dos meus sites.

— Kyle
fonte

3

Parece não ter muito cache para CodingHorror, pelo menos. Eu vejo imagens para blog.stackoverflow embora.

i reconstruído um site usando internet máquina wayback uma vez, mas eu tentei algumas vezes desde então e ele realmente não arquivar muito muitos sites ...

— djangofan

Parece que remonta a 2004 aqui web.archive.org/web * / codinghorror.com

Graças a Deus não tinha um arquivo robots.txt, hein? :)

— Synetech

14

Então, na pior das hipóteses, você não pode recuperar nada. Droga.

Tente pegar o google minificado e colocá-lo no TinEye , o mecanismo de busca de imagens reversas. Espero que ele consiga duplicar ou refazer as pessoas que fizeram.

— Phoshi
fonte

14

É um tiro no escuro, mas você pode considerar:

Como postar a lista exata de fotos que estão faltando
terceirizar o processo de recuperação através do cache da Internet de todos os seus leitores.

Por exemplo, consulte o Nirsoft Mozilla Cache Viewer :

_{(fonte: nirsoft.net )}

Ele pode desenterrar rapidamente qualquer imagem "blog.stackoverflow.com" que ainda possa ter por meio de uma simples linha de comando:

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

Nota: eles têm o mesmo cache explorer para o Chrome .

_{(fonte: nirsoft.net )}

(Devo ter 15 dias no valor de fotos blog.stackoverflow.com)

E Internet Explorer , ou Opera .

Atualize a lista pública para refletir o que os leitores relatam encontrar em seu cache.

— VonC
fonte

12

No passado, eu usei o http://www.archive.org/ para obter imagens em cache. É uma espécie de sucesso ou falha, mas funcionou para mim.
Além disso, ao tentar recuperar fotos de estoque que usei em um site antigo, www.tineye.com é ótimo quando eu só tenho as miniaturas e preciso das imagens em tamanho real.

Espero que isso ajude você. Boa sorte.

— Czar Elitista
fonte

Eu procurei no archive.org há alguns minutos atrás por imagens codinghorror.com e as poucas postagens em que cliquei não tiveram nenhuma exibição.

— 687 George Stocker

O Archive.org libera os dados meses após a primeira indexação.

— Christian

10

Provavelmente, essa não é a solução mais fácil ou mais completa, mas serviços como o Evernote geralmente salvam o texto e as imagens quando são armazenados no aplicativo - talvez alguns leitores úteis que salvaram seus artigos possam salvar as imagens e enviá-las de volta para você. ?

— Justin Burdett
fonte

10

Eu tive ótimas experiências com archive.org . Mesmo que você não consiga extrair todas as postagens do blog do site, elas mantêm instantâneos periódicos:

Dessa forma, você pode verificar cada página e ver as postagens do blog que você fez. Com os nomes de todas as postagens, você pode encontrá-las facilmente no cache do Google, se o archive.org não tiver. O arquivo tenta manter as imagens, o cache do Google terá imagens e eu não esvaziei meu cache recentemente para poder ajudá-lo com as postagens mais recentes do blog :)

— John T
fonte

Tentei obter alguns dados do site de uma empresa em que trabalhava há algum tempo. Foi bom para o texto, menos para as imagens. Mas YMMV

— ChrisF

Acredito que o cache da web do Google não armazena imagens.

— 13139 Nathaniel

8

Você já tentou seu próprio cache do navegador local? Muito boas chances de algumas das coisas mais recentes ainda estarem lá. http://lifehacker.com/385883/resurrect-images-from-my-web-browser-cache

(Ou você pode compilar uma lista de todas as imagens ausentes e todos podem verificar seu cache para ver se podemos preencher os espaços em branco)

— thijs
fonte

8

Uma sugestão para o futuro: eu uso o Windows Live Writer para blogs e salva cópias locais de postagens na minha máquina, além de publicá-las no blog.

— Matt Sherman
fonte

Além disso, o uso do Windows Live Writer é apenas bom senso.

7

Cerca de cinco anos atrás, uma encarnação precoce de um disco rígido externo no qual eu estava armazenando todas as minhas fotos digitais falhou muito. Eu fiz uma imagem do disco rígido usandodd e escrevi uma ferramenta rudimentar para recuperar qualquer coisa que parecesse uma imagem JPEG. Tirei a maioria das minhas fotos disso.

Então, a pergunta é: você pode obter uma cópia da imagem de disco da máquina virtual que continha as imagens?

— Sinan Ünür
fonte

7

O arquivo da web armazena em cache as imagens. Está sob carga pesada agora, você deve ficar bem até 2008 mais ou menos.

http://web.archive.org/web/20080618014552rn%5F2/www.codinghorror.com/blog/

— Juan Cruz Nores
fonte

7

Sugiro a combinação de archive.org e um anonimizador de pedidos como [Tor] [2]. Sugiro usar o anonimizador, pois dessa forma cada uma de suas solicitações terá um IP e um local aleatórios e, dessa forma, você poderá evitar ser banido por um archive.org (como o Google fez) por um número extraordinariamente alto de solicitações.

Boa sorte, existem muitas jóias nesse blog.

— mirnazim
fonte

Dado que Jeff quer fazer uma doação para archive.org, abusar do anonimizador pode não ser absolutamente inaceitável. Mas eu ainda quero te dar um chute por isso. : - |

6

A máquina de wayback terá alguns. O cache do Google e caches semelhantes terão alguns.

Uma das coisas mais eficazes que você poderá fazer é enviar por email os pôsteres originais, pedindo ajuda.

Na verdade, tenho algumas recomendações de infraestrutura, pois depois de tudo isso estar limpo. O problema fundamental não é realmente os backups, é a falta de replicação do site e a falta de auditoria. Se você me enviar um e-mail com o conteúdo do campo de e-mail particular, mais tarde, quando estiver de pé, gostaria de discutir o assunto com você.

— John
fonte

6

Se suas imagens foram armazenadas em um serviço externo, como o Flickr ou uma CDN (como mencionado em um de seus podcasts), você ainda pode ter os recursos de imagem lá.

Algumas imagens podem ser encontradas pesquisando nas Imagens do Google e clique em "Encontrar imagens semelhantes" , talvez haja cópias em outros sites.

— splattne
fonte

5

Às vezes, o archive.org oculta imagens. Obtenha cada URL manualmente (ou escreva um script curto) e consulte-os assim:

string.Format ("GET / * / {0}", nextUri)

É claro que será uma grande dor procurar.

Talvez eu tenha alguns no cache do navegador. Se eu fizer, eu os hospedarei em algum lugar.

— Andrew Wilcox
fonte

4

Se você deseja tentar raspar os caches dos usuários, convém configurar o servidor para responder 304 Not Modifieda todas as solicitações condicionais-GET ('If-Modified-Since' ou 'If-None-Match'), que os navegadores usam para revalidar o material em cache.

Se seus cabeçalhos de cache inicial em conteúdo estático, como imagens, forem bastante liberais - permitindo que as coisas sejam armazenadas em cache por dias ou meses - você poderá continuar recebendo solicitações de revalidação por um tempo. Defina um cookie para essas solicitações e apele para que os usuários executem um script no cache para extrair as imagens que ainda possuem.

No entanto, tenha cuidado: no momento em que você começar a colocar qualquer conteúdo em texto com recursos embutidos que ainda não estão presentes, você poderá acabar com essas versões em cache quando os revalidadores atingirem 404s.

— gojomo
fonte

4

Você poderia usar TinEye para encontrar duplicatas de suas imagens por pesquisar as miniaturas com cache do Google . Isso ajudará apenas as imagens que você tirou de outro site.

— viajante
fonte

1

Não, ajudaria com imagens que outras pessoas tiraram do CH.

— usar o seguinte

@DisgruntledGoat: Eu nem pensei nisso no começo: D

4

Correndo o risco de apontar o óbvio, tente extrair os backups do seu próprio computador para as imagens. Sei que minha estratégia de backup é aleatória o suficiente para que eu tenha várias cópias de vários arquivos pendurados em unidades externas, discos gravados e em arquivos zip / tar. Boa sorte!

— lo_fye
fonte

4

Consegui recuperar esses arquivos do meu cache do Safari no Snow Leopard:

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

Se alguém quiser tentar, escrevi um script Python para extraí-los para ~ / codinghorror / filename, que coloquei online aqui .

Eu espero que isso ajude.

— Dan Udey
fonte

3

Você teve a chance de ver se o seu provedor de hospedagem possui algum backup (algumas versões mais antigas)?

— Oi
fonte

ele não parece bom .. o programa de backup deles não conseguiu fazer o backup dos arquivos do disco rígido da máquina virtual; portanto, não há backups.

— 11139 Jeff Atwood

2

Quanto esses dados valem para você? Se vale uma quantia significativa (milhares de dólares), considere solicitar ao seu provedor de hospedagem o disco rígido usado para armazenar os dados do seu site (no caso de perda de dados devido a falha de hardware). Em seguida, você pode levar a unidade para o ontrack ou algum outro serviço de recuperação de dados para ver o que pode sair da unidade. Isso pode ser difícil de negociar devido à possibilidade de dados não recuperados de outras pessoas na unidade também, mas se você realmente se importa com isso, provavelmente poderá trabalhar com isso.

— Cunha
fonte

o servidor era uma VM até onde eu sei.

— splattne

1

@ splattne mesmo assim, há uma chance diferente de zero de que muitos dados possam ser recuperados.

Teria que ser um serviço altamente especializado.

2

Lamento ouvir isso e estou muito irritado com você, e com o tempo - eu queria uma cópia offline de algumas de suas postagens e fiz o HTTrack em todo o site, mas tive que sair (isso foi há algumas semanas) e Eu parei

Se o host estiver meio descendente - e pelo fato de eu achar que você é um bom cliente ... eu pediria que eles lhe enviassem os discos rígidos (como eu acho que eles deveriam usar RAID) ou fizessem alguma recuperação.

Embora isso possa não ser um processo rápido, eu fiz isso com um host para um cliente e consegui recuperar bancos de dados inteiros intactos (... basicamente, o host tentou uma atualização para o painel de controle que estava usando e estragou tudo. mas nada foi substituído).

Aconteça o que acontecer - Boa sorte de todos os seus fãs nos sites SO!

— wilhil
fonte