Alguém clonou meu blog WordPress, como evito que ele prejudique o SEO?

Meu blog WordPress é completamente clonado. Esse site clone está sendo atualizado em tempo real com o meu blog. Estou surpreso que alguém possa realmente fazer isso.

O que devo fazer para impedir o impacto prejudicial na classificação do meu mecanismo de pesquisa? Existe alguma maneira de dizer ao Google para não indexar esse site?

wordpress scraper-sites

— Tanvir Hasan
fonte

Vejo que agora parece ter sido "corrigido" - o site clonado não é mais "clonado". Como você conseguiu isso no final?

— MrWhite

Após duas semanas e várias conversas com a Amazon Hosting, eles decidiram encerrar o site clonado. Obrigado a todos.

— Tanvir Hasan

observe que dmca.com e google.com/webmasters/tools/dmca-dashboard são diferentes ao tentar reivindicar uma violação.

— Showcase Imagery

Respostas:

Eles estão simplesmente carregando seu site por meio de um script do lado do servidor. Tudo o que você precisa fazer é bloquear o endereço IP do servidor via .htaccess. Simplesmente abra os logs de acesso do servidor, abra a página clonada no site deles, depois veja o log da nova entrada e você terá o endereço IP deles.

Também não faria mal enviar uma solicitação de DMCA ao Google, mas isso realmente não será necessário, pois o conteúdo desaparecerá instantaneamente depois que você bloquear o endereço IP.

— John Conde
fonte

Vou dobrar a sugestão de fazer uma solicitação de DMCA ao Google. Ultimamente, estamos vendo várias formas disso e não tenho certeza de qual seria o resultado. No entanto, eu sugeriria não bloqueá-los por um período, enquanto o Google faz isso - então eu os bloqueia -, mas talvez você não precise fazê-lo quando o Google os deslistar. Estou apenas sugerindo que, se você registrar uma reclamação DMCA no Google, forneça a eles um período para investigar antes de bloquear. Caso contrário, basta bloqueá-los imediatamente.

— precisa saber é o seguinte

Oi John Conde, Tentei bloquear o endereço IP via arquivo .htaccess usando este código "" comando Order Deny, Allow Deny from [that IP address] "Mas esse site clone ainda está sendo atualizado em tempo real com o meu. o código de direito de bloquear esse ip?

— Tanvir Hasan

@TanvirHasan Essa é a ideia certa, desde que você tenha o endereço IP correto. É que o endereço IP ainda aparecendo em seu log de acesso quando você visitar o "local clonado"?

— MrWhite

Meu provedor de hospedagem atribui esses comandos no arquivo .htaccess e eles são os que obtêm esse endereço IP do log. Mas isto não está funcionando.

— precisa

Isso já foi resolvido?

— Closetnoc 24/03/2015

(Além da resposta de @ John.)

Existe alguma maneira de dizer ao Google para não indexar esse site?

Bastante curioso que, enquanto eles parecem ter clonado tudo (incluindo seus sitemaps XML ^{* 1} ), eles não têm clonado seu arquivo robots.txt. De fato, o robots.txt nesse site bloqueia ativamente o rastreamento de tudo! Portanto, não parece haver nada a fazer a esse respeito. Fazer uma pesquisa no site nesse domínio retorna apenas o domínio simples e um aviso informando que está bloqueado pelo robots.txt.

(Bastante curioso, qual seria a intenção deles em fazer isso? Você pode simplesmente supor que eles cometeram um erro com o robots.txt - e que talvez sim - mas isso parece mais uma exceção deliberada para mim?)

~~Além disso, enquanto seus sitemaps XML são clonados, eles não estão atualizando os URLs neles (como estão fazendo nas páginas principais do site), por isso ainda apontam para o site.~~

^{* 1} Em relação aos mapas de site XML. No seu site, "sitemap.xml" é realmente um redirecionamento para "sitemap_index.xml" e o site clonado realmente clonou o redirecionamento ... que redireciona de volta para o seu site! (Certamente um erro da parte deles.) "Sitemap_index.xml" é apenas um índice, vinculando a outros 4 mapas de site. Se algum desses sitemaps reais for solicitado diretamente no site clonado, ele será corretamente clonado e os URLs atualizados. No entanto, eu diria que é improvável que esses sitemaps sejam encontrados no site clonado devido ao redirecionamento inicial de "sitemap.xml". (?) Embora se eles enviassem "sitemap_index.xml" diretamente, isso obviamente contornaria o redirecionamento.

— Sr. White
fonte

Fiz uma solicitação para o mapa do site há apenas alguns minutos e há um redirecionamento 301 do site de spam para o site original.

— Closetnoc 24/03/2015

@closetnoc Ah sim! Eu senti falta disso antes. "sitemap.xml" também é realmente um redirecionamento no site original ... ele é redirecionado para "sitemap_index.xml". O site de spam parece estar clonando esse redirecionamento, que envia o usuário de volta ao site original! Se você solicitar qualquer um dos quatro sitemaps listados em "sitemap_index.xml" diretamente no site de spam, o site de spam os clonará corretamente, no entanto, por causa do redirecionamento inicial, acho que eles serão difíceis de encontrar, a menos que saibam enviar "sitemap_index.xml" em vez de "sitemap.xml". Eu atualizei a resposta. Obrigado.

— MrWhite

Se o site produzir backlinks para você, é importante usar a ferramenta Google Disavow, caso contrário, o algoritmo funcionará contra você, independentemente.

https://www.google.com/webmasters/tools/disavow-links-main

crie um arquivo .txt e adicione:

domain:thedamnsitethatcloned.com

faça o upload para o Google por meio das Ferramentas do Google para webmasters.

Aqui estão exatamente as etapas que eu daria para resolver esse problema. Eu sei que muitos webmasters enfrentam esse problema. Eu já tive esse problema antes e não parece haver uma resposta direta no Google (ironicamente) (é por isso que quero ajudar). Matt Cutts é o cara que você deve ouvir sobre essas questões, mas ouvi-lo é como tentar ganhar um jogo de xadrez contra um supercomputador dentro de uma casa em chamas (nenhuma ajuda a ser encontrada).

Os Cutts curtos:

Registre-se na DMCA e coloque o emblema no seu site.
Reúna todo o conteúdo copiado colando as primeiras 60 palavras do seu site no Google e submeta VIA https://www.google.com/webmasters/tools/dmca-dashboard As solicitações de DMCA aceitarão apenas permalinks.
Rejeite TODOS os sites que copiaram conteúdo com links para você. Faça isso em todas as páginas do seu site.

Minha primeira resposta foi negar o domínio, mas esqueci de mencionar que você precisa negar:

www. E
não www.

(O Google os conta como dois domínios separados).

— John
fonte