O Google ainda está rastreando e indexando minhas páginas de teste antigas e falsas, que agora são 404 não encontradas

Configurei meu site com páginas e dados de amostra (lorem ipsum, etc.) e o Google rastreou essas páginas. Excluí todas essas páginas e adicionei conteúdo real, mas nas ferramentas para webmasters, ainda recebo muitos erros 404 do Google tentando rastrear essas páginas. Eu os configurei para "marcar como resolvido", mas algumas páginas ainda retornam como 404.

Além disso, ainda tenho muitas dessas páginas de amostra listadas quando faço uma pesquisa no meu site no Google. Como removê-los. Acho que essas páginas irrelevantes estão prejudicando minha classificação.

Na verdade, eu queria apagar todas essas páginas e começar a indexar meu site como novo, mas li que não é possível? (Enviei um sitemap e usei "Buscar como o Google".)

search-engine-indexing 404

— Ás
fonte

Respostas:

OK. Primeiras coisas primeiro. Não marque seu 404 como sendo corrigido . Você está realmente prolongando o problema. O Google tentará buscar uma página que retorne 404 várias vezes antes de desistir. Isso ocorre porque o erro 404 indica uma situação temporária em que um erro 410 diz que a página foi embora . Portanto, toda vez que você marcar um 404 como corrigido , estará dizendo ao Google para tentar novamente, iniciando o processo de eliminação novamente.

Deixe essas páginas 404 por um tempo e o Google deixará de procurá-las e eliminará as páginas do índice. Vai levar tempo, mas, com exceção do erro 410, é a maneira mais fácil. Um erro 410 tornaria o processo mais rápido, mas é mais difícil apresentar um erro 410 e um 404 é o padrão, tornando-o a solução mais fácil e natural.

Suas páginas removidas desaparecerão em cerca de 30 a 60 dias, se você puder esperar. Depende da frequência com que o Google visita suas páginas. Pode levar mais tempo, mas, uma vez encontrados os 404, o Google gosta de verificar o site pela primeira vez e, dependendo do número de 404, pode aumentar o seu site de forma mais agressiva.

Geralmente, o uso de um mapa do site geralmente não corrige nenhum problema com o índice. Isso simplifica a vida dos mecanismos de pesquisa. Ele nunca é considerado a lista de todas as páginas de qualquer site. Se um mecanismo de pesquisa ler um mapa do site e ainda encontrar páginas não listadas no mapa do site, ele continuará indexando essas páginas.

Uma opção, se fizer sentido, é listar essas páginas no seu arquivo robots.txt. Se não houver muitos (o que significa que você pode fazer e seu arquivo robots.txt não seria muito longo), essa seria uma solução mais rápida. Caso contrário, eu esperaria e deixaria os erros 404 expirarem por conta própria.

Uma última palavra. Você vai ficar bem. Realmente. Tudo funcionará muito bem para você, se você for paciente.

— closetnoc
fonte

Adicionar 404 páginas ao robots.txt parece uma má prática. Isso apenas confunde o rastreador e exige muitas tarefas domésticas completamente desnecessárias.

— Dorus 4/14

@Dorus Nem um pouco. Um não tem nada a ver com o outro. Adicionar qualquer página ao arquivo robots.txt removerá a página do índice muito rapidamente. Como assim, o motor de busca não vai tentar e acesso a arquivo e, portanto, nenhuma 404.

— closetnoc

Como você diz, se você adicioná-lo ao robots.txt, o mecanismo de pesquisa não tentará acessar a página, mas a página continuará existindo. Portanto, se algum dia você o remover dos robôs, a indexação retornará. É uma prática melhor deixar o 404 ou o 410 fazer o trabalho.

@closetnoc O que você quis dizer com it is harder to present a 410 error?

— Evgeniy

@ Evgeniy Um erro 404 é o que é fornecido por padrão (no Apache pelo menos e no IIS antigo). Um erro 410 teria que ser intencional e requer algum trabalho para que isso aconteça. Tecnicamente, não é uma tarefa difícil, no entanto, requer alguns conhecimentos, embora não muito. Felicidades!!

— Closetnoc

Depois de publicar uma página, o Google nunca a esquecerá. Eu tenho sites dos quais removi páginas há 15 anos. O Googlebot ainda volta e verifica essas páginas ocasionalmente.

Para impedir que as páginas apareçam no mecanismo de pesquisa, seus erros 404 farão o trabalho. Pode levar o Google um dia para remover a página do índice depois que o Googlebot a rastrear em seguida. Se você deseja removê-lo mais rapidamente, retorne o status "410 Gone". O Google remove 410 páginas imediatamente após o rastreamento, em vez de esperar um dia. O Google não remove 404 páginas imediatamente para impedir que os webmasters se atiram no pé, conforme descrito por Matt Cutts :

Portanto, com os 404s, junto com os 401s e os 403s, se virmos uma página e obtermos um 404, protegeremos essa página por 24 horas no sistema de rastreamento, então esperamos e dizemos que talvez fosse um transitória 404, talvez ela realmente não fosse uma página não encontrada.

Outro método que você pode considerar é o redirecionamento. O redirecionamento 301 de uma página antiga para uma substituição impedirá que ela apareça como um erro nas Ferramentas do Google para webmasters. Isso só é possível se houver uma nova página para cada uma das páginas antigas. O redirecionamento de todas as páginas de teste para sua página inicial não ajudará, porque o Google considera os redirecionamentos para a página inicial como erros "soft 404" que ainda serão exibidos nesse relatório.

Ter 404 erros nas Ferramentas do Google para webmasters não fará mal a você. A presença de alguns erros 404 no seu site pode até ajudá-lo, pois mostra ao Googlebot que seu site está configurado corretamente. Aqui está o que John Mueller do Google (que trabalha nas Ferramentas para webmasters e Sitemaps) tem a dizer sobre os erros 404 que aparecem nas ferramentas para webmasters :

SOCORRO! MEU SITE TEM 939 ERROS DE RASTEJAMENTO 1

Eu vejo esse tipo de pergunta várias vezes por semana; você não está sozinho - muitos sites têm erros de rastreamento.

Os erros 404 em URLs inválidos não prejudicam a indexação ou a classificação do seu site . Não importa se existem 100 ou 10 milhões, eles não prejudicarão a classificação do seu site. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html

Em alguns casos, os erros de rastreamento podem resultar de um problema estrutural legítimo no seu site ou no CMS. Como você conta? Verifique novamente a origem do erro de rastreamento. Se houver um link quebrado no seu site, no HTML estático da sua página, vale sempre a pena corrigi-lo. (obrigado + Martino Mosna )

E os URLs descolados que estão "claramente quebrados?" Quando nossos algoritmos gostam do seu site, eles podem tentar encontrar um conteúdo melhor, por exemplo, tentando descobrir novos URLs em JavaScript. Se tentarmos esses "URLs" e encontrarmos um 404, isso é ótimo e esperado. Só não queremos perder nada de importante (insira o meme excessivamente anexado do Googlebot aqui). http://support.google.com/webmasters/bin/answer.py?answer=1154698

Você não precisa corrigir erros de rastreamento nas Ferramentas do Google para webmasters. O recurso "marcar como fixo" serve apenas para ajudá-lo, se você quiser acompanhar o seu progresso lá; ele não altera nada em nosso pipeline de pesquisa na web. Portanto, fique à vontade para ignorá-lo, se você não precisar. http://support.google.com/webmasters/bin/answer.py?answer=2467403

Listamos os erros de rastreamento nas Ferramentas do Google para webmasters por prioridade, com base em vários fatores. Se a primeira página de erros de rastreamento for claramente irrelevante, você provavelmente não encontrará erros de rastreamento importantes em outras páginas. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html

Não há necessidade de "corrigir" erros de rastreamento no seu site. Encontrar 404 é normal e esperado de um site saudável e bem configurado. Se você tiver um novo URL equivalente, o redirecionamento para ele é uma boa prática. Caso contrário, você não deve criar conteúdo falso, não deve redirecionar para sua página inicial, não deve robots.txt não permitir esses URLs. Todas essas coisas dificultam o reconhecimento da estrutura do site e o processamento adequado. Chamamos esses erros de "soft 404". http://support.google.com/webmasters/bin/answer.py?answer=181708

Obviamente - se esses erros de rastreamento estão aparecendo nos URLs de seu interesse, talvez URLs no arquivo do Sitemap, é algo que você deve executar imediatamente. Se o Googlebot não conseguir rastrear seus URLs importantes, eles poderão ser excluídos dos nossos resultados de pesquisa e os usuários também não poderão acessá-los.

— Stephen Ostermiller
fonte

Essa não foi a minha experiência. O Google quer um novo índice e exclui as páginas rapidamente. O que vejo que parece semelhante ao que você descreve, é onde outros sites que usam a API do Google no passado, não atualizam seus dados e citam seu trabalho anterior. Esses sites geralmente são com spam / lixo eletrônico e essas citações podem aparecer / permanecer / desaparecer / reaparecer. A principal razão que vejo para isso é porque a API do Google costumava ser bastante promíscua e, portanto, não é mais, portanto, os dados de spam são muito mais antigos, porque é muito difícil obter dados mais recentes, especialmente se você já enviou spam.

— closetnoc

O Googlebot tem um modo de rastreamento que eu chamo de "encontramos uma caixa de URLs no porão". Nesse modo de rastreamento, ele pode rastrear milhares de URLs do seu site seguidamente, nenhum dos quais você usou há anos. Os URLs geralmente não têm links de entrada, mesmo de sites de raspadores. Eles são rastreados em ordem de comprimento; os URLs mais curtos são rastreados primeiro.

— Stephen Ostermiller

Isso pode ser verdade. Google é claramente grande volume de dados. Qualquer banco de dados grande possui ruído. Isso é inevitável. Isso pode ser o que você está enfrentando. É possível que vários bancos de dados estejam sendo reconciliados. Isso faz sentido. Mas também aviso que sites indesejados podem aparecer por apenas 2 horas com links e citações antigas. Eu vejo isso diariamente. Eles estão principalmente na Rússia e na Polônia. Esses sites são usados para jogos de mecanismos de pesquisa locais, mas afetam o tráfego de qualquer site e podem ser captados pelo Google. Recebo cerca de 12 deles no meu banco de dados todos os dias. Geralmente, apenas 1 em cada 12 sites permanece por qualquer período.

— closetnoc

O que é um erro 939?

— precisa

939 é o número de erros, não é um tipo de erro.

— Stephen Ostermiller

É provável que o Google continue tentando rastrear essas páginas por um longo tempo. Os webmasters cometem erros ou os sites ficam indisponíveis por qualquer motivo, para que o Google não remova o conteúdo ao primeiro sinal de 404.

Como alternativa, você pode servir um 410 Gone. Este é um sinal muito mais forte (ou seja, deliberado) de que a página literalmente "desapareceu" e não está voltando. Isso pode levar o Google a remover a página dos SERPs mais cedo.

Eu os configurei para "marcar como resolvido", mas algumas páginas ainda retornam como 404.

Eles são "resolvidos" apenas se você colocar a página de volta. Se você marcar como resolvido e a página não existir, o erro de rastreamento simplesmente se repetirá. Se a página não existir, deixe-a como está.

404 genuínos não prejudicam sua classificação na pesquisa. O relatório 404 no GWT é principalmente para seu benefício, para que você possa ver quando as coisas dão errado ... quando não podem ser encontradas páginas que devem ser encontradas!

Essas páginas irrelevantes nos SERPs talvez sejam um aborrecimento menor para seus usuários; no entanto, o que eles estão procurando para encontrar seu lorem ipsum ?

— Sr. White
fonte