Páginas de indexação do Google com #! embora não tenhamos nenhum

Nossa empresa desenvolveu um aplicativo de página única usando o AngularJS e seu roteamento. O Google indexou nosso site decentemente com JavaScript, mas não indexou muito bem algumas páginas, por isso desenvolvemos uma versão somente em HTML.

Seguimos a Especificação de rastreamento do Ajax postada aqui e temos uma <meta name='fragment' content='!'>tag e URLs canônicos. Esperamos http://www.example.com/foo/barser buscados http://www.example.com/?_escaped_fragment_=/foo/bar.

No entanto, descobrimos que, quando lançamos a especificação AJAX, agora todas as páginas são indexadas duas vezes, uma vez com a versão JavaScript como http://www.example.com/foo/bare outra com a nova versão como http://www.example.com/#!/foo/bar. Isso é prejudicial para nós, pois é um conteúdo duplicado e também representa mal o site externo.

Tentei procurar perguntas semelhantes aqui e no fórum do produto do Google, mas não consegui encontrar nada.

— Benjamin Gruenbaum
fonte

Você levantou esse problema com o Google? No fórum deles?

— Jérôme Verstrynge

@JVerstry sim - fiz isso imediatamente depois de postar esta pergunta: productforums.google.com/forum/… No entanto, minhas primeiras suposições são de que não entendemos o protocolo corretamente e não há algo errado com o produto, portanto, minhas chances de obter a ajuda aqui é bastante decente, além de esta questão ser relevante para um grande público-alvo aqui (todos com um aplicativo de página única que não usa #! nos URLS e deseja que o Google os indexe). Obrigado pela sugestão pelo caminho.

— Benjamin Gruenbaum

Você definiu URLs canônicos através rel="canonical"?

— kqw

redirecionando o #! URLs e camuflagem de URLs feias não parece que você está seguindo a especificação.

— Tony McCreath

Basta saber, se você não está usando #!URLs, por que está usando _escaped_fragment_e as especificações do Google AJAX?

— MrWhite

Respostas:

Em caso de dúvida, use rel="canonical". Isso pode ser tão simples quanto colocar o <link rel="canonical" href="http://blog.example.com/dresses/green-dresses-are-awesome" />seu <head>. Veja o Google para mais informações.

Isso não impedirá que os robôs rastreiem as duas "versões", mas instruirá o Google (e outros SERPs) a indexar apenas o documento canônico.

— Phil Tune
fonte

Na mesma linha, ele pode usar um arquivo robots.txt?

— precisa saber é o seguinte

Nós temos esses, eles não ajudaram neste caso.

— Benjamin Gruenbaum

Eu realmente não entendo sobre javascript.
Na indexação do Google , nos o URL canônico <head>como o @philtune diz. Mas se você não pode esperar http://www.example.com/foo/barser buscado http://www.example.com/?_escaped_fragment_=/foo/bar.

O Google Fetch acabou de buscar o canonical url.

Nesse caso, o URL é http://www.example.com/foo/bar: o Google também indexará http://www.example.com/foo/bar.

Se você deseja que o índice do Google seja sua página, adicione este script em <head>:

<meta content = 'index, follow' name = 'googlebot' />

e, em seguida, busque novamente usando o Google Fetch.

Note: o
google irá criar e seguir e rastrear o site e seguir todos os links da página. Se na sua página tiver um link http://www.example.com/?_escaped_fragment_=/foo/bare redirecionar para http://www.example.com/foo/bar, o Google indexará http://www.example.com/foo/barporque http://www.example.com/?_escaped_fragment_=/foo/barserá redirecionado para http://www.example.com/foo/bar.

— Mitchell
fonte