Usando rel = canonical com organização

Trabalho em um site que permite a organização de conteúdo (via APIs e dados dumps). Estamos descobrindo que vários sites que republicam nosso conteúdo estão aparecendo mais nos resultados de pesquisa do Google, mesmo sendo o editor original. Isso é frustrante.

Estamos pensando em fazer rel=canonical parte de nossos requisitos de atribuição. O Google diz que é legítimo usá-lo entre domínios e em cenários de distribuição.

Você já fez isso e o Google considera o URL canônico nas classificações de pesquisa? Isso nos ajudará a reduzir esse "spam" SERP?

— Matt Sherman
fonte

O que você está descrevendo não é spam. São pessoas fazendo o que você está pedindo que elas façam - distribuindo seu conteúdo. Spam são anúncios de email não solicitados e páginas da Web criadas com o único objetivo de bombardear pessoas com anúncios, em vez de criar algo de valor. Se esses são os tipos de sites que distribuem seu conteúdo, é necessário repensar seu modelo de organização, ou isso refletirá mal em seu site (apenas por meio de associação). Mas simplesmente ter uma classificação de pesquisa melhor do que você não gera spam em um site.

— Lèse majesté 9/10/10

@ Lèse realmente? esses sites parecem estar em desacordo direto com a regra "pouco ou nenhum conteúdo original" estabelecida pelo próprio Google google.com/support/webmasters/bin/answer.py?answer=66361

— Jeff Atwood

@ Jeff: Quais sites você está se referindo especificamente? Estou falando sobre o ato de usar a organização da web em si, que é algo que muitos sites legítimos fazem. Um site de spam não precisa usar conteúdo sindicado, e o simples uso de conteúdo sindicado não torna um site um site de spam (mesmo que eles obtenham uma classificação melhor que a sua). Caso em questão, muitas publicações de notícias importantes usam conteúdo sindicalizado da AP para complementar seu próprio conteúdo. É conteúdo duplicado? Sim. Mas é spam? Não. E também não acho que o AP esteja promovendo spam.

— Lèse majesté

@ Leia aqui as palavras-chave que complementam seu próprio conteúdo . Se TODO o conteúdo for copiado, qual valor ou interesse está sendo criado, exatamente?

— Jeff Atwood

@ Jeff: Não está claro na pergunta de Matt que esses são os sites aos quais ele está se referindo. Ele simplesmente declarou que existem sites que republicam seu conteúdo (que é o objetivo de fornecer uma API de organização) com uma classificação mais alta que o conteúdo original. Isso, para mim, não implica que esses sejam (necessariamente) sites de spam. Mas talvez minha interpretação da questão esteja incorreta.

— Lèse majesté 12/12/10

Respostas:

Jeff está 100% correto em tudo o que disse.

Outro problema ao solicitar o uso de um site de distribuição <link rel="canonical" href="http://example.com/foo">é que ele informa ao Google que a página de distribuição não deve ter o Page Rank e http://example.com/foodeve obter tudo isso.

Isso cria dois grandes problemas.

A página de organização não seria exibida nas pesquisas do Google porque não possui classificação da página. O site de organização não ficaria nem um pouco feliz com isso. Tornando improvável que eles estariam dispostos a fazer a mudança, se pudessem.
Pode não afetar o seu site da maneira que você gosta, porque você efetivamente não está sendo vinculado a partir do site Syndication. Gostaria de saber como o Google lidaria com isso. É verdade que eles permitem rel = "canonical" entre sites, mas acredito que o objetivo disso é a migração de sites e o fato de ter vários sites em um host com o mesmo conteúdo para ter uma página padrão contra um monte de páginas semelhantes / mesmas.

— Ben Hoffman
fonte

Esses são alguns bons pontos. Eu acho que a organização é uma área em que existe uma razão legítima para haver conteúdo duplicado. Nesse caso, é melhor deixar o conteúdo duplicado em paz e aceitar que é isso que é a organização. Obviamente, o Google deveria dar preferência à página original em vez das páginas dos parceiros de distribuição. Talvez seja necessário criar uma nova tag, algo entre rel="canonical"e a <cite>tag HTML5 . Dessa forma, os mecanismos de pesquisa podem saber qual página é original para conteúdo duplicado legítimo.

— Lèse majesté 9/10/10

confirmado, veja minha resposta de Matt Cutts abaixo.

— precisa

Minha pesquisa indicou que exigir um link de volta - e que o link NÃO seja deixado de seguir - era de longe o critério mais importante.

Se o site de "organização" não atribuir o conteúdo com links de volta ao original que são válidos para os mecanismos de pesquisa, os mecanismos de pesquisa terão mais dificuldade em rastrear onde o conteúdo se originou e devem aplicar um conteúdo complexo "encontre texto duplicado toda a internet "heurísticas.

Não tenho mais certeza do que isso é necessário.

Vídeo de Matt Cutts relacionado

http://www.youtube.com/watch?v=x8XdFb6LGtM

Matt disse que seria uma boa ideia usar rel = "canonical" para retornar à página em que o artigo se originou - assim como ele sempre sugeriu que os artigos sindicados incluem links convencionais (ou seja, uma <a>tag nchor) apontando para a página artigo original.

Lembre-se de que canônico não é apenas um tapa rel="canonical"em uma <a>etiqueta; é mais ou menos assim:

<html>
    <head>
         <link rel="canonical" href="http://example.com/foo">
    </head>
...

Portanto, requer um tipo diferente de trabalho, você precisa modificar cada cabeçalho da página. Não tenho certeza de que muitos desses "sindicadores" terão esse nível de controle em relação a um link simples ( sem nofollow!) De volta à fonte.

— Jeff Atwood
fonte

Eu também sugerem lendo blog de Jeff sobre este tema, Defesa Attribution Obrigatório - blog.stackoverflow.com/2010/08/defending-attribution-required

— Scott Mitchell

@scott observe que originalmente não exigíamos um link seguido, mas foi alterado porque o spider do Google estava faltando coisas que estavam em nossos dados dump que alguns dos raspadores usam ... e um link ausente que é não-seguido não ajuda a colocá-lo de volta no índice do Google!

— Jeff Atwood

@ Jeff: Em uma ligeira tangente, uma coisa que me incomodou é que os links em uma resposta Stackoverflow têm rel = "nofollow". Os usuários com um certo representante não devem obter o benefício de não rel = "nofollow" para os links que postam?

— Scott Mitchell

@scott no campo do site em seu perfil, em qualquer site do Stack Exchange, o nofollow foi removido em 2k rep como cortesia.

— quer

@ Jeff, eu estou falando sobre os links em uma resposta Stackoverflow. Por exemplo, se eu exibir uma fonte / fonte nesta mesma página, os links da sua resposta (como o do YouTube) têm rel = "nofollow". Presumo que isso seja para dissuadir os spammers, mas ao mesmo tempo parece que você está perdendo uma oportunidade de melhorar a relevância dos resultados de pesquisa para outras pessoas, sem mencionar não "dar crédito" (aos olhos do Google) à pessoa que escreveu o entrada de artigo / blog / etc. que está sendo vinculado.

— Scott Mitchell

Adicionando outra resposta porque recebi uma resposta definitiva de Matt Cutts sobre isso:

rel=canonicalfunciona em vários domínios, mas age basicamente como um redirecionamento 301 , para que as páginas do site de destino fossem diretamente para o seu site no Google. Qualquer site que use seu conteúdo seria basicamente eliminado dos mecanismos de pesquisa.

Como Matt diz, a melhor maneira de pensar rel=canonicalé como um redirecionamento 301 permanente .

Portanto, exigir um domínio cruzado rel=canonicalcomo um conjunto de termos de atribuição seria como pedir que eles redirecionassem 301 para você! Ai. : P

Sabendo disso, fica claro que ele rel=canonicalse destina apenas ao uso em sites sobre os quais você pessoalmente controla - como quando você move domínios e precisa do conteúdo de um domínio para substituir o outro.

— Jeff Atwood
fonte