Como obter dezenas de milhões de páginas indexadas pelo bot do Google?


12

Atualmente, estamos desenvolvendo um site que possui atualmente 8 milhões de páginas únicas que crescerão para cerca de 20 milhões imediatamente e, eventualmente, para cerca de 50 milhões ou mais.

Antes de criticar ... Sim, ele fornece conteúdo exclusivo e útil. Processamos continuamente dados brutos de registros públicos e, ao fazermos uma limpeza de dados, rollups de entidades e mapeamento de relacionamentos, conseguimos gerar conteúdo de qualidade, desenvolvendo um site que é bastante útil e também único, em parte devido à amplitude do dados.

Seu PR é 0 (novo domínio, sem links), e estamos obtendo uma velocidade de cerca de 500 páginas por dia, colocando-nos em cerca de 30.000 páginas indexadas até agora. Nesse ritmo, levaria mais de 400 anos para indexar todos os nossos dados.

Eu tenho duas perguntas:

  1. A taxa de indexação está diretamente correlacionada ao PR e, com isso, quero dizer, está suficientemente correlacionada para que a compra de um domínio antigo com um bom PR nos leve a uma taxa de indexação viável (na faixa de 100.000 páginas por dia).
  2. Existem consultores de SEO especializados em auxiliar o próprio processo de indexação. Estamos de outra forma fazendo muito bem com SEO, em -page especialmente, além disso, a concorrência para o nosso "long-tail" frases-chave é muito baixo, por isso nossas dobradiças sucesso principalmente sobre o número de páginas indexadas.

Nosso principal concorrente alcançou aproximadamente 20 milhões de páginas indexadas em pouco mais de um ano, juntamente com o ranking Alexa 2000.

Qualidades notáveis ​​que temos:

  • a velocidade de download da página é muito boa (250 a 500 ms)
  • sem erros (sem erros 404 ou 500 ao obter spidered)
  • usamos as ferramentas para webmasters do Google e fazemos login diariamente
  • URLs amigáveis ​​no lugar
  • Tenho medo de enviar sitemaps. Algumas postagens da comunidade SEO sugerem um novo site com milhões de páginas e nenhum PR é suspeito. Também há um vídeo de Matt Cutts no Google, sobre uma encenação encenada de sites grandes , a fim de evitar um maior escrutínio (em aproximadamente 2:30 no vídeo).

  • Os links clicáveis ​​do site exibem todas as páginas, com no máximo quatro páginas e, normalmente, não mais que 250 links internos (-ish) em uma página.
  • O texto âncora para links internos é lógico e adiciona relevância hierarquicamente aos dados nas páginas de detalhes.
  • Anteriormente, tínhamos definido a taxa de rastreamento mais alta nas ferramentas para webmasters (apenas uma página a cada dois segundos, no máximo). Recentemente, eu voltei para "deixar o Google decidir", e é isso que é recomendado.


6
Eu realmente gostaria de ver 50 milhões de páginas fornecendo conteúdo útil exclusivo. É legal que a Wikipedia não tenha tanto conhecimento em comparação com o seu site que são apenas 3,5 milhões de páginas hoje [ref. en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
Marco Demaio 11/11

3
:) Olhando além do sarcasmo ... não é o número de páginas que faz da Wikipedia uma tremenda fonte de conhecimento - claramente, sim - mais útil. Nosso site gera uma página para cada registro de uma pessoa e uma página para cada registro de uma empresa em nosso banco de dados. Utilizamos a análise e a limpeza de dados para gerar dinamicamente relacionamentos entre parceiros de negócios, representando graficamente uma rede de negócios de pessoas e corporações relacionadas. O número de páginas é uma função da quantidade de dados que temos. Torná-lo detectável por meio de pesquisa, torna-o mais útil para todos. Obrigado pelo seu comentário.
Chris Adragna

1
Obtenha mais pagerank, obtendo mais inlinks. Link para suas páginas a partir de páginas que possuem pagerank.
Alex Black

Respostas:


20

Algumas estratégias potenciais:

  • As Ferramentas do Google para webmasters permitem solicitar uma taxa de rastreamento aumentada. Tente fazer isso se você ainda não o fez.
  • Dê uma olhada na arquitetura de navegação para ver se você não pode melhorar o acesso a mais do seu conteúdo. Veja da perspectiva do usuário: se é difícil para um usuário encontrar uma informação específica, também pode ser difícil para os mecanismos de pesquisa.
  • Verifique se você não possui conteúdo duplicado devido a parâmetros de URL inconsistentes ou ao uso inadequado de barras. Ao eliminar o conteúdo duplicado, você reduz o tempo que o Googlebot gasta no rastreamento de algo que já foi indexado.
  • Use links de conteúdo relacionados e links no site sempre que possível.
  • Escolha aleatoriamente alguns dos seus links. Uma barra lateral com conteúdo interno aleatório é um ótimo padrão para usar.
  • Use datas e outros microformatos .
  • Use feeds RSS sempre que possível. Os feeds RSS funcionarão da mesma forma que um mapa do site (de fato, as Ferramentas do Google para webmasters permitem enviar um feed como um mapa do site).
  • Em relação aos sitemaps, consulte esta pergunta .
  • Encontre maneiras de obter links externos para o seu conteúdo. Isso pode acelerar o processo de indexação. Se for apropriado para o tipo de conteúdo, facilitar o compartilhamento social ou por e-mail ajudará nisso.
  • Forneça uma API para incentivar o uso de seus dados e links externos para eles. Você pode ter um link de atribuição como requisito para o uso de dados.
  • Abrace a comunidade. Se você procurar as pessoas certas da maneira certa, obterá links externos através de blogs e Twitter.
  • Procure maneiras de criar uma comunidade em torno de seus dados. Encontre uma maneira de torná-lo social. APIs, mashups, widgets sociais ajudam, mas o mesmo acontece com um blog, apresentações da comunidade, fóruns e mecânica de jogos (também, veja este vídeo ).
  • Priorize qual conteúdo você indexou. Com tantos dados, nem todos serão absolutamente vitais. Tome uma decisão estratégica sobre qual conteúdo é mais importante, por exemplo, será o mais popular, terá a melhor chance de ROI, será o mais útil etc., e verifique se o conteúdo é indexado primeiro.
  • Faça uma análise detalhada do que seu concorrente está fazendo para obter o conteúdo indexado. Veja a arquitetura do site, a navegação, os links externos etc.

Finalmente, devo dizer isso. SEO e indexação são apenas pequenas partes da administração de um site comercial. Não perca o foco no ROI em prol do SEO. Mesmo que você tenha muito tráfego do Google, não importa se você não pode convertê-lo. SEO é importante, mas precisa ser mantido em perspectiva.

Editar :

Como um adendo ao seu caso de uso: você pode considerar oferecer críticas ou depoimentos para cada pessoa ou empresa. Além disso, a distribuição de distintivos de usuário como o StackOverflow pode atrair pelo menos algumas pessoas a vincular ao seu próprio perfil no seu site. Isso encorajaria alguns links externos para suas páginas profundas, o que poderia significar ser indexado mais rapidamente.


1
+1 - Sempre é bom mencionar que o SEO é um microcosmo do maior problema de promover negócios; também é o mais fácil (para pessoas com espírito técnico, pelo menos) se perder. Mais pessoas estão assistindo TV agora do que em qualquer momento anterior da história - dependendo do que você está oferecendo, a publicidade na TV pode ter uma melhor ROI de PPC ...
danlefree

Boa ideia sobre os microformatos. Não é uma bala de prata, mas temos vários locais em que a marcação semântica usando padrões de microformato em vigor pode ser útil.
31710 Chris Haggag

1
Não sei se algum microformato (além de um carimbo de data / hora) significaria ser indexado mais rapidamente, mas pode haver outros benefícios de SEO ao usá-los. No mínimo, facilita o rastreamento das suas páginas e pode ajudar a destacar sua entrada na página de resultados do mecanismo de pesquisa (dependendo do microformato).
Virtuosi Media

5

Como obter dezenas de milhões de páginas indexadas pelo bot do Google?

Isso não acontecerá da noite para o dia, no entanto, garanto que você verá mais de suas páginas mais rapidamente se links de entrada para conteúdo profundo (particularmente páginas de mapas de sites ou índices de diretório que apontam para um conteúdo ainda mais profundo) forem adicionados a sites de tamanho semelhante que já existem há algum tempo.

Um domínio antigo será suficiente para indexar 100.000 páginas por dia?

Duvidoso, a menos que você esteja falando de um domínio antigo que teve uma quantidade significativa de atividade (conteúdo acumulado e links de entrada) ao longo dos anos.

Existem consultores de SEO especializados em auxiliar o próprio processo de indexação.

Quando você faz a pergunta dessa maneira, tenho certeza de que encontrará muitos SEOs que proclamam em voz alta "sim!" mas, no final das contas, as sugestões da Virtuosi Media são os melhores conselhos que você recebe de qualquer uma delas (para não falar dos conselhos potencialmente ruins).

Pelo que parece, considere utilizar canais de desenvolvimento de negócios e relações públicas para criar a classificação do seu site neste momento - obtenha mais links para o seu conteúdo (de preferência em parceria com um site existente que oferece conteúdo segmentado regionalmente para vincular ao seu regionalmente dividido conteúdo, por exemplo), ter mais pessoas navegando em seu site (alguns terão a barra de ferramentas do Google instalada assim que seu tráfego podem trabalhar em direção a descoberta de página), e, se possível, começar o seu negócio falado na notícia ou em comunidades das pessoas que precisam (se você planeja cobrar por determinados serviços, considere anunciar um período de teste gratuito para atrair interesse).


3

Existem duas opções possíveis que conheço que podem ajudar.

Um: Um pequeno truque que eu tentei com um site que tinha três milhões de páginas que funcionou surpreendentemente bem foi o que meu colega cunhou um loop de rastreamento. Pode ser necessário manipular um pouco a ideia para ajustá-la ao seu site.

Basicamente, estabelecemos um dia em que não achamos que receberíamos muito tráfego (natal) e literalmente copiamos uma lista de todos os links em nosso site e colamos todos em um arquivo php chamado em todas as páginas da web. (O arquivo php da barra lateral)

Em seguida, acessamos o console de pesquisa do Google (anteriormente ferramentas para webmasters do Google) e pedimos ao Google para buscar um URL e rastrear todos os links dessa página.

Como você tem muitos links e as páginas para as quais esses links também possuem uma quantidade abundante de links, o Google entra em um loop e rastreia o site de uma maneira muito mais rápida. Eu fiquei cético no começo, mas funcionou como um encanto.

Antes de fazer isso, verifique se você possui uma configuração de banco de dados extremamente eficiente e um servidor muito poderoso, caso contrário, poderá sobrecarregar o servidor ou prejudicar seu SEO devido aos lentos tempos de carregamento da página.

Se essa não é uma opção para você, você sempre pode procurar nas APIs do Google Cloud Console. Eles têm uma API do console de pesquisa para que você possa escrever um script para adicionar cada página da Web como sua própria instância de site no console de pesquisa ou para que o Google busque cada um dos seus URLs.

As APIs podem se complicar extremamente rapidamente, mas são uma ferramenta incrível quando usadas corretamente.

Boa sorte!


1
Vincular suas páginas é uma ótima estratégia para rastrear todas elas. Muito melhor do que tentar confiar em um sitemap XML. No entanto, eu deixaria esses links no lugar o tempo todo e não apenas no dia de Natal. Assim que você remover os links, o Google notará que as páginas perderam links e parará de indexá-los.
Stephen Ostermiller

2

Jogar com o sistema nunca é uma boa ideia se você estiver administrando um negócio legítimo que valoriza sua reputação online. Além disso, se seu site realmente fornecer valor, quanto mais tempo existir (presumo que você esteja fazendo alguma forma de marketing?), Mais backlinks serão acumulados, para que seu PR suba e sua taxa de rastreamento suba.

Além disso, se você possui uma boa estrutura de links em seu site (todas as suas páginas podem ser descobertas em um número razoável de cliques / links), será necessário enviar apenas os principais índices pelo sitemap. Depois que essas páginas são indexadas pelo Google, elas serão rastreadas pelo Google, e o Google indexará o restante das páginas por conta própria.


+1 RE: jogando no sistema - embora eu deva observar que existem muitas alternativas ao jogo , que permitem que um webmaster gere backlinks legítimos (que serão úteis para os visitantes) em seu site.
Danlefree 11/11/10

@danlefree: Definitivamente. Eu estava me referindo apenas à compra de nomes de domínio expirados para obter seu PR / tráfego residual. Mas se você pode anunciar seu site, envie comunicados de imprensa para publicações comerciais, sites de revisão de aplicativos etc. etc., essas são maneiras muito boas de gerar backlinks legítimos.
Lèse majesté 11/11/2010

2

Uma coisa que noto com as ferramentas para webmasters do google é que elas começam permitindo uma taxa de rastreamento máxima de cerca de duas solicitações por segundo. Cerca de uma semana depois, se eles acharem que o site é acessado com frequência, permitirão que você aumente seu limite.

Eu co-administro um site que hospeda mais de 500.000 imagens originais e, às vezes, meu limite máximo é de 10 solicitações por segundo porque recebo pelo menos 700 a 1000 acessos por dia, se não mais.

Portanto, o que você pode querer fazer é verificar as ferramentas do webmaster toda semana para ver se você pode aumentar o limite de rastreamento. Quando você altera o limite de rastreamento, o Google redefine as configurações preferidas após um determinado dia (que a interface mostrará). Então, nesse dia, aumente o limite novamente.


2

Eu já tive experiência com esse tipo de site. Eu publiquei um diretório de artigos há muitos anos e a% de páginas indexadas e, o que é mais importante, na verdade, estava correlacionada diretamente ao número de domínios de referência - ou seja, ao número de sites exclusivos vinculados. Um site grande com milhões de páginas precisa de 1.000 domínios razoáveis ​​vinculados a desempenhar por si só.

Não vai acontecer da noite para o dia, com certeza, mas você cria de 5 a 10 links bons por dia no tempo em que começará a acontecer, então você estará em posição de gerar renda e usar isso para pagar uma equipe profissional de SEO para criar links para voce.

Atualmente, estou construindo um site com informações semelhantes, rico, mas tenho o mesmo problema em torno de 4 milhões de páginas de conteúdo, com uma taxa de rastreamento de 700 a 1.000 páginas por dia.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.