Os mecanismos de pesquisa rastreiam PDFs e, se houver, existem regras a serem seguidas ao criá-los


22

O site em que estou trabalhando possui algumas centenas de PDFs. Acho que nunca vi nenhum deles voltar em uma pesquisa, mas existem links diretamente do site externo. Eles também estão cheios de palavras-chave porque são documentos do produto.

Há algo de especial que precisamos fazer para que o Google ou outros mecanismos de pesquisa os rastreiem?

Existem regras rígidas e rápidas para criar PDFs para ajudar o Google a gostar mais deles? Por exemplo, devo executá-los no ghostscript para limpar as tags PDF quebradas que a Adobe cria durante a geração?


Adicione ao seu sitemap xml para garantir que eles estejam cientes deles?
Artlung

Respostas:


17

O Google definitivamente indexa arquivos PDF e você pode pesquisar apenas arquivos PDF adicionando filetype:pdfà sua consulta de pesquisa ( exemplo ).

Eu diria que as principais coisas a serem feitas para otimizar um PDF para que ele seja facilmente indexado seriam:

  • Atribua um nome de arquivo significativo
  • Preencha todas as propriedades de metadados do documento (título, autor, palavras-chave etc.)
  • Verifique se o PDF é composto de texto real e não imagens digitalizadas
  • Garanta que você tenha um bom conteúdo com o uso correto dos cabeçalhos, como faria com um documento HTML

Para obter mais dicas, leia Otimizando documentos PDF e Onze dicas para otimizar PDFs para mecanismos de pesquisa



@Christofian Obrigado - eu atualizei o link. Deixo para o leitor apreciar a ironia de uma empresa de SEO renomear seus links sem ter redirecionamentos 301!
Dan Diplo

@DanDiplo em relação ao SEO de arquivos PDF, sugiro adicionar um link ao conteúdo, quando aplicável.
Anagio

1

Não tenho certeza sobre outros mecanismos de pesquisa, mas, no que diz respeito ao Google, a regra principal seria não excluí-los via robots.txt

Este foi o anúncio inicial de suporte à pesquisa em PDF.


1

Assim como tornar um site compatível não pode prejudicar seu SEO, tornar seu PDF acessível não prejudica. O verificador de acessibilidade incorporado da Adobe está longe de ser perfeito, mas pelo menos a correção dessas áreas o ajudará a começar.

Eu provavelmente gasto 5 minutos em cada 4 ou 5, principalmente PDFs de texto que colocamos online. O tempo aumenta igualmente, dependendo do número de páginas e da complexidade dessas páginas.

Supondo que você tenha o Adobe Acrobat Pro para fazer sua edição:

  • Execute uma verificação completa de acessibilidade. (A verificação rápida é inútil para mim)
  • Atualize as meta informações nas propriedades do documento (palavras-chave, assunto, idioma etc.)
  • Verifique se as tags foram adicionadas
  • Verifique se o texto está marcado como texto, imagens como imagens, itens de plano de fundo como plano de fundo
  • Etiquetar cotão inútil (como decoração ou design) como plano de fundo
  • Adicione um bom texto alternativo às imagens
  • Verifique se, na ordem de leitura, o texto está ordenado corretamente
  • Na barra de ferramentas de conteúdo, verifique se o texto não está duplicado ou está traduzido incorretamente
  • Use o scanner OCR nas páginas digitalizadas

Para uma edição mais avançada, como tabelas, e erros realmente estranhos da Adobe, usamos um plug-in chamado CommonLook. O CommonLook faz o trabalho, mas eu odeio quase tanto quanto odeio as ferramentas da Adobe.

Familiarize-se com a ferramenta Retocar ordem de leitura, a barra de ferramentas Tags, a barra de ferramentas Ordem de leitura e a barra de ferramentas Conteúdo. Meu trabalho exige documentos totalmente compatíveis antes de sair para a Web, mas qualquer um pode se beneficiar de algumas propriedades simples de marcação e documento.


Nosso site tinha mais de 5.000 PDFs que tivemos que voltar e aumentar a conformidade 508. Demorou um pouco para aprender, o instrutor sugerido pela Adobe não ajudou em nada, mas, uma vez que você aprenda, pode realmente eliminá-los.
MrChrister 23/07
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.