Como faço para o Google indexar meus documentos PDF?


15

Estamos com problemas para que o Google indexe os arquivos PDF em nosso site. Existem cerca de 50 PDFs e variam em tamanho de 20 KB a pouco menos de dois megas. Eles não são protegidos, podem ser lidos anonimamente e, dentro do PDF Reader, você pode pesquisar no documento.

Eles estão listados no SiteMap.xml. Eu posso até olhar os logs do IIS e ver o Googlebot lendo os arquivos PDF, mas, com exceção de cinco, eles nunca são incluídos nos resultados da pesquisa.

Se eu fizer um arquivo de filetye: pdf, apenas cinco PDFs aparecerão. Se eu procurar o texto que sei que está dentro de um PDF, os PDFs nunca serão exibidos (exceto os cinco indexados).

Alguém tem alguma idéia de por que os documentos PDF com mais de 45 anos não estão sendo incluídos no índice, mesmo estando no mapa do site e no Googlebot os lendo?


Você está especificando o tipo de conteúdo para o Google?
22710 Chris Ballance

Respostas:


4

todos os pdfs estão localizados no mesmo local? Certa vez, tive o problema de que um dos meus locais em PDF estivesse dentro de uma pasta excluída pelo robots.txt. Envie seu mapa do site diretamente para o site da ferramenta google-webmaster e você poderá obter informações valiosas sobre o porquê dos PDFs não aparecerem. no meu caso, o google me disse: 'ei, esses 54 documentos em PDF estão no seu mapa do site, mas devido às restrições do robots.txt, não podemos indexá-los'. então isso foi bastante útil. mas lembre-se do que o comentarista diz, pode demorar um pouco até que essas informações apareçam.

Ferramentas para webmasters do Google: https://www.google.com/webmasters/tools


Acrescentarei que as Ferramentas do Google para webmasters não fornecem todas as informações em tempo real. Ainda é um recurso vital.
Liam

Não, os PDFs estão localizados em vários locais diferentes no site. Eu verifiquei e nenhum deles está sendo bloqueado pelo robots.txt. Estou usando as Ferramentas do Google para webmasters e enviando Sitemaps, e continuarei fazendo isso. Obrigado pelo seu feedback. Jim

1

Pode haver um atraso entre o Google ler inicialmente seu conteúdo e ele aparecer no índice. Recentemente, relançamos um site, enviando sitemaps para o Google no lançamento, e demorou cerca de três semanas para as novas páginas começarem a aparecer nos resultados de pesquisa.

Há quanto tempo você enviou esses PDFs através do seu mapa do site?

(exceto os cinco que são indexados)

Parece que seus PDFs estão sendo indexados, mas está demorando um pouco. Presumindo que não haja diferença na maneira como os PDFs não indexados foram gerados, suspeito que seja apenas o índice que demora um pouco para atualizar.

Em uma ligeira tangente, uma ferramenta útil que eu recomendaria se inscrever é o Google Webmaster - mostra a taxa de rastreamento, problemas com seu site, mapas de site e indexação dentro de um dia ou mais após o Googlebot acessar seu site. Isso pode economizar um pouco de tempo passando pelos logs do IIS.


Faz cerca de quatro semanas desde que enviamos nosso sitemap pela primeira vez. Acabei de notar que ontem à noite eles indexaram mais quatro; então talvez eu só preciso continuar esperando :)

Quando você relançou o site, se demorou três semanas para as novas páginas começarem a aparecer nos rusults de pesquisa, isso não significava que, por três semanas, a pesquisa retornava resultados para páginas que não existiam mais no seu site? isso não resultou em muitas condições de 'página não encontrada'?

Na nossa situação, o relançamento coincidiu com o lançamento de uma nova seção, links antigos ainda funcionavam - as três semanas eram o momento para a nova seção começar a aparecer. O tempo de espera aleatório pode ser um pouco frustrante, tudo bem!
11119 ConroyP

0

Os seus arquivos PDF são digitalizados com OCR para que o texto seja selecionável e pesquisável? Ou os arquivos PDF estão sendo digitalizados sem OCR; nesse caso, o texto será armazenado como uma imagem grande? Se o PDF for todas as imagens, não acho que o Google possa indexá-lo (ainda). Ou o Google já encontrou suas páginas?


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.