Como o Google conseguiu rastrear minhas 403 páginas?

Eu tinha alguns arquivos particulares em um diretório na pasta da minha escola. Você pode ver que os arquivos existiam acessando myschool.edu/myusername/myfolder, mas tentando acessar os arquivos por meio de myschool.edu/myusername/myfolder/myfile.html retorna um erro 403.

E, no entanto, o Google de alguma forma conseguiu pegar o conteúdo desses arquivos particulares e armazená-los em seu cache! Como isso é possível? [Desde então, removi esses arquivos, por isso estou curioso para saber como o Google conseguiu fazer isso.]

web-crawlers security googlebot

— grautur
fonte

Isto pertence aos Webmasters

— RobertPitt 4/10/10

O motivo mais provável é que as páginas não retornarão um cabeçalho 403.

Você pode verificar isso usando a barra de ferramentas do desenvolvedor da Web no Firefox ou Chrome. A ferramenta está localizada em "Informações" -> "Exibir cabeçalhos de resposta".

Além disso, a maneira como eu crio minhas páginas de erro é:

Eu crio uma página de erro fictícia. Digamos 403.php .
Eu crio uma página de erro real. Por exemplo error403.php .
Na página de erro fictício, coloquei o seguinte código: <?php header("Location: /error403.php",TRUE,301); ?>
No meu .htaccess, coloquei o seguinte:

Options -Indexes

ErrorDocument 403 /403.php

Isso adiciona todos os redirecionamentos de maneira adequada e garante que eu esteja obtendo suco das minhas páginas de erro.

Na verdade, isso pode ser estendido de uma maneira extremamente interessante se o site tiver um mecanismo de pesquisa que use solicitações GET.

— Vergil Penkov
fonte