Pesquisei a resposta para esta pergunta desta maneira: usando o Google, já que este é o exemplo que tenho, como o Google obtém datas de criação e datas modificadas e formatos de data que o Google reconhece. Por favor, entenda que essa informação não existe em apenas algumas páginas e eu tive que descobrir os dados de muitas fontes, algumas das quais parecem não se aplicar diretamente e reuni-las. Em alguns casos, as informações são derivadas de várias fontes e nem sempre são citáveis.
O Google procura datas da página nesta ordem; URL, tag de título, corpo (conteúdo), metatags, cabeçalho de resposta HTTP pelo menos no que diz respeito ao appliance. Em outros parágrafos de outros documentos, nenhuma ordem foi documentada, mas a lista foi discutida e pareceu confirmar a lista. Se você pensar bem, isso reflete a ordem que um mecanismo de pesquisa faria; um - descubra sua página (link) e dois - leia sua página de cima para baixo (título, corpo e metatag), com exceção da metatag (pequenos detalhes) e do cabeçalho de resposta HTTP. Aqui está a lista no que diz respeito ao dispositivo:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
Nota: a data de criação é a data em que a página foi solicitada pela primeira vez pelo Google. Na ausência de uma data de criação, a data de criação é usada.
1] Qualquer mecanismo de pesquisa pode solicitar um recurso por meio de uma solicitação HTTP GET e o servidor da Web retorna a data da última modificação no cabeçalho de resposta com o recurso no pacote de dados.
2] Qualquer mecanismo de pesquisa pode solicitar informações de cabeçalho de um recurso por meio de uma solicitação HTTP HEAD e o servidor da Web retorna a data modificada no cabeçalho de resposta sem o recurso no pacote de dados.
3] Qualquer mecanismo de pesquisa pode solicitar se um recurso foi modificado desde uma certa data, solicitando um recurso com um HTTP GET com if-modified-since definido como uma data. Se o recurso tiver sido modificado desde a data definida, o servidor da Web responderá com uma resposta de 200 Ok e retornará o recurso ou, se o recurso não tiver sido modificado desde a data definida, o servidor da Web responderá com um 304 Não Modificado sem retornar o recurso .
O Google faz muitas solicitações usando o método nº 3 para economizar largura de banda. Você os verá nos arquivos de log do servidor da web.
Nota: É possível que um sistema de gerenciamento de conteúdo (CMS) ou outro software não possa fornecer a data adequadamente dentro de um cabeçalho de resposta.
Esses exemplos de datas também vêm da documentação do Google Appliance, mas também existem em outros locais relacionados à pesquisa geral. Tirei esses detalhes da documentação do dispositivo simplesmente porque ele poderia ser recortado e colado como uma lista, onde em outros lugares não era tão elegante.
4] O Google procura uma data no URL. Ele procura os seguintes formatos; AAAAMMDDHH - AAAA - AAAAMM.
5] O Google procura uma data na tag do título. Ele procura os seguintes formatos; AAAAMMDDHH - AAAA - AAAAMM, embora eu suspeite que outros formatos possam ser reconhecidos. Ver abaixo.
6] O Google procura uma data na etiqueta do corpo (conteúdo). Ele procura os seguintes formatos; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY Embora eu suspeite que outros formatos possam ser reconhecidos. Ver abaixo.
Nota: Sabe-se que o Google procura especificamente uma data logo abaixo da primeira H1
tag. Isso ocorre porque os blogs geralmente colocam datas nesse local.
7] O Google procura uma metatag como esta. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
Diz-se também que o Google reconhece os seguintes formatos de data.
AAAA-MD - AAAA.MD - AAAA / M / D - MD-AAAA - MDYYYY - M / D / AAAA - AA-MM-DD - AA.MM.DD - AA / MM / DD - WK, D MON, YR - WK, MON D, ANO - D MON, YR - MON AAAA - MON D, ANO - MON AA - AAAA-DM - AAAA.DM - AAAA / D / M - DM-AAAA - DMYYYY - D / M / AAAA - DD-MM-AA - MM-DD-AA - DD / MM / AA - MM / DD / AA - AAAAMMDDHH - AAAAMMDD - AAAAMM - AAAA - DDMMYYYY - MMDDYYYY - AAAMDD - DDMMYY - MMDDYY
A pesquisa que encontrei não respondeu à questão do tempo.
No caso dos exemplos citados, as páginas não fornecem pistas de data, exceto dentro de uma tag span que pode ser ignorada. É possível que o software / servidor da Web SE não possa retornar a criação e as datas modificadas em qualquer cabeçalho de resposta.
Por que e como o Google derivou essas datas é uma boa pergunta que nunca pode ser resolvida. Vou continuar procurando no entanto.