Primeiro, é apenas uma piada e está incorreto. O Google tem muitos estatísticos muito talentosos, especialistas em recuperação de informações, linguistas, economistas, alguns psicólogos e outros. Essas pessoas passam muito tempo educando muitos não estatísticos sobre a diferença entre correlação e causalidade. Dado que é uma organização grande, pode haver bolsões, até grandes bolsões, de ignorância, mas a afirmação é definitivamente falsa. Além disso, grande parte dessa educação está voltada para os clientes, principalmente os anunciantes.
Resposta mais profunda: a diferença é extremamente importante. Basta olhar para a classificação dos resultados de pesquisa e permitir que eu vá além da "correlação" para incluir medidas de similaridade, funções de pontuação, etc. Algumas páginas são medidas como bons resultados para determinadas consultas. Eles têm uma variedade de recursos preditores que são importantes para sua classificação. Em contraste com essas páginas boas e com bons resultados para consultas, há um conjunto de páginas da Web que são páginas com resultados muito ruins para as mesmas consultas. No entanto, os criadores dessas páginas se esforçam muito para fazer com que pareçam boas páginas do ponto de vista numérico, como correspondências de texto, vinculação à Internet e muito mais. No entanto, apenas porque essas páginas são numericamente "semelhantes" às boas páginas não significa que elas sejam, de fato, boas páginas. Portanto, o Google investiu e continuará investindo muito esforço para determinar quais recursos razoáveis distinguem (separam) páginas boas e ruins.
Isso não é exatamente correlação e causalidade, mas é mais profundo que isso. Páginas boas para determinadas consultas podem ser mapeadas para um espaço numérico em que parecem semelhantes e distintas de muitas páginas irrelevantes ou ruins, mas apenas porque os resultados estão na mesma região do espaço de recurso não significa que eles provêm do mesmo subconjunto "alta qualidade" da web.
Resposta mais simples: uma perspectiva muito simples é abordar a classificação dos resultados. O melhor resultado deve ser o primeiro, mas apenas porque algo é classificado em primeiro lugar não significa que é o melhor resultado. Por algumas métricas de pontuação, você pode achar que a classificação do Google está correlacionada com um padrão-ouro de avaliações de qualidade, mas isso não significa que a classificação implique que os resultados estejam realmente nessa ordem em termos de qualidade e relevância.
Atualização (terceira resposta): Com o tempo, há outro aspecto que afeta a todos nós: é que o principal resultado do Google pode ser considerado autoritário, porque é o principal resultado do Google. Embora a análise de links (por exemplo, "PageRank" - um método para análise de links) seja uma tentativa de refletir a autoridade percebida, com o tempo, novas páginas de um tópico podem simplesmente reforçar essa estrutura de links vinculando-se ao resultado principal do Google. Uma página mais nova, com maior autoridade, tem um problema com o avanço em relação ao primeiro resultado. Como o Google deseja entregar a página mais relevante no momento , vários fatores, incluindo o chamado fenômeno de "enriquecer", surgem devido a um efeito implícito da correlação na causa percebida.
Atualização (quarta resposta): Eu percebi (para um comentário abaixo) que pode ser útil ler a Alegoria da Caverna de Platão para ter uma idéia de como interpretar correlação e causação como resultado de "reflexões / projeções" da realidade e como nós (ou nossas máquinas) percebemos isso. A correlação, estritamente limitada à correlação de Pearson, é muito limitada como uma interpretação da questão da associação de mal-entendidos (mais ampla do que apenas a correlação) e da causalidade.