(Além da resposta de @ John.)
Existe alguma maneira de dizer ao Google para não indexar esse site?
Bastante curioso que, enquanto eles parecem ter clonado tudo (incluindo seus sitemaps XML * 1 ), eles não têm clonado seu arquivo robots.txt. De fato, o robots.txt nesse site bloqueia ativamente o rastreamento de tudo! Portanto, não parece haver nada a fazer a esse respeito. Fazer uma pesquisa no site nesse domínio retorna apenas o domínio simples e um aviso informando que está bloqueado pelo robots.txt.
(Bastante curioso, qual seria a intenção deles em fazer isso? Você pode simplesmente supor que eles cometeram um erro com o robots.txt - e que talvez sim - mas isso parece mais uma exceção deliberada para mim?)
Além disso, enquanto seus sitemaps XML são clonados, eles não estão atualizando os URLs neles (como estão fazendo nas páginas principais do site), por isso ainda apontam para o site.
* 1 Em relação aos mapas de site XML. No seu site, "sitemap.xml" é realmente um redirecionamento para "sitemap_index.xml" e o site clonado realmente clonou o redirecionamento ... que redireciona de volta para o seu site! (Certamente um erro da parte deles.) "Sitemap_index.xml" é apenas um índice, vinculando a outros 4 mapas de site. Se algum desses sitemaps reais for solicitado diretamente no site clonado, ele será corretamente clonado e os URLs atualizados. No entanto, eu diria que é improvável que esses sitemaps sejam encontrados no site clonado devido ao redirecionamento inicial de "sitemap.xml". (?) Embora se eles enviassem "sitemap_index.xml" diretamente, isso obviamente contornaria o redirecionamento.