Recentemente, tive um hack que adicionou milhares de páginas falsas ao meu site.
Enviei um sitemap corrigido para o Google Search Console (anteriormente chamado de Ferramentas do Google para webmasters) e virei todos os links para 410, mas o Google ainda tinha a maioria deles indexada.
Usei as Ferramentas do WebMaster - Remoção de URL em massa Extensão do Chrome para enviar automaticamente os URLs para remoção. É basicamente um script que pega uma lista dos URLs e os envia para você, um de cada vez. Levará horas para enviar todos, mas pelo menos você não precisará fazer isso sozinho. Aqui está um artigo sobre como usá-lo .
Você pode obter uma lista dos URLs indexados pelo Google baixando os dados diretamente do Search Console. Vá para Status> Cobertura do índice e selecione os resultados válidos e role para baixo. Você verá que o Google indexou uma tonelada de URLs que não estão no seu mapa do site. Você pode baixar os primeiros 1000 resultados. Aparentemente, existe uma maneira indireta de obter todos eles, não apenas os primeiros mil, mas envolve chamadas de API do Excel. Eu apenas esperei alguns dias entre cada mil, quando eles lentamente caíram do índice.
Outra rota é fazer com que um plug-in do WP crie um mapa do site e depois filtre os PDFs ou o que você estiver direcionando. Provavelmente, você precisará copiar / colar / excluir manualmente aqui. Para garantir a segurança, rolei lentamente minha lista de cerca de 2.700 URLs de spam e apaguei os URLs legítimos. Demorou apenas cerca de 20 minutos.
Se você não está tentando destruir permanentemente algo, como spam, e está tentando ofuscar recursos premium, use outros métodos para impedir a indexação desses recursos, como um arquivo de robôs. Mas se o Google não ouviu ou você deixou cair a bola, pelo menos agora você pode corrigir o problema e removê-lo do índice em apenas alguns dias.
Na minha circunstância específica, estou me perguntando por que o Google não possui um botão da máquina do tempo, nem desfaz nem redefine. A idéia é que posso dizer ao Google que o site foi hackeado alguns dias atrás, mas nós o consertamos e, portanto, desfazemos o último x número de dias de rastreamento e indexação. Mas isso seria fácil demais.