Se seu objetivo é que essas páginas não sejam vistas pelo público, é melhor colocar uma senha nesse conjunto de páginas. E / ou tem alguma configuração que permite apenas endereços específicos da lista de permissões capazes de acessar o site (isso pode ser feito no nível do servidor, provavelmente através do administrador do host ou do servidor).
Se seu objetivo é que essas páginas existam, apenas não indexadas pelo Google ou por outros mecanismos de pesquisa, como outros já mencionaram, você tem algumas opções, mas acho importante distinguir entre as duas principais funções da Pesquisa Google neste sense: rastreamento e indexação.
Rastreamento x indexação
O Google rastreia seu site, o Google indexa seu site. Os rastreadores encontram páginas do seu site, a indexação está organizando as páginas do seu site. Mais informações sobre isso aqui .
Essa distinção é importante ao tentar bloquear ou remover páginas do "Índice" do Google. Muitas pessoas usam o bloqueio apenas via robots.txt, que é uma diretiva que diz ao Google o que (ou o que não) deve rastrear. Supõe-se frequentemente que, se o Google não rastrear seu site, é improvável que o indexe. No entanto, é extremamente comum ver páginas bloqueadas pelo robots.txt, indexadas no Google.
Diretrizes para o Google e os mecanismos de pesquisa
Esse tipo de "diretivas" são meramente recomendações para o Google em qual parte do seu site rastrear e indexar. Eles não são obrigados a segui-los. Isso é importante saber. Ao longo dos anos, vi muitos desenvolvedores pensarem que podem bloquear o site via robots.txt e, de repente, o site está sendo indexado no Google algumas semanas depois. Se alguém criar um link para o site, ou se um dos rastreadores do Google, de alguma forma, conseguir acessá-lo, ele ainda poderá ser indexado .
Recentemente, com o painel atualizado do GSC (Google Search Console), eles têm esse relatório chamado "Relatório de cobertura do índice". Novos dados estão disponíveis para os webmasters aqui que não estavam diretamente disponíveis antes, detalhes específicos sobre como o Google lida com um determinado conjunto de páginas. Eu já vi e ouvi muitos sites recebendo "Avisos", rotulados como "Indexados, mas bloqueados pelo Robots.txt".
A documentação mais recente do Google menciona que, se você deseja que as páginas saiam do índice, adicione tags noindex nofollow.
Ferramenta Remover URLs
Apenas para aproveitar o que alguns outros mencionaram sobre a "Ferramenta Remover URL" ...
Se as páginas já estiverem indexadas e for urgente divulgá-las, a "Ferramenta de remoção de URLs" do Google permitirá que você "bloqueie temporariamente" as páginas dos resultados de pesquisa. A solicitação dura 90 dias, mas usei-a para remover as páginas mais rapidamente do Google do que usar noindex, nofollow, como uma camada extra.
Usando a "Ferramenta Remover URLs", o Google ainda rastreará a página e possivelmente a armazenará em cache, mas enquanto estiver usando esse recurso, você poderá adicionar as tags noindex nofollow, para vê-las e até os 90 dias. esperamos que saiba que não indexará mais sua página.
IMPORTANTE: O uso das tags robots.txt e noindex nofollow é um sinal conflitante para o Google.
O motivo é que, se você instruir o Google a não rastrear uma página e não tiver o nindex noindex nessa página, ele poderá não rastrear para ver a tag noindex nofollow. Em seguida, ele pode ser indexado por outro método (seja um link ou outros enfeites). Os detalhes sobre por que isso acontece são bastante vagos, mas eu já vi isso acontecer.
Em resumo, na minha opinião, a melhor maneira de impedir a indexação de URLs específicos é adicionar uma tag noindex nofollow a essas páginas. Com isso, verifique se você não está bloqueando esses URLs também com o robots.txt, pois isso pode impedir o Google de ver corretamente essas tags. Você pode aproveitar a ferramenta Remover URLs do Google para ocultá-los temporariamente dos resultados da pesquisa enquanto o Google processa seu noindex nofollow.