OK. Esse será um daqueles casos em que vou trabalhar no processo para que fique mais claro. Vai demorar um pouco, mas espero que não seja dolorosamente longo.
Vamos começar do começo, vamos?
Começando com o que sabemos sobre como o Google funciona com base originalmente no trabalho de pesquisa de Brin e Page em 1997, sabemos algumas coisas que provavelmente ainda estão em jogo atualmente.
O Google tem um URL no índice e busca na fila e busca a página. O código da página é armazenado em seu banco de dados para várias formas de processamento. Um dos processos seria encontrar novos links. Qualquer link encontrado pelo Google será localizado primeiro no índice do link, se existir. Caso contrário, o link será adicionado à tabela de links e adicionado à fila de busca.
Qualquer link na tabela de links possui pelo menos esses elementos, o URL do link, o URL de origem e o texto do link. É provável que existam outros elementos de dados, no entanto, estes não avançam na discussão. Qualquer link adicionado à tabela de links verificou o URL de origem, mas não necessariamente o URL de destino. Usando bancos de dados relacionais como exemplo, os URLs de origem e de destino podem ser um ID de URL na tabela de URLs e uma tabela de junção unirá os elementos de URL de origem e de URL de destino da tabela de links usando um ID de volta à tabela de URLs. Confuso? Não seja.
Para qualquer caso em que a página de destino não tenha sido buscada, o link na tabela de links é considerado um link pendente. Depois que a página é buscada, o link na tabela de links está completo. Se a página de destino não existir, o link na tabela de links será um link quebrado. Simples?
Somente links completos podem passar valor. O algoritmo PageRank requer um link completo para calcular o valor. Todos os links danificados e quebrados interrompem qualquer cálculo usando o link. Anteriormente, o PR era um processo recursivo que calculava os valores dos links usando a tabela de links repetidamente até que o valor que pode ser ajustado a qualquer link caia dentro de um valor numérico tão pequeno que efetivamente não fará diferença. Estou certo de que isso ainda ocorre como um processo de manutenção da casa. No entanto, hoje o PR é calculado usando outro método semelhante ao do lúpulo em uma rede que mede a distância de uma página para outra com importância relativa. É baseado no modelo de rede confiável, que é como o modelo original do PageRank foi projetado para emular. Um link é um voto de confiança de uma entidade para outra. Embora fique mais complicado que isso, você entendeu a foto. Ele efetivamente faz a mesma coisa que o processo recursivo, usando um cálculo em tempo real, embora provavelmente seja menos preciso, mas preciso o suficiente para ser confiável. Isso requer links completos, pois os valores de confiança (usando o modelo de rede confiável) não podem ser transmitidos se a confiança não for estabelecida. Lembre-se de que um link é um voto de confiança ou link no modelo de rede confiável. PageRank é representado como um valor confiável em uma rede confiável.
Agora que você entende os links e a importância deles, vamos seguir em frente.
Para um mecanismo de pesquisa, não faz sentido remover nenhum URL. Se um URL não existir na tabela de URLs, você não saberá nada sobre o URL e poderá ficar sem saber. Os URLs provavelmente não serão excluídos geralmente, a menos que faça sentido, por exemplo, se o URL não existir mais. No entanto, quando uma página é definida como NOINDEX, o mecanismo de pesquisa foi instruído explicitamente para NÃO indexar a página. Como uma página da Web no índice consiste em duas coisas, uma URL e o código-fonte HTML, o NOINDEX remove efetivamente a página neste momento. Os links para uma página NOINDEX estão pelo menos dangling.
Agora que você sabe como é uma página indexada, vamos mais adiante.
Há muitas maneiras pelas quais um mecanismo de pesquisa penaliza uma página da web ou site. Um está saindo da lista. Esta é a mais severa de todas as penalidades e leva muito tempo para se recuperar. Você pode comprovar esta categoria de penalidade, pois a página não será e não poderá ser encontrada. Além disso, o Googles Search Console, de maneira geral, informará que as páginas estão sendo excluídas. Das demais penalidades, as penalidades são aplicadas nos filtros SERP.
Quando uma consulta de pesquisa é executada, na verdade existem várias consultas no índice de uma só vez que são combinadas em um conjunto de resultados com base em uma parte do algoritmo. O algoritmo restante, ao qual frequentemente nos referimos como uma entidade única, é uma série de algoritmos SERP relativamente simples. Os algoritmos principais dos quais reorganizarão o conjunto de resultados com base em métricas em tempo real, como tendências. Dos algoritmos, aqueles que removem entradas do conjunto de resultados ou reduzem seriamente o posicionamento de uma entrada no conjunto de resultados são chamados de filtros. Um aplicado é o filtro que lida com DMCA, como evidenciado com...we have removed 1 result(s) from this page...
Então agora que você sabe como as multas são aplicadas, os links, os PR e os filtros DMCA estão conectados?
Com isso, sabemos que um filtro foi aplicado; no entanto, isso não tem nada a ver com o índice de links, que é como o PageRank é calculado. Está o mais longe possível do processo de link / PR. Os links e o PR estão no início do processo de indexação, enquanto a remoção da página penalizada pelo DMCA está no final do processo de consulta. De fato, esses são dois mecanismos completamente separados. Portanto, embora uma página possa ser removida devido a uma reclamação da DMCA, ela não é realmente removida do índice e, portanto, os links para e da página ainda são calculados.
Claro como lama? Espero ter explicado isso bem. Informe-me se puder esclarecer algo para você.
[Atualizar]
Uma exceção que não se aplica ao cenário do OP.
O @StephenOstermiller traz um bom ponto que não prejudica o acima exposto, no entanto, gostaria de adicioná-lo por completo.
Como você sabe, a pontuação de um site ou página na pesquisa requer muitos fatores. Embora isso não seja tão técnico ou místico como você possa imaginar, ainda há muitos fatores a serem considerados. Esqueci o efeito das pontuações de confiança principalmente porque não se aplicava ao caso do OP. Então, eu estou adicionando aqui.
Claramente, existem sites que não são bons, como sites de spam. Dentro dessa classificação de sites, existem sites que abusam habitualmente do conteúdo de direitos autorais. Esse foi um grande problema há muitos anos, em que os raspadores de conteúdo construíam sites fora do seu trabalho duro. Durante muito tempo, nada foi feito. Os sites com conteúdo original perderiam para os sites de raspador de maneira bastante consistente. Eu deveria saber. Eu tinha dois sites de PR 8 que perderam quase todo o tráfego devido a sites de raspadores sem absolutamente nenhum recurso.
No entanto, as coisas mudaram. E faz apenas quatro anos desde que as mudanças significativas começaram.
Para essas classificações especiais de sites, a pontuação de confiança dos sites pode ser significativamente reduzida. Isso é bem conhecido. Demora anos para reconstruir as pontuações de confiança e, para alguns sites, isso pode nunca acontecer. Por que, por exemplo, você acha que os monetizadores de domínio estão tão dispostos a destruir completamente um site com centenas de milhares de pessoas esperando pelo mesmo abuso? É porque a realidade é que um domínio pode arruinar seu valor além da redenção.
Existem muitos fatores que estabelecem a confiança. Eu não vou entrar nisso aqui. No entanto, saiba que a confiança é um componente importante na construção de rankings para qualquer site.
Dito isto, para qualquer site que seja um violador grave da DMCA com um histórico bastante extenso, sofrerá uma séria batida em sua pontuação de confiança. Este não é o cenário que o OP está descrevendo. No entanto, é o cenário que estou assumindo aqui.
Os links e o estabelecimento do PageRank têm mais de um componente. Um deles é o PageRank (autoridade) da própria página. Para páginas altamente autorizadas, há um limite de autoridade. Uma página de RP 8 não compartilhará um valor de 8 entre os links dessa página. Isso faz parte do algoritmo PageRank original destinado a colocar uma curva mais natural no PR. Caso contrário, seria quase impossível para uma nova página competir contra uma página com alta autoridade, mesmo após um longo período de tempo. O valor do link em si é classificado usando vários fatores, incluindo o valor semântico do texto do link, o URL do link, a localização do link (destaque), o valor semântico do bloco de conteúdo que contém o link, se aplicável, etc. Todos os links são pontuados de 0 a 0,9. O cálculo da pontuação da autoridade e do link é o valor passado por qualquer link.
Bem e bom. Então, como isso afeta um site que é um violador significativo do DMCA?
O valor de qualquer link de entrada não seria necessariamente afetado pela pontuação de confiança do site de destino, uma vez que o valor dos links vem do site de origem. No entanto, qualquer link de saída pode ser. A autoridade de qualquer site que seja um abusador significativo da DMCA seria afetada pela pontuação de confiança. Afinal, a autoridade vem da confiança. Portanto, dessa maneira, o valor de um link de entrada não seria passado pelos links de saída sem ser degradado, dependendo da pontuação de confiança.
Isso muda a resposta um pouco.
Embora não se aplique ao cenário do OP, existe um cenário em que um valor de link de entrada não é passado completamente pelo site com uma violação de DMCA. No entanto, este é um caso difícil e, portanto, o limite antes que isso aconteça é significativo.