Preciso garantir que meu sitemap XML tenha menos de lixo (links quebrados). A lista de URLs está na casa dos centenas de milhares e, mesmo que fosse possível testá-los todos 1 por 1, prefiro não, por vários motivos:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Então eu acho que pegar um subconjunto aleatório seria suficiente, o problema é que não conheço probabilidades.
Existe uma função simples que eu possa usar?
Se isso ajudar, podemos supor ter uma informação a priori sobre a probabilidade de um link ser quebrado entre as execuções. Digamos que, entre as execuções, haja para que qualquer link seja quebrado.