Se esta for uma questão de programação, eu sugiro que você escreva sua própria expressão regular para analisar todos os conteúdos recuperados. As tags de destino são IMG e A para HTML padrão. Para JAVA,
final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";
isso, junto com as classes Pattern e Matcher, deve detectar o início das tags. Adicione a tag LINK se você também quiser CSS.
No entanto, não é tão fácil quanto você pode ter pensado inicialmente. Muitas páginas da web não são bem formadas. Extrair todos os links de forma programática que o ser humano pode "reconhecer" é realmente difícil se você precisa levar em conta todas as expressões irregulares.
Boa sorte!