Como faço para extrair todos os links externos de uma página da web e salvá-los em um arquivo?


11

Como faço para extrair todos os links externos de uma página da web e salvá-los em um arquivo?

Se você tiver alguma ferramenta de linha de comando, isso seria ótimo.

Respostas:


18

Você precisará de 2 ferramentas, lynx e awk , tente o seguinte:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Se você precisar numerar linhas, use o comando nl , tente o seguinte:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Eu não acho que isso vai funcionar para URLs relativos
Sridhar Sarnobat

8

Aqui está uma melhoria na resposta de lelton: você não precisa de awk, pois o lynx tem algumas opções úteis.

lynx -listonly -nonumbers -dump http://www.google.com.br

se você quer números

lynx -listonly -dump http://www.google.com.br

0
  1. Use Beautiful Soup para recuperar as páginas da web em questão.
  2. Use o awk para encontrar todos os URLs que não apontam para o seu domínio

Eu recomendaria Beautiful Soup sobre técnicas de raspagem de tela.


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.