Se você não possui essas outras ferramentas instaladas, apenas o wget, e a página não tem formatação, apenas texto simples e links, por exemplo, código-fonte ou uma lista de arquivos, você pode remover o HTML usando o sed assim:
wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g'
Isso usa o wget para despejar a fonte da página em STDOUT e sed para remover quaisquer pares <> e qualquer coisa entre eles.
Você pode redirecionar a saída do comando sed para o arquivo que deseja criar usando>:
wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt
NB: Você pode achar que há espaço em branco extra no arquivo que não deseja (por exemplo, as linhas são recuadas algumas colunas)
Pode ser mais fácil usar o editor de texto para organizar o arquivo (ou um formatador de fonte enquanto você baixa o código-fonte C).
Se você precisar fazer a mesma coisa simples em todas as linhas do arquivo, poderá incluir um comando para fazer isso no comando sed (aqui, removendo um espaço à esquerda):
wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt
.c
. Não é difícil, mas depende da estrutura da página. Se você fornecer um link, pode haver alguém que o ajude com o código exato. Caso contrário,sed
ouperl
são seus amigos.