Perguntas com a marcação «html-content-extraction»

Opções para raspagem de HTML? [fechadas]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 6 anos . Estou pensando em experimentar o Beautiful Soup , um pacote …

406 html web-scraping html-parsing html-content-extraction

Extraindo texto do arquivo HTML usando Python

Eu gostaria de extrair o texto de um arquivo HTML usando Python. Quero essencialmente a mesma saída que obteria se copiasse o texto de um navegador e o colasse no bloco de notas. Eu gostaria de algo mais robusto do que usar expressões regulares que podem falhar em HTML mal …

243 python html text html-content-extraction

Extrair parte de uma correspondência de regex

Eu quero uma expressão regular para extrair o título de uma página HTML. Atualmente eu tenho isso: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Existe uma expressão regular para extrair apenas o conteúdo de <title>, para que eu não precise remover as tags?

130 python html regex html-content-extraction

Texto da Página Visível da BeautifulSoup Grab

Basicamente, quero usar o BeautifulSoup para capturar estritamente o texto visível em uma página da web. Por exemplo, esta página é meu caso de teste. E quero principalmente obter o texto do corpo (artigo) e talvez até alguns nomes de guias aqui e ali. Eu tentei a sugestão nesta pergunta …

124 python text beautifulsoup html-content-extraction

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.

Licensed under cc by-sa 3.0 with attribution required.