Perguntas com a marcação «beautifulsoup»

Beautiful Soup é um pacote Python para análise de HTML / XML. A versão mais recente deste pacote é a versão 4, importada como bs4.

28
UnicodeEncodeError: o codec 'ascii' não pode codificar o caractere u '\ xa0' na posição 20: ordinal fora do intervalo (128)
Estou tendo problemas para lidar com caracteres unicode do texto buscado em diferentes páginas da web (em sites diferentes). Estou usando o BeautifulSoup. O problema é que o erro nem sempre é reproduzível; às vezes funciona com algumas páginas e, às vezes, vomita jogando a UnicodeEncodeError. Eu tentei praticamente tudo …

16
Como encontrar elementos por classe
Estou tendo problemas para analisar elementos HTML com o atributo "class" usando Beautifulsoup. O código fica assim soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Eu recebo um erro na mesma linha "depois" do script terminar. File "./beautifulcoding.py", line 130, in getlanguage …

12
bs4.FeatureNotFound: Não foi possível encontrar um construtor de árvores com os recursos que você solicitou: lxml. Você precisa instalar uma biblioteca analisadora?
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? As saídas acima no meu terminal. Estou no Mac OS 10.7.x. Eu tenho o Python 2.7.1 e …

6
UnicodeEncodeError: o codec 'charmap' não pode codificar caracteres
Estou tentando raspar um site, mas isso gera um erro. Estou usando o seguinte código: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) E estou recebendo o seguinte erro: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode …

5
TypeError: é necessário um objeto semelhante a bytes, não 'str' em python e CSV
TypeError: é necessário um objeto semelhante a bytes, não 'str' ficando acima do erro ao executar o código python abaixo para salvar os dados da tabela HTML no arquivo CSV. não sei como obter rideup.pls me ajudar. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content soup=BeautifulSoup(html,'html.parser') table=soup.find('table', …

11
Sopa bonita e extração de uma div e seu conteúdo por ID
soup.find("tagName", { "id" : "articlebody" }) Por que isso NÃO retorna as <div id="articlebody"> ... </div>tags e outras coisas no meio? Não retorna nada. E eu sei de fato que existe, porque eu estou olhando direto para ele soup.prettify() soup.find("div", { "id" : "articlebody" }) também não funciona. ( EDIT: …





6
Como encontrar filhos de nós usando BeautifulSoup
Quero obter todas as <a>tags que são filhas de <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Eu sei como encontrar um elemento com uma classe particular como este: soup.find("li", { "class" : "test" }) Mas não sei como encontrar todos <a>os filhos de, <li class=test>mas …

6
Extraindo um valor de atributo com beautifulsoup
Estou tentando extrair o conteúdo de um único atributo "valor" em uma tag "entrada" específica em uma página da web. Eu uso o seguinte código: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = inputTag['value'] print …

9
podemos usar o xpath com BeautifulSoup?
Estou usando o BeautifulSoup para copiar um url e tenho o seguinte código import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Agora, no código acima, podemos usar findAllpara obter tags e informações relacionadas a …



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.